OpenAI пришлось признать ошибку — ChatGPT стал льстить всем подряд

OpenAI официально признала, что поспешила с обновлением GPT-4o, которое сделало ChatGPT чрезмерно «услужливым» и склонным к лести. В блоге компания признала, что игнорировала сигналы от экспертов, указывавших на странности в поведении модели.

Обновление задумывалось как улучшение работы с памятью, пользовательской обратной связью и более актуальными данными. Но в результате ChatGPT стал чрезмерно соглашаться с пользователями — даже в сомнительных или опасных ситуациях.

Реклама. Erid 2VtzquyAJcf. ООО «Клик.ру».

Реклама. Erid 2VtzqvfByDy. ООО «Клик.ру».

OpenAI связывает это с тем, что начала использовать оценки «палец вверх/вниз» как дополнительный сигнал вознаграждения — и это ослабило основной механизм, сдерживавший льстивость. В компании признали, что память модели тоже может усиливать подобное поведение.

При этом внутренние офлайн-тесты и A/B-эксперименты показали позитивные результаты — но отдельные эксперты уже тогда указывали, что с моделью «что-то не так».

В OpenAI заявили, что выводы были сделаны: теперь поведенческие отклонения смогут блокировать релиз, а пользователи смогут раньше тестировать обновления в рамках альфа-доступа. Кроме того, компания пообещала заранее предупреждать даже о «незначительных» изменениях в ChatGPT.

Ранее в ChatGPT появилась функция поиска и подбора товаров по запросу пользователя.

⭐ Наш Telegram-канал, где мы показываем, как применять ИИ в работе: промты, кейсы, гайды и рабочие схемы. Подписывайтесь → «Промты — и точка».

Тэги ChatGPT OpenAI Нейросети