Искусственный интеллект

OpenAI объяснила, почему ChatGPT начал видеть «гоблинов» в коде и текстах

Маша Даровская
By Маша Даровская , IT-редактор и автор
OpenAI объяснила, почему ChatGPT начал видеть «гоблинов» в коде и текстах
Обложка © Anonhaven

OpenAI разобрала необычный сбой поведения моделей GPT-5.x, особенно 5.5: ChatGPT и Codex стали слишком часто вставлять в ответы гоблинов, гремлинов, троллей, енотов, огров и голубей. История выглядит мемно, но это полезный о том, как маленький перекос в обучении модели превращается в устойчивую речевую привычку.

Первые заметные сигналы появились после запуска GPT-5.1. Внутренний анализ OpenAI показал: употребление слова «goblin» в ChatGPT выросло на 175%, а «gremlin» — на 52%. Затем эффект усилился в GPT-5.4 и снова проявился в GPT-5.5, особенно в Codex — инструменте для работы с кодом.

Причина оказалась не в шутке разработчиков и не в одном промпте. След привёл к режиму личности Nerdy — более «гиковскому» стилю общения ChatGPT. Он занимал всего 2,5% ответов, но давал 66,7% всех упоминаний «гоблинов». Система вознаграждения при обучении слишком хорошо оценивала ответы с такими образами, поэтому модель начала закреплять этот стиль как удачный.

Дальше сработал эффект переноса. Вознаграждение применялось к одному стилю, но обучение с подкреплением не держит такие привычки строго внутри одного режима. Часть сгенерированных ответов попала в следующие этапы обучения, и модель стала чаще воспроизводить тот же языковой тик уже без режима Nerdy. В данных GPT-5.5 нашли примеры с «гоблинами» и «гремлинами», а затем выявили целое семейство похожих слов: trolls, ogres, raccoons и pigeons.

OpenAI убрала режим Nerdy в марте после GPT-5.4, вычистила часть обучающих данных и отключила награду, которая подталкивала модель к таким метафорам. GPT-5.5 к тому моменту уже начал обучение, поэтому в Codex добавили отдельную инструкцию: не упоминать таких существ без явной необходимости. The Verge и Business Insider отдельно отметили, что эта строка быстро разошлась как мем после публикации в инструкциях Codex.

 

Это пример, как настройка стиля, оценка ответов и повторное использование модельных данных могут создать устойчивый шаблон речи. Особенно заметны такие казусы в инструментах вроде Codex, где пользователи ждут сухого технического ответа, а не фэнтезийной метафоры в разборе бага.

Есть новость? Станьте автором.

Мы сотрудничаем с независимыми исследователями и специалистами по кибербезопасности. Отправьте нам новость или предложите статью на рассмотрение редакции.

Вопросы по теме

Это была уязвимость?
Нет. Речь о сбое поведения и стиля, а не о взломе или утечке данных.
Что произошло?
Модели GPT-5.x начали слишком часто вставлять в ответы метафоры с гоблинами, гремлинами и другими существами.
Откуда взялась проблема?
Из режима Nerdy. Модель получала высокую оценку за игривые метафоры, а затем этот стиль распространился шире.
Почему это важно для разработчиков?
Codex используется для кода, ревью и инженерных задач. Лишний стиль в таких сценариях мешает точности и доверию к ответам.
OpenAI исправила проблему?
Компания убрала режим Nerdy, изменила обучение, отфильтровала часть данных и добавила в Codex отдельную инструкцию против нерелевантных «существ».