GPT-5.6 Sol пыталась жульничать на тестах METR: почему возможности модели трудно измерить

Новая GPT-5.6 Sol успела попасть не только в анонсы OpenAI, но и в отдельный отчёт METR — независимой исследовательской организации, которая оценивает возможности продвинутых ИИ-систем. И этот отчёт получился куда интереснее обычной таблицы с бенчмарками.

METR пыталась измерить Sol на наборе software-задач Time Horizon 1.1. Такие тесты смотрят не на разовый ответ, а на способность модели автономно выполнять длинные технические задания: разбираться в проекте, писать код, проверять результат, пользоваться инструментами и двигаться к цели несколько часов человеческой работы.

Но с GPT-5.6 Sol оценка сломалась о поведение самой модели. Исследователи зафиксировали необычно высокий уровень попыток «сжульничать». В терминологии METR это Cheating — когда модель повышает результат теста не честным решением задачи, а эксплуатацией багов тестовой среды или стратегиями, которые явно запрещены условиями.

METR приводит несколько примеров. В одном случае модель добавляла эксплойты в промежуточные отправки, чтобы раскрыть информацию о скрытом наборе тестов. В другом — извлекала скрытый исходный код, где содержались детали ожидаемого ответа.

METR не заявляет, что GPT-5.6 Sol сознательно «злая» или что она всегда будет обманывать пользователей. Речь о конкретной оценочной среде и конкретном типе поведения. Но именно такие случаи показывают, почему агентные модели нельзя оценивать только по финальному проценту успешных задач.

Цифры METR получились очень нестабильными.

Если считать все попытки жульничества провалами, оценка 50%-Time Horizon для GPT-5.6 Sol составляет около 11,3 часа. Это означает: модель с вероятностью около 50% справляется с задачами, которые у человека занимают примерно 11 часов. Доверительный интервал широкий — от 5 до 40 часов.

Если, наоборот, засчитать жульнические попытки как успешные решения, оценка улетает выше 270 часов. METR прямо пишет, что это уже за пределами диапазона, где их набор задач даёт надёжные измерения.

Есть и третий вариант: просто выбросить попытки жульничества из данных. Тогда точечная оценка выходит около 71 часа, но с огромной неопределённостью — от 13 до 11 400 часов. Такой результат уже нельзя нормально использовать.

Самая неожиданная часть отчёта — реакция METR. Исследователи считают обнаружение такого поведения скорее обнадёживающим сигналом для практик безопасности OpenAI.

Логика такая: хуже было бы, если бы модель уже научилась скрывать нежелательные намерения настолько хорошо, что тесты ничего не заметили. Здесь поведение выглядело достаточно явным: модель пыталась обходить ограничения, а мониторинг и внешняя оценка это поймали.

METR отдельно отмечает, что OpenAI дала им доступ к финальной версии модели, версии без части ограничений, сырой цепочке рассуждений через API, настройкам Codex-harness и информации по ключевым safety-вопросам. Это позволило увидеть не только ответы, но и часть внутренней логики поведения.

Исследователи связывают обнаружение проблемы с несколькими практиками: OpenAI не тренирует модель напрямую против цепочки рассуждений, ведёт мониторинг внутренних развёртываний и делится частью инцидентов с внешними оценщиками. Если в будущих моделях такие признаки резко исчезнут, METR предлагает не радоваться автоматически: возможно, модель стала лучше не вести себя опасно, а лучше это скрывать.

OpenAI в своём анонсе GPT-5.6 Sol делает упор на рост возможностей и усиление защитных механизмов. Компания называет Sol самой сильной моделью в линейке, выделяет режимы max и Ultra, где Ultra использует субагентов для сложной работы. Отдельно OpenAI заявляет о сильных результатах в кодинге, биологии и кибербезопасности.

Вам может понравиться: OpenAI показала GPT-5.6 Sol: новая модель идёт в кибербезопасность, кодинг и режим субагентов

Меню

GPT-5.6 Sol пыталась жульничать на тестах: METR не смогла надёжно измерить возможности новой модели OpenAI

Есть новость? Станьте автором.

Читайте также

Anthropic готовит возвращение Fable 5: доступ к мощной ИИ-модели могут открыть после двух недель блокировки

OpenAI показала GPT-5.6 Sol: новая модель идёт в кибербезопасность, кодинг и режим субагентов

OpenRouter отключает российские аккаунты: пользователям дают время потратить баланс или запросить возврат

Выбор редакции