Anthropic откатила скрытые ограничения Claude Fable 5 после критики исследователей ИИ

Anthropic выпустила Claude Fable 5 и Claude Mythos 5, но релиз быстро превратился в спор о доверии к frontier-моделям. Причина — скрытый защитный механизм в публичной версии Fable 5, который мог незаметно снижать качество ответов на запросы, связанные с разработкой передовых LLM.

После критики со стороны исследовательского сообщества Anthropic изменила позицию. Теперь ограничения для запросов о frontier-LLM development должны стать видимыми: пользователь получит уведомление, если запрос отклонён или перенаправлен на менее мощную модель.

Компания признала, что выбрала неправильный баланс между безопасностью и прозрачностью. Это редкий случай, когда лаборатория публично откатывает защитный механизм почти сразу после релиза модели.

Claude Fable 5 и Claude Mythos 5 — две версии одной базовой модели. Mythos 5 остается в ограниченном доступе для доверенных организаций, включая участников Project Glasswing, партнеров в кибербезопасности, инфраструктурных провайдеров и отдельных исследователей в биологии. Fable 5 — публичная версия той же модели, но с дополнительными защитными ограничениями.

Вам может понравиться: Anthropic выпустила Claude Fable 5: публичную версию модели Mythos, доступ к которой ограничивали из-за киберрисков

Anthropic описывает Mythos 5 как модель с самыми сильными кибервозможностями среди своих систем. Именно поэтому полный доступ к ней компания не открыла широкой аудитории. Fable 5 должна была стать компромиссом: пользователи получают новый уровень автономной работы, кодинга, анализа документов, зрения и длинных задач, но чувствительные направления закрываются или отправляются на менее мощную модель.

Видимые ограничения были понятны сразу. Если запрос касался кибербезопасности, биологии, химии или дистилляции модели, Fable 5 должна была перенаправлять пользователя на Claude Opus 4.8. Пользователь видел, что сработала защита, и понимал: отвечает уже не самая мощная версия.

Скандал начался из-за другого механизма.

В системной карте Fable 5 и Mythos 5 описывался отдельный класс ограничений для запросов, связанных с разработкой frontier-LLM. Речь о темах вроде предобучения, архитектуры нейросетей, распределенного обучения, ML-ускорителей и инфраструктуры для создания новых мощных моделей.

Для таких запросов Anthropic выбрала не видимый отказ и не открытое перенаправление на Opus 4.8. Модель могла отвечать, но её эффективность ограничивалась скрыто. В обсуждениях это быстро назвали silent nerfing, invisible degradation и даже «саботажем» исследователей.

Претензия понятна. Если пользователь платит за Fable 5 и не получает уведомления, что модель работает в ограниченном режиме, он может принять слабый ответ за реальное качество модели.

Anthropic объясняет такие меры безопасностью. Логика компании такая: Fable 5 и Mythos 5 слишком хорошо помогают в сложных технических задачах. Если дать модель без ограничений всем, ее могут использовать для ускорения разработки опасных систем, включая модели, которые труднее контролировать, или инфраструктуру, усиливающую недружественных игроков.

Отдельный аргумент Anthropic — конкуренты и внешние лаборатории могут использовать публичную модель для создания собственных мощных систем. В правилах Anthropic уже есть ограничения на использование Claude для обучения конкурирующих моделей. Но одно дело — прописать запрет в условиях использования. Другое — тайно ухудшать ответы, если система решила, что пользователь строит frontier-LLM.

Исследователи увидели в механизме не только safety-контур, но и конкурентный фильтр: сильная модель доступна публично, но если вы делаете что-то похожее на разработку следующего поколения ИИ, качество может незаметно просесть.

После критики Anthropic заявила, что сделает safeguards для frontier-LLM development видимыми. Теперь пользователь должен получать понятный сигнал: запрос отклонен или перенаправлен на менее мощную модель. Скрытая деградация уходит.

Fable 5 и Mythos 5 стоят дороже обычных публичных моделей Anthropic: $10 за миллион входных токенов и $50 за миллион выходных токенов. Anthropic при этом указывает, что это меньше половины цены Mythos Preview.

Вам может понравиться: Red teamer заявил о jailbreak Fable 5: новую модель Anthropic пытаются ломать через Unicode, кириллицу и «змеиный язык»