Anthropic выпустила Claude Fable 5: публичную версию модели Mythos, доступ к которой ограничивали из-за киберрисков

Anthropic открыла доступ к Claude Fable 5 — новой модели класса Mythos. Компания называет её самой мощной моделью Claude из тех, что уже доступны широкой аудитории. Главная интрига релиза в происхождении модели: Fable 5 построена на том же уровне технологий, что и Mythos, который раньше выдавали только ограниченному кругу партнёров из-за слишком сильных возможностей в кибербезопасности.

Anthropic сделала «гражданскую» версию модели, вокруг которой последние месяцы было много шума. Fable 5 должна лучше справляться с длинными задачами, программированием, анализом документов, изображениями, исследовательской работой и сложными агентскими сценариями. Claude Mythos 5 при этом остаётся закрытым вариантом для доверенных организаций: у него тот же базовый уровень, но часть защитных ограничений снята.

Публичный релиз Fable 5 уже доступен через Claude и API. Для разработчиков цена указана отдельно: $10 за миллион входных токенов и $50 за миллион выходных. Это дороже массовых моделей Claude, но дешевле доступа к Mythos Preview, который раньше был экспериментальной и ограниченной программой.

В апреле Anthropic раскрыла результаты внутренних тестов и описала модель Claude Mythos Preview как серьёзный скачок в задачах компьютерной безопасности. Речь шла о сценариях, где модель могла искать уязвимости, проверять их применимость и собирать цепочки эксплуатации.

В техническом разборе Anthropic писала, что Mythos Preview в тестовой среде находила уязвимости в крупных открытых кодовых базах, включая операционные системы и браузеры. Среди публично упомянутых направлений были Linux, OpenBSD, FreeBSD, Firefox и другие проекты.

Anthropic ранее работала с Mozilla и сообщала, что Claude помогла найти 271 уязвимость в Firefox за две недели. Затем исследователи проверяли, может ли модель идти дальше и строить рабочие прототипы эксплуатации. В этих экспериментах Claude смогла автоматически создать грубые браузерные эксплойты в нескольких случаях, но они работали в специально подготовленной тестовой среде, где часть защитных механизмов браузера была отключена.

Fable 5 — это попытка Anthropic вывести Mythos-класс в общий доступ, но не отдавать пользователям все рискованные возможности напрямую. Компания добавила защитные классификаторы. Они должны распознавать опасные запросы и не давать Fable 5 отвечать в чувствительных областях.

В зону повышенного риска попали кибербезопасность, биология, химия и попытки «дистилляции» модели. Дистилляция — это массовое использование ответов сильной модели для обучения другой модели, обычно более дешёвой или менее контролируемой. Если система видит такой сценарий, ответ должен обрабатываться не Fable 5, а более осторожной Claude Opus 4.8.

Anthropic утверждает, что в обычных сценариях эти предохранители почти не мешают: больше 95% сессий проходят без переключения на Opus 4.8. Но компания сразу предупреждает о ложных срабатываниях. Безопасность настроили жёстко, поэтому часть безобидных запросов может попасть под ограничение.

Вам может понравиться: ChatGPT получил режим блокировки: OpenAI закрывает один из главных каналов утечки данных через ИИ