Вокруг новой модели Claude Fable 5 от Anthropic разошелся громкий jailbreak-кейс. Исследователь и автор red teaming-инструментов под псевдонимом elder_plinius заявил, что ему удалось обойти защитные фильтры Fable 5 с помощью автономных ИИ-агентов, Unicode-преобразований, кириллических подмен, парселтанг-обфускации (вымышленный змеиный язык из вселенной Гарри Поттера) и искусственных научных контекстов.

Пока это не подтверждённый независимый взлом модели. Публичного отчета с полной методикой, логами, датами тестов, версиями модели, параметрами API, контрольными запросами и воспроизводимой проверкой третьей стороной нет.
Claude Fable 5 вышла 9 июня. Anthropic описывает ее как первую публичную модель класса Mythos — более мощного семейства, которое компания раньше ограничивала из-за рисков в кибербезопасности, биологии и других чувствительных областях. Публичная Fable 5 получила дополнительный защитный слой. Он должен распознавать потенциально опасные запросы и отдавать ответ не самой Fable 5, а Claude Opus 4.8 — менее мощной модели с более привычным контуром безопасности.
В исходном сообщении говорится, что Fable 5 удалось обмануть не прямым запросом, а через набор обходных техник. Среди них — Unicode, визуально похожие символы кириллицы, стилизованные преобразования текста, вымышленные научные фрагменты и многоагентная атака, где одна модель помогает искать формулировки против другой.
Важен сам класс атаки: запрос перестает выглядеть для фильтра как обычная вредная инструкция. Он превращается в смесь кодировок, похожих символов, псевдопереводов, ролевых рамок и научного шума. Благодаря этому классификатор безопасности может ошибиться: не увидеть опасную семантику, оценить запрос как исследовательский или пропустить его из-за нестандартной записи. Такие техники называют input perturbation — искажением входа.
Есть новость? Станьте автором.
Мы сотрудничаем с независимыми исследователями и специалистами по кибербезопасности. Отправьте нам новость или предложите статью на рассмотрение редакции.