Anthropic выпустила Claude Sonnet 5 — новую модель среднего класса в линейке Claude. Компания продвигает её как самую «агентную» Sonnet: модель лучше планирует действия, работает с инструментами, браузером и терминалом, а также дольше ведёт многошаговые задачи без постоянного ручного сопровождения. Релиз состоялся 30 июня 2026 года.
Главная ставка — на работу агента. Sonnet 5 должна брать задачу, разбивать её на шаги, пользоваться внешними инструментами и доводить процесс до результата. Несколько месяцев назад такой уровень автономности Anthropic связывала в основном с более дорогими Opus-моделями. Теперь часть этих возможностей переезжает в Sonnet-класс — дешевле и ближе к массовому использованию.
Модель уже стала основной для пользователей Claude Free и Pro. Также она доступна на тарифах Max, Team и Enterprise, в Claude Code и через Claude Platform. Для разработчиков открыт API с идентификатором claude-sonnet-5. В документации модель описана как вариант с лучшим балансом скорости и интеллекта: 1 млн токенов контекста, до 128 тыс. токенов вывода, текстовый и графический ввод, мультиязычность и доступ через Claude API, AWS, Google Cloud и Microsoft Foundry.
Цена на старте стала отдельным крючком. До 31 августа 2026 года Sonnet 5 стоит $2 за миллион входных токенов и $10 за миллион выходных. После промопериода тариф поднимется до $3 и $15 соответственно. Для сравнения, Opus 4.8 в документации указан по $5 за миллион входных токенов и $25 за миллион выходных. То есть Sonnet 5 метит в сценарии, где Opus уже хорош, но слишком дорог для постоянного агентного прогона.
В релизе компания сравнивает Sonnet 5 с Sonnet 4.6 и Opus 4.8. Новая модель сильнее предшественницы в рассуждении, работе с инструментами, кодинге и задачах, где нужно действовать как агент. Opus 4.8 остаётся выбором для максимальной точности, но Sonnet 5 закрывает более дешёвый слой: когда агент нужен каждый день, а не только для самых дорогих запусков.
По опубликованной таблице Anthropic, Claude Sonnet 5 набирает 63% на SWE-bench Pro и 80,4% на задачах кодинга в формате собеседований. SWE-bench Pro — это усложнённый набор задач для проверки моделей на реальных сценариях разработки: исправление багов, работа с репозиториями и проверка результата через тесты. Такой бенчмарк не равен полноценной работе инженера, но хорошо показывает, насколько модель способна копаться в чужом коде, держать контекст и не теряться в многошаговой задаче.
Agentic-часть проверяли не только на коде. В релизе упоминаются BrowseComp и OSWorld-Verified. BrowseComp оценивает способность агента искать труднодоступную информацию в интернете: в наборе 1266 вопросов, где ответ короткий и проверяемый, но его трудно найти без настойчивого поиска и перестройки стратегии. Авторы BrowseComp подчёркивают, что такой тест измеряет не «умение красиво отвечать», а способность браузерного агента упорно искать факты и собирать разрозненные подсказки.
OSWorld-Verified проверяет работу с компьютером: модель должна взаимодействовать с интерфейсами, приложениями и реальными окружениями, а не просто писать текст. Это важная метрика для новых ИИ-агентов, потому что пользователь всё чаще ждёт не ответ в чате, а готовое действие: открыть страницу, заполнить форму, поменять код, проверить результат, запустить тесты.
Важная деталь — безопасность. В своих оценках Anthropic пишет, что Sonnet 5 реже демонстрирует нежелательное поведение, чем Sonnet 4.6, лучше отказывается от вредных запросов и устойчивее к попыткам перехвата через инъекции инструкций. Компания также отмечает более низкий уровень галлюцинаций и поддакивания по сравнению с предыдущей Sonnet.
С кибербезопасностью всё аккуратнее. Sonnet 5 умеет выполнять часть обычных безопасных задач, но на проверках опасных кибернавыков уступает Opus 4.8 и Mythos 5. На тесте с разработкой эксплойтов для уязвимостей Firefox обе Sonnet-модели не смогли собрать полноценный рабочий эксплойт, но Sonnet 5 показала немного больше частичных успехов, чем Sonnet 4.6. Поэтому модель запустили с включёнными киберзащитами по умолчанию.
Есть новость? Станьте автором.
Мы сотрудничаем с независимыми исследователями и специалистами по кибербезопасности. Отправьте нам новость или предложите статью на рассмотрение редакции.
Читайте также
Fable 5 возвращается: Anthropic снова включает мощную модель Claude после экспортной паузы и усиливает защиту от обхода фильтров
Вредоносы под видом ИИ-сервисов атакуют малый бизнес: число инцидентов выросло в пять раз