Anthropic: Claude пишет более 80% кода компании, но рекурсивное самоулучшение ИИ ещё не наступило

Anthropic опубликовала большой отчет о том, как Claude меняет разработку внутри самой компании. На май 2026 года более 80% строк кода, которые попадают в продакшен-кодовую базу Anthropic, написаны Claude.

Документ называется «When AI builds itself» — «Когда ИИ строит сам себя». В нём Anthropic описывает движение к рекурсивному самоулучшению. Так называют сценарий, при котором ИИ-система становится способна сама проектировать и разрабатывать свою следующую версию. Согласно Институту Anthropic, искусственный интеллект уже ускоряет разработку систем ИИ. В качестве примера: сегодня инженеры Anthropic в среднем выпускают в 8 раз больше кода в квартал, чем в период с 2021 по 2025 год.

Главный сдвиг произошел в рабочих агентах. Ранние модели помогали написать кусок функции или объяснить ошибку. Новые агенты уже читают кодовую базу, меняют файлы, запускают команды, проверяют результат, делегируют подзадачи другим агентам и могут работать часами. Инженер всё чаще не пишет каждую строку руками, а формулирует цель, смотрит на план, ревьюит изменения и принимает решение о слиянии.

Внутренняя метрика Anthropic показывает резкий рост объёма разработки. Во втором квартале 2026 года типичный инженер вливал примерно в 8 раз больше кода в день, чем в 2024 году. Компания сразу делает оговорку: строки кода — плохая метрика качества и почти наверняка завышают реальный прирост продуктивности. Но тренд все равно заметен: Claude стал не подсказчиком в редакторе, а участником производственного цикла.

До запуска Claude Code в исследовательском режиме в феврале 2025 года доля кода, написанного Claude, была на уровне единиц процентов. За год с небольшим эта доля выросла до более чем 80% для строк, попадающих в продакшен. Руководители Anthropic ранее публично называли ещё более высокие оценки — 90% и выше, если считать скрипты и экспериментальный код.

Ускорение видно и по длительности задач. В марте 2024 года Claude Opus 3 справлялся с программными задачами, которые у человека занимают около четырёх минут. Через год Claude Sonnet 3.7 уже решал задачи примерно на полтора часа человеческой работы. В 2026 году Claude Opus 4.6, по данным Anthropic, дошел до задач примерно на 12 часов.

На открытых задачах по кодингу прогресс тоже заметный. Anthropic пишет, что на самых свободно сформулированных задачах Claude в мае 2026 года достиг 76% успешных сессий. За шесть месяцев показатель вырос на 50 процентных пунктов. Для самой Anthropic это важная производственная метрика: модель все реже приходится поправлять, останавливать или переводить в ручной режим.

Один из показательных кейсов — исправление более 800 ошибок в апреле 2026 года. Claude снизил один класс API-ошибок в тысячу раз. Инженер, который курировал работу, оценил ручной эквивалент примерно в четыре года человеческого труда.

В исследовательских задачах Anthropic показывает похожую динамику. В тесте на ускорение обучения небольшой модели Claude получает код, который нужно оптимизировать без потери корректности. Claude Opus 4 в мае 2025 года давал примерно трехкратное ускорение. Claude Mythos Preview в апреле 2026 года уже показывал примерно 52-кратное ускорение.

Еще один эксперимент касался открытого исследовательского проекта по AI safety. Агентам Claude дали задачу про надзор слабой модели за более сильной. Люди выбрали проблему и критерии оценки, но сами агенты предлагали гипотезы, запускали эксперименты, обменивались выводами и повторяли цикл. Два исследователя за неделю восстановили около 23% разрыва между слабым и сильным результатом. Агентная система за 800 суммарных часов работы восстановила 97% разрыва и потратила около 18 тысяч долларов вычислительных ресурсов.

Люди пока лучше выбирают, какие задачи вообще стоит решать, каким результатам доверять и когда направление стало тупиковым. Компания называет это research taste — исследовательским вкусом и суждением. Claude уже силен в исполнении, проверке гипотез и переборе вариантов. Человеческая роль остаётся в постановке целей.

Это меняет роль инженера. Раньше разработчик писал код, запускал тесты и разбирал ошибки. Теперь он чаще управляет набором агентов, задает рамки, проверяет архитектуру, ловит скрытые риски и решает, какие изменения можно пускать дальше. Узким местом становится не написание кода, а ревью. Anthropic пишет, что человеческая проверка уже стала бутылочным горлышком: Claude генерирует изменения быстрее, чем люди успевают их посмотреть.

В отчёте есть и прогноз на будущее. Anthropic описывает три возможных сценария:

Рост возможностей замедлится, а нынешние модели широко разойдутся по экономике.
Лаборатории продолжат получать нарастающие выигрыши от ИИ, но люди сохранят управление исследовательскими направлениями.
Системы смогут полноценно улучшать собственных наследников, и темп прогресса начнет определяться в первую очередь вычислительными ресурсами. Третий сценарий и есть рекурсивное самоулучшение в строгом смысле. Люди в такой схеме уходят в надзор, валидацию и попытку понять, что происходит в виртуальной лаборатории, которая работает быстрее человеческой организации.

Anthropic предлагает не ждать, пока такой сценарий станет фактом. Компания пишет, что миру нужна возможность замедлить или временно поставить на паузу разработку frontier AI, если риски начнут обгонять подготовку общества и исследований. Компания готова замедлиться или временно остановиться при одном условии: другие лаборатории на переднем крае должны сделать то же самое и независимая проверка это подтвердит. Односторонняя пауза, по оценке Anthropic, просто поменяет лидера гонки и не решит системную проблему.

Отчет не доказывает, что разработчики исчезнут завтра. Он показывает другое: ценность ручного исполнения падает, а ценность постановки задач, проверки, архитектурного мышления и ответственности растет. В компаниях, которые умеют работать с агентами, один специалист сможет вести намного больше задач. В компаниях, которые не умеют, узким местом станут хаос, ревью, безопасность и доверие к результату.

Для кибербезопасности это отдельный вызов. Чем больше кода пишут агенты, тем важнее автоматическое ревью, контроль прав, изоляция окружений, проверка зависимостей, журналирование действий и понятные границы автономии. Ошибка человека обычно ограничена скоростью человека. Ошибка агента может разойтись по десяткам изменений, пайплайнам и инфраструктурным сценариям за часы.

Меню

Claude уже пишет большую часть кода Anthropic

Есть новость? Станьте автором.

Читайте также

Alibaba выпустила Qwen Image 3.0 для сложной визуальной верстки

Soofi S обогнала OLMo и Apertus в тестах

Kimi упёрлась в потолок и закрыла подписки

Выбор редакции