Anthropic выпустила Claude Sandbox и security-guidance plugin для безопасной AI-разработки

Anthropic представила две новые функции безопасности для Claude. Первая — контролируемая пользователем песочница (self-hosted sandbox), подключенная к частным MPC-серверам пользователя в Claude Managed Agents. Вторая — security-guidance плагин для обнаружения и устранения уязвимостей при написании кода в Claude Code.

Песочница выносит среду выполнения AI-агента в контролируемую инфраструктуру клиента. Плагин проверяет кодовые правки Claude и предупреждает о потенциально опасных паттернах еще до применения изменений. SecurityWeek пишет, что sandbox сейчас находится на стадии публичного бета-тестирования, а объявление о новых фичах прозвучало на мероприятии Code w/ Claude в Лондоне.

Главная идея песочницы — дать компаниям больше контроля над тем, где ИИ-агент выполняет инструменты и к каким внутренним сервисам он подключается. В обычной энтерпрайз-модели это критичный вопрос: агент может читать репозитории, дергать API, запускать команды, обращаться к тестовым окружениям и работать с файлами. Если такая активность уходит в чужую среду без понятных сетевых правил, службе безопасности будет сложно объяснить, куда уходили данные и кто мог их увидеть.

Песочница меняет эту модель. Anthropic описывает ее как среду, где Claude Managed агенты могут работать внутри границ компании — под ее сетевыми политиками, рантайм-контролем и правилами доступа. В связке с MCP туннелями агент может обращаться к приватным MCP-серверам без публикации этих сервисов в интернет. MCP, или Model Context Protocol, нужен для подключения моделей к инструментам и источникам данных: репозиториям, базам, внутренним API, тикетным системам и другим рабочим сервисам.

Для энтерпрайз команд это важно. Компании все активнее дают ИИ-агентам выполнять задачи: править файлы, запускать тесты, собирать контекст, искать баги, готовить pull request. В такой схеме безопасность зависит не только от модели, но и от среды выполнения. Где лежит рабочая копия репозитория? Кто видит артефакты? Какие команды разрешены? Можно ли агенту выходить в интернет? Есть ли доступ к продакшн-секретам? Sandbox нужна как раз для того, чтобы эти вопросы решались политиками компании.

Плагин безопасности для Claude Code — это плагин от Anthropic, который работает через хуки и проверяет операции Write, Edit и MultiEdit. То есть он срабатывает в момент, когда Claude собирается записать или изменить файл. Официальная страница плагина описывает его как security reminder hook: он сканирует код на опасные паттерны и предупреждает о рисках до применения изменений.

Плагин не заменяет полноценный SAST, ручное ревью или threat modeling. Его роль ближе к «ремню безопасности» прямо в терминале. Он ловит типовые проблемы вроде command injection, XSS и небезопасных шаблонов в коде, когда разработчик еще находится в контексте задачи. А чем раньше найден риск, тем дешевле исправление. Ошибка, пойманная до записи файла, обычно не доходит до pull request, CI и security-review.

Официальный репозиторий Anthropic указывает, что security-guidance устанавливается через Claude Code командой /plugin install security-guidance@claude-plugins-official. Среди требований — Claude Code CLI не ниже версии 2.1.144, Python 3.8+ в PATH и рабочий путь к Claude через подписку, API-ключ или стороннего провайдера. Marketplace в Claude Code поставляется включенным по умолчанию.

SecurityWeek также пишет, что Anthropic активно использовала этот плагин внутри компании. В пересказах анонса фигурирует оценка: применение security-guidance помогло снизить число комментариев о безопасности в pull request примерно на 30–40%.

Новые функции выходят в момент, когда вокруг ИИ-агентов накопилось сразу несколько рисков:

Утечка данных: агент получает доступ к коду, тикетам, секретам, логам и внутренним API.
Промпт-инъекции: вредоносная инструкция может попасть в README, issue, документацию, веб-страницу или внешний файл и повлиять на поведение агента.
Избыточные права: агенту дают больше доступа, чем нужно для задачи.
Небезопасный кодогенератор: модель пишет рабочий код, но оставляет XSS, инъекции, слабую авторизацию или хардкод секретов.

Sandbox отвечает в первую очередь на первые три риска. Security-guidance — на четвёртый, а также частично на раннее выявление опасных изменений. Вместе они показывают, что рынок ИИ-разработки уходит от простой идеи «чатбот пишет код» к модели управляемых агентов с изоляцией и политиками.

Кроме того, на прошлой неделе компания Anthropic объявила о 28 новых интеграциях Claude в области корпоративной безопасности и соответствия нормативным требованиям.

Вам может понравиться: Claude Desktop обвинили в тихой установке браузерного моста доступа для Chromium-браузеров

Вам может понравиться: Anthropic чуть не убрала Claude Code из Pro: пользователи заметили смену тарифов, компания назвала это тестом