Технологии

CrowdStrike и NVIDIA научили ИИ понимать язык аналитиков: детали проекта Nemotron

Дарья Морозова
By Дарья Морозова , Tech-журналист, аналитик
CrowdStrike и NVIDIA научили ИИ понимать язык аналитиков: детали проекта Nemotron
Image by Anonhaven

5 января 2026 года CrowdStrike опубликовала детали сотрудничества с NVIDIA по адаптации открытых моделей Nemotron под задачи реальных операционных центров безопасности. Работа сосредоточена на том, чтобы научить искусственный интеллект понимать язык запросов CrowdStrike Query Language, которым аналитики пользуются для поиска и анализа данных в платформе Falcon.

Проблема, которую решали, выглядит так. Каждый день аналитики пишут десятки запросов на CQL, специфическом языке для работы с телеметрией безопасности. Это не SQL и не Python. Это язык, который знают только специалисты, работающие с Falcon. Задача в том, чтобы любой человек мог задать вопрос на обычном языке, например, "покажи все подключения к IP-адресу X за последние 24 часа", а модель автоматически сгенерировала правильный CQL-запрос. Это экономит время, снижает порог входа и позволяет аналитикам фокусироваться на расследовании, а не на синтаксисе.

CrowdStrike использовала Llama Nemotron Super 49B в качестве базовой модели и провела целенаправленное дообучение на миллионах реальных запросов, написанных специалистами компании. Но прежде чем эти данные можно было использовать, пришлось решить ряд технических задач.

Внутренние запросы содержали информацию вроде IP-адресов и имен хостов, которые не критичны для обучения синтаксису, но представляют собой чувствительные данные. CrowdStrike разработала систему, которая заменяет такие элементы на реалистичные, но фейковые значения, сохраняя структуру запросов. IP-адреса превращаются в адреса из приватных диапазонов, имена хостов сохраняют формат, но становятся вымышленными. Точность этой системы составила 99,35 процента, что значительно превышает сторонние решения.

После очистки нужно было добавить к каждому запросу его естественное описание на человеческом языке. Вручную аннотировать тысячи запросов дорого и долго, поэтому CrowdStrike воспользовалась NVIDIA NeMo Data Designer для синтетической генерации описаний. Две модели, NVIDIA Super 49B и gpt-oss 120B, создавали к каждому CQL-запросу соответствующее текстовое описание, отражающее его цель. Процесс включал многоступенчатую генерацию с участием третьей модели-рецензента, которая оценивала качество и предлагала улучшения.

Чтобы описания были разнообразными и естественными, система использовала разные персоны аналитиков, от начинающих специалистов до экспертов, и уровни сложности запросов. Затем результаты фильтровались по релевантности и ясности, в итоговый набор попадали только пары высокого качества. Результат: тысячи разнообразных обучающих пар, готовых для дообучения модели.

В процессе дообучения модель учили не просто выдавать готовый CQL-запрос, а сначала генерировать промежуточные шаги рассуждения. Это подход, известный как chain-of-thought, когда модель разбивает сложную задачу на логические компоненты. Такой метод делает выходы более интерпретируемыми и помогает обрабатывать запросы, которые модель не видела раньше.

Оценка проводилась двумя способами: проверка синтаксиса, чтобы убедиться, что сгенерированный запрос можно выполнить, и семантическая проверка через сравнение с эталонными запросами и результатами их выполнения. Это позволило убедиться, что модель не просто генерирует валидный код, но и передаёт правильный смысл.

Итоговая модель была протестирована против современных альтернатив. Llama Nemotron Super 49B после дообучения показала примерно 96 процентов валидности генерации CQL-запросов и лидирующую семантическую точность в своем классе. Это превосходит универсальные модели вроде GPT-4 и Claude, которые не знают специфики CrowdStrike Query Language и не обучены на реальных рабочих данных.

Результат оказался настолько убедительным, что CrowdStrike начала интеграцию в продакшн. Аналитики Falcon теперь могут задавать вопросы на естественном языке, и система автоматически генерирует запросы, сокращая трение в ежедневных рабочих процессах и ускоряя время получения результата. Это особенно важно, когда речь идёт о threat hunting или реагировании на инциденты, где каждая минута на счету.

CrowdStrike продолжает работу с NVIDIA, тестируя следующее поколение моделей Nemotron 3. Эта линейка включает три версии: Nano, Super и Ultra, что позволяет подбирать модель под конкретную задачу, балансируя между точностью, скоростью и стоимостью.

  • Nemotron 3 Nano нужен для задач, где важна скорость и масштаб. Когда система коррелирует угрозы в глобальной телеметрии или реагирует на атаки в реальном времени, задержка критична. Маленькие языковые модели позволяют проводить инференс на огромных объёмах данных без потери точности. CrowdStrike планирует протестировать Nemotron 3 Nano именно на таких сценариях.
  • Nemotron 3 Super предназначен для сложных расследовательских задач, где нужно координировать несколько AI-агентов. Например, один агент коррелирует данные threat intelligence, второй анализирует цепочки атак, третий координирует действия по реагированию. Для таких сценариев нужны расширенные способности к рассуждению, но при этом производительность должна оставаться приемлемой для продакшна.
  • Nemotron 3 Ultra зарезервирован для наиболее сложных случаев: глубокого моделирования угроз, реконструкции инцидентов и стратегического threat hunting, где скорость инференса уже не так критична, а важна глубина анализа.

Также CrowdStrike исследует специализированные модели для безопасности AI-агентов. Llama-Nemotron Safety Guard 8B v3 предназначена для обнаружения adversarial prompts и небезопасных взаимодействий на нескольких языках. Nemotron Content Safety Reasoning 4B следует доменным политикам безопасности с использованием reasoning-подхода. Эти модели критичны для AI Detection and Response, нового направления в работе CrowdStrike.

История с CrowdStrike и NVIDIA Nemotron показывает, что универсальные модели, даже самые мощные, не всегда справляются с узкоспециализированными задачами. CQL это не общедоступный язык, и никакая предобученная модель не будет писать его так же хорошо, как модель, обученная на реальных данных специалистов.

Подход через доменную адаптацию, синтетическую генерацию данных и строгую валидацию превращает foundation model в инструмент, которому можно доверять в продакшне. Для безопасности это критично, потому что ошибка в запросе может означать упущенную угрозу или, наоборот, ложное срабатывание, которое отвлекает команду от реальных инцидентов.

Более широкий контекст связан с тем, что компании начинают использовать открытые модели, но дообучают их под свои потребности, а не полагаются на API коммерческих провайдеров. Это даёт контроль над данными, снижает зависимость от внешних сервисов и позволяет адаптировать модели под требования data sovereignty и комплаенса. В случае CrowdStrike это особенно важно, потому что речь идёт о чувствительных данных клиентов из разных юрисдикций.

Немаловажно и то, что эта работа делается в контексте Charlotte AI AgentWorks, платформы CrowdStrike для агентной безопасности. Модель, переводящая естественный язык в CQL, это один из компонентов большей экосистемы автономных агентов, которые будут выполнять задачи безопасности без участия человека. Аккуратность и надёжность таких систем определяет, смогут ли клиенты доверить им реальные действия, от блокировки до изоляции хостов.

CrowdStrike планирует продолжать сотрудничество с NVIDIA, тестируя новейшие модели Nemotron 3 на усиленные возможности рассуждения, производительность на длинных контекстах и понимание логов и кода. Это шаг к тому, чтобы agentic workflows стали не экспериментом, а рабочим инструментом, который увеличивает точность детекции, надёжность автоматизации и уверенность команд безопасности в решениях, принятых AI.

CrowdStrike Falcon Platform LLM NVIDIA SOC Технологии