NVIDIA опубликовала Nemotron 3 Ultra — старшую модель семейства Nemotron 3 для рассуждений, длинного контекста и агентных сценариев. Это модель с открытыми весами на 550 млрд параметров, из которых при обработке одного токена активны около 55 млрд. Такой подход относится к Mixture-of-Experts, или «смеси экспертов»: внутри модели есть много специализированных блоков, но на каждый запрос включается только часть из них.
Модель огромная по суммарному размеру, но по стоимости вычислений ведет себя ближе к системе в несколько раз меньше. Не как компактная модель для ноутбука, а как крупная серверная модель, которую можно дешевле гонять в облаке, чем плотный трансформер на те же 550 млрд параметров.
Релиз уже появился на Hugging Face и OpenRouter. На OpenRouter для Nemotron 3 Ultra заявлена цена $0,50 за миллион входных токенов и $2,50 за миллион выходных токенов. Контекстное окно — до 1 млн токенов. Есть и бесплатный маршрут, но такие версии обычно ограничены по скорости, очередям, лимитам и доступности провайдеров.
Интересна архитектура: NVIDIA использует гибрид Mamba-Transformer MoE. Это попытка совместить сильные стороны классического внимания в трансформерах и Mamba-слоев, которые лучше подходят для длинных последовательностей. У обычного внимания вычислительная сложность растет очень быстро при увеличении контекста. Mamba устроена иначе и не упирается в тот же квадратичный рост. Поэтому такие слои полезны там, где нужно читать много кода, документов, логов, переписок или результатов поиска.

В описании модели NVIDIA указывает LatentMoE — вариант смеси экспертов, который должен улучшать качество без резкого падения скорости. Также используются MTP-слои, или Multi-Token Prediction. Их задача — помогать модели предсказывать несколько токенов за шаг и ускорять генерацию.
Nemotron 3 Ultra рассчитана именно на такие сценарии. NVIDIA выделяет многошаговые агенты, анализ длинного контекста, программирование, работу с инструментами, многоязычные рассуждения и сложные RAG-системы. RAG — это подход, где модель отвечает не только из своей памяти, а получает внешние документы, фрагменты базы знаний, поисковую выдачу или корпоративные инструкции. При контексте на миллион токенов в один запрос можно вложить крупный пласт данных: длинный репозиторий, много документов, историю задачи, результаты нескольких поисковых итераций.
В карточке Hugging Face модель сравнивается с MiniMax, GLM, Kimi, Qwen и DeepSeek по наборам вроде SWE-Bench Verified, LiveCodeBench, GPQA, MMLU-Pro и другим тестам.
Nemotron 3 Ultra также поддерживает несколько языков, включая английский, французский, испанский, итальянский, немецкий, японский, корейский, хинди, бразильский португальский и китайский. Русский в списке поддерживаемых языков на карточке Hugging Face не указан.
Есть новость? Станьте автором.
Мы сотрудничаем с независимыми исследователями и специалистами по кибербезопасности. Отправьте нам новость или предложите статью на рассмотрение редакции.