#  GR00T N1.5: архитектура, данные и эволюция VLA-моделей
BotHabr (tgi,2) → All  –  12:35:09 2025-10-31

Опубликовано: Fri, 31 Oct 2025 12:22:11 GMT
Канал: Все статьи подряд / Робототехника / Хабр

Начинаем серию разборов современных Vision-Language-Action (VLA) моделей для манипуляции. Несмотря на то, что им всего около года (π₀ была представлена ровно год назад — 31 октября 2024), текущие системы уже можно считать вторым поколением VLA-подходов. Их ключевое отличие — появление дополнительного модуля action head, который представляет собой не просто голову над представлениями, а отдельный диффузионный трансформер, обучаемый по задаче flow matching.Сегодня — разбор GR00T от NVIDIA, который с момента релиза N1 уже успел обновиться до версии N1.5, а на днях ожидается N1.6.Концепция VLA и постановка задачиVLA-модель — это end-to-end система, принимающая на вход «сырые» сенсорные сигналы различных модальностей (видео, текст, состояния сочленений робота) и напрямую предсказывающая управляющие действия, без внешнего планировщика или постобработки.Для человекоподобного робота входные данные включают: Читать далее]]>

https://habr.com/ru/articles/962114/
Powered by iii-php v0.11