Роботы учатся чувствовать: Microsoft выпустила первую модель искусственного интеллекта для физического мира
Роботы больше не прикованы к конвейеру. Microsoft Research представила Rho-alpha — первую в своей линейке Phi фундаментальную модель для робототехники, которая переводит обычные слова в точные движения. Это ключевой шаг к созданию «физического ИИ», способного работать рядом с людьми в изменчивой реальности.
«Модели, которые видят, понимают язык и действуют, открывают новую эру автономности для систем в неструктурированной среде», — отмечает Эшли Льоренс, вице-президент Microsoft. Rho-alpha — это так называемая VLA+ модель. Помимо зрения и языка, она использует тактильные датчики и непрерывно учится на обратной связи от человека.
Её обучали на реальных демонстрациях, симуляциях в NVIDIA Isaac Sim и огромных массивах визуальных данных. В тестах на манипуляторах UR5e с сенсорами прикосновения робот по команде нажимал кнопки или вытаскивал провода. Если что-то шло не так — например, при вставке вилки, — оператор вносил коррекции с помощью 3D-мыши, и модель адаптировалась на лету.
Главная проблема — нехватка разнообразных данных для обучения. Здесь помогает симуляция. «Используя NVIDIA Isaac Sim в Azure для создания реалистичных синтетических данных, мы ускоряем разработку универсальных моделей вроде Rho-alpha», — говорит Дипу Талла, вице-президент NVIDIA.
Microsoft уже сотрудничает с промышленными партнерами, такими как Hexagon Robotics, чтобы внедрять такие решения на производствах. Цель — помочь предприятиям, особенно в условиях нехватки кадров, использовать адаптивных роботов для сложных задач. Модель доступна для раннего тестирования через исследовательскую программу компании, открывая путь к её промышленному применению.