
В нескольких словах
Google представила Gemini Robotics, новую модель ИИ для роботов, стремясь создать гуманоидов, способных понимать и взаимодействовать с миром подобно людям. Компания сотрудничает с ведущими производителями робототехники для тестирования и развития этой технологии, нацеленной на создание универсальных и интерактивных роботов.
«Следующим большим скачком человечества станут роботы-гуманоиды», – утверждает Рев Лебаредиан, вице-президент Omniverse и технологий моделирования в IT-гиганте Nvidia. Этот скачок, рассматриваемый как один из прорывных достижений ближайших лет, уже не за горами, и Google присоединяется к гонке, анонсируя Gemini Robotics – разработку своей модели искусственного интеллекта (ИИ) для машин, как промышленных, так и гуманоидных. Google предоставил её ведущим компаниям отрасли, таким как Apptronik, Agile Robots, Agility Robots, Boston Dynamics и Enchanted Tools, для тестирования.
До сих пор роботы были «слепыми и глупыми» механизмами, как описывает Лебаредиан старые модели, предназначенные для выполнения повторяющихся задач, но неспособные учиться, развиваться в незнакомых сценариях и действовать соответственно. Деннис Хонг, основатель RoMeLa, считает: «Будущее за роботами, способными выполнять все, что может человек». Но для этого им нужен мозг, позволяющий понимать, учиться, воспринимать и действовать. И этим мозгом является ИИ, основанный на больших языковых моделях (LLM), искусственный интеллект, способный развить машины до их высшего выражения: андроидов, роботов с внешностью и поведением, подобными человеческим, способных функционировать в мире, созданном людьми и для людей.
Роботы с искусственным интеллектом от Google пока не демонстрируют в лабораторных испытаниях таких сложных навыков, как Figure 01 – прототип, наиболее близкий к гуманоиду, предсказанному научной фантастикой и поддержанному Open AI, Nvidia и Джеффом Безосом, основателем Amazon. Но оснащенные Gemini Robotics приближаются к этому после изменения курса, принятого в 2024 году. «В прошлом году, – объясняет Каролина Парада, директор по инженерии в Google DeepMind Robotics, – мы решили принять новый вызов и сосредоточиться на обучении роботов выполнению сложных задач тонкой манипуляции, таких как завязывание шнурков, на основе данных из реального мира и моделирования для обучения».
В результате появился Gemini Robotics, модель ИИ, предназначенная для разработки роботов общего назначения (гуманоидов). «Для этого необходимо, чтобы они были действительно полезными, понимали вас, понимали мир вокруг вас и, следовательно, были способны действовать безопасно, интерактивно и умело», – уточняет Парада. Robotic Transformer 2 (RT-2) – модель, использующая ИИ Google для переноса зрения и языка в действие (VLA).
Лабораторные испытания, в которых роботы по голосовым командам собирают и хранят предметы в определенных контейнерах, описанных только по их цвету и меняющих местоположение, могут показаться простыми, но для робота это очень сложно. В этом смысле Каниша Рао, коллега Парады в DeepMind, отмечает, что роботы «хорошо работают в сценариях, с которыми сталкивались раньше, но терпят неудачу в незнакомых».
Таким образом, по словам Рао, во время испытаний машины помещались в ситуации, когда объекты, которые они должны идентифицировать и манипулировать, меняют цвет, окружающая среда меняется, а ИИ отвечает на команды для новых действий или объектов, с которыми машина не была знакома, например, забросить игрушечный баскетбольный мяч, не зная, что это за спорт.
Для достижения этих навыков, по словам Парады, ИИ робота должен понимать естественный язык, «понимать физический мир очень подробно» и, по словам Викаса Синдхвани, научного сотрудника в команде робототехники Google DeepMind, действовать безопасно посредством «оценок свойств сцены и последствий выполнения определенного действия».
Путь к безопасности еще открыт. Синдхвани утверждает, что им удалось добиться того, чтобы роботы имели широкое «понимание» этой концепции на основе как реальных, так и смоделированных данных, которыми питается их ИИ, но они продолжают корректировать, чтобы «обеспечить все более интерактивные и совместные задачи» без рисков и соблюдать три закона Айзека Азимова: робот не должен причинять вред человеку действием или бездействием; должен подчиняться приказам человека, если это не противоречит первому закону; и должен защищать свое собственное существование, если это не противоречит первому или второму закону.
Концепция нового шага Google в роботизации – перенос достижений цифрового мира, с разработкой все более совершенных агентов (помощников), в физическую среду. «В DeepMind мы добились прогресса в том, как наши модели Gemini решают сложные проблемы посредством мультимодального рассуждения на основе текстов, изображений, аудио и видео. Однако до сих пор эти навыки в значительной степени ограничивались цифровой сферой. Чтобы ИИ был полезен для людей в физическом мире, он должен демонстрировать «embodied reasoning» – человеческую способность понимать окружающий мир и реагировать на него», – объясняет Парада.
Две модели ИИ Google для роботизации – VLA (зрение-язык-действие), построенная на основе Gemini 2.0 и включающая физические действия, и ER (embodied reasoning), обладающая навыками рассуждения.
Эти инструменты – путь к реальной полезности, которую Парада резюмирует: «Модели ИИ для робототехники должны обладать тремя основными качествами: они должны быть общими, то есть способными адаптироваться к различным ситуациям; они должны быть интерактивными, что означает, что они могут понимать и быстро реагировать на инструкции или изменения в своей среде; и они должны быть умелыми, что означает, что они могут делать то, что люди обычно могут делать своими руками и пальцами, например, аккуратно манипулировать объектами».