Мы в Яндекс Роботикс давно умеем обучать роботов передвигаться в пространстве и взаимодействовать с объектами. Но как только задача выходит за пределы заранее запрограммированных действий, роботы пока что оказываются беспомощны. При этом мир устроен так, что нестандартных задач на порядок больше.
Меня зовут Евгений Михайленко, я руковожу бизнесом и продуктом Physical AI в команде Яндекс Роботикс. В этой статье я разберу, как современные архитектуры и концепт Guidance, который мы объединили с тестом Возняка, помогают преодолеть разрыв между роботами‑специалистами и будущими генералистами.
В одной из наших предыдущих публикаций на Хабре мы рассказывали о роборуке с искусственным интеллектом — Пикере. Это робот‑специалист, он отлично справляется с одной конкретной задачей: мы научили его брать предмет, который он видит впервые, и аккуратно переносить его в нужное место.
Но выйти за пределы своей задачи Пикер пока не может. При этом, в зависимости от сферы применения робота, ему нужно уметь выполнять много разных действий — например:
Сборка нестандартных деталей и изделий — каждый раз компоненты разные, и приходится подстраивать силу, угол и порядок действий.
Гибкие производственные линии — небольшие партии, постоянные перенастройки оборудования.
Бытовые помощники — бесконечное число возможных сценариев: уборка, готовка, обслуживание дома.
Отсюда вывод: для решения действительно универсальных задач нужен робот‑генералист, которому задают общую цель, а он сам выбирает и комбинирует необходимые действия, чтобы её достичь.
Современных роботов — даже самых передовых — пока сложно назвать универсальными генералистами. Возникает вопрос: что требуется от технологий, чтобы создание такого робота стало возможным?
Если представить, что команда робототехников смогла алгоритмически описать все возможные варианты окружений и все реакции робота, то мы бы получили генералиста. Но в реальности это недостижимо — комбинаций слишком много. Здесь и проявляется сила нейросетей, которые умеют обобщать. Они способны решать задачи, которым их напрямую не обучали. Мы видели это на примере LLM‑ и VLM‑моделей, а также в ходе разработки нашего Пикера, который корректно работал с новыми предметами и в новой обстановке — скажем, при другом освещении и фоне.
Используя нейросети и большие объёмы данных, мы постепенно приближаемся к тому, чтобы робот понимал контекст физического мира почти так же, как человек. Например, он осознаёт, что если перевернуть кружку с водой, она прольётся.
Следующий шаг: создать универсальный «мозг», который сможет управлять разными роботами. Чтобы универсальный мозг мог работать с разными телами, мы используем подход Embodiment — «воплощение». Он состоит из нескольких этапов:
мы применяем симуляторы и данные реального мира;
собираем новые данные через телеуправление;
добавляем их к обучающему набору, чтобы «мозг» видел все возможности конкретного тела.
Мы уже проверили этот метод на Пикере: робот, обученный работе со щипковым захватом, успешно адаптировался к вакуумному — и это подтвердило эффективность Embodiment‑подхода.
Сейчас можно выделить два главных необходимых навыка роботов‑генералистов:
Понимание контекста мира и предсказания последствий своих действий. Робот должен понимать причинно‑следственные связи: если он подставит стакан под струю воды, стакан наполнится; если перевернёт стакан — вода выльется. Такая способность предвидеть результат действий — основа интеллекта робота.
Агентность, то есть умение брать инициативу, принимать решения и контролировать свои действия и окружение. Например, если поставить бытовую задачу «Уберись на кухне» роботу с высокой агентностью, он:
Понимает, что значит «убраться» — формулирует цель.
Находит грязную посуду и складывает её в посудомойку.
Замечает пролитый сок и вытирает его.
Видит мусор и относит пакет.
Меняет тряпку, если она загрязнена.
Текущие разработки в области робототехники постепенно движутся в сторону абсолютного интеллекта — когда робот действительно научится глубоко понимать окружающий мир, а взаимодействовать с ним можно будет привычным способом, «как с человеком». Несмотря на то что сегодня роботы ещё не обладают такими навыками, они уже могут быть универсальными помощниками — например, если дать ему очень подробные инструкции, что мы от него хотим. Поэтому в обучении робота мы делаем ставку на подход Guidance.
Это подход, при котором человек объясняет роботу задачу так, чтобы тот мог запоминать её и воспроизводить, и адаптирует инфраструктуру и условия задачи под текущие способности робота. В целом это напоминает промптинг в ИИ, только вместо текста — очень детальное руководство, как выполнить задачу, и подготовка окружающего пространства, а вместо генерации — исполнение задачи в физическом мире.
Так мы снимаем главный барьер массовой роботизации: необходимость долгой и дорогой интеграции под каждый кейс. Чем сложнее задача, тем детальнее должны быть инструкции для робота.
Давайте представим, что мы хотим, чтобы наш робот научился готовить кофе. Базовые знания о кофе и как его готовить у него уже есть, но нужно, чтобы он понимал, как этот процесс устроен в физическом мире. Мы готовим для него Guidance: описываем, какие кофемашины бывают, какие бывают кружки, какие кнопки нужно нажимать на различных кофемашинах, как размещать кружки на каких кофемашинах, каких сигналов нам нужно дождаться и так далее То есть это должна быть достаточно детальная и объёмная инструкция, предусматривающая разные нюансы, которые могут возникнуть во время выполнения операции. Но нам нужно подготовить такой документ всего один раз, и после этого мы сможем просить робота приготовить кофе на разных кухнях и кофемашинах.
Типичный пример элемента Guidance в плане подготовки инфраструктуры для обучения — жёлтая кнопка на кофемашине. Человек в инструкции пишет: «Американо — это жёлтая кнопка. Капучино — зелёная» и клеит наклейки на кнопки всех кофемашин в офисе. И роботу сильно проще найти жёлтую кнопку, чем разобраться в меню кофемашины. Можно тратить большое количество ресурсов, чтобы научить робота разбираться с меню кофемашины, а можно просто взять цветные стикеры. По мере того как наш робот будет становиться «умнее», необходимость в гайденсе будет снижаться (и стикеры уже не понадобятся).
Другими словами, можно долго создавать очень сильный интеллект, а можно быстро и дёшево адаптировать вокруг робота инфраструктуру, которая позволит ему работать, и дать инструкции. То есть Guidance позволяет приносить пользу раньше, чем появится абсолютный интеллект. Это не альтернатива абсолютному интеллекту, а продуктовый шорткат.
Аналогичный подход с подготовкой инфраструктуры мы можем использовать для других сценариев: скажем, сборка палеты на складе или упаковка товара на производстве. Например, если роботу тяжело работать с каким‑то размером упаковочной коробки, то имеет смысл изменить его под текущие возможности робота.
Когда речь заходит о проверке интеллекта ИИ, чаще всего вспоминают классический тест Алана Тьюринга: если человек в диалоге не может отличить машину от человека, значит, машина демонстрирует интеллект. Но что считать аналогом такого теста в робототехнике?
Сообщество предложило множество вариантов, и один из самых известных благодаря своей простоте — тест Возняка. Тест проверяет фундаментальные способности:
ориентирование в незнакомой физической среде;
распознавание объектов реального мира;
манипуляции предметами (взять, включить, налить);
планирование и выполнение цепочки действий в непредсказуемых условиях;
гибкость в реакции на неожиданные события (пролился кофе, закончилась вода, не открылась дверь).
Если возвращаться к примеру с кофемашиной, то суть теста в том, что робот должен зайти в незнакомое помещение, найти кухню, обнаружить кофемашину (или другое устройство для приготовления кофе), подобрать кружку, кофе и воду — и самостоятельно приготовить чашку кофе.
В ближайшее время мы планируем применить Guidance к тесту Возняка: дать роботу заранее составленную подробную инструкцию и посмотреть, насколько далеко он сможет пройти. В идеале робот сможет работать на разных кофепойнтах офисов Яндекса.
Сегодня роботы отлично выполняют отдельные узкие задачи, но реальный мир слишком разнообразен, чтобы всё заранее запрограммировать. Чтобы робот стал универсальным, ему нужен «мозг», который понимает контекст и умеет подстраиваться под новые ситуации.
Современные нейросети уже показывают, что такое обобщение возможно. Теперь задача — перенести эти способности в физический мир и научить один мозг работать с разными роботами. В этом помогает Embodiment — перенос навыков на разные типы «тел».
Но даже самых продвинутых моделей пока недостаточно, поэтому мы используем Guidance. Человек один раз подробно объясняет роботу задачу, а дальше он способен повторять её в новых местах и условиях.
Так мы постепенно приближаемся к моменту, когда робот сможет выполнить тест Возняка ещё до появления полноценного AGI.
Источник


