Система сбора данных Google, AutoRT, использует модель визуального языка (VLM) и большую языковую модель (LLM), чтобы понять окружающую среду, адаптироваться к незнакомым настройкам и принять решение о соответствующих задачах. «Конституция робота», созданная по мотивам «Трех законов робототехники» Айзека Азимова, описывается как набор «подсказок, ориентированных на безопасность». Эти подсказки предписывают LLM избегать задач, в которых участвуют люди, животные, острые предметы и электрические приборы.
Первый закон Азимова категорически запрещает роботу вредить людям, второй — приказывает ему подчиняться людям до тех пор, пока это не станет противоречить первому закону, и, наконец, третий закон приказывает роботу защищать себя, не нарушая первых двух.
Для дополнительной безопасности DeepMind запрограммировала роботов на автоматическую остановку, если сила в их суставах превышает определенный порог, и включила физический аварийный выключатель, который люди-операторы могут использовать для их отключения.
За семь месяцев Google развернула парк из 53 роботов AutoRT в четырех различных офисных зданиях и провела более 77 000 испытаний. Некоторыми роботами управляли удаленно люди-операторы, тогда как другие работали либо на основе сценария, либо полностью автономно с использованием модели обучения искусственного интеллекта Robotic Transformer (RT-2) от Google.
Роботы, использованные в испытании, были оснащены только камерой, манипулятором и мобильной базой. В одном из примеров VLM AutoRT видел столешницу и ткань на ней, а также другие близлежащие объекты, например, пакет чипсов и салфетку. Затем LLM робота предлагает такие задачи, как положить салфетку на столешницу и открыть пакетик с чипсами. «Для каждого робота система использует VLM, чтобы понять окружающую среду и объекты в пределах видимости. Затем LLM предлагает список творческих задач, которые может выполнить робот, например „Положите закуску на столешницу“, и играет роль лица, принимающего решения, выбирая подходящую задачу для выполнения роботом», — объясняет Google в блоге.
Другая новая технология DeepMind включает SARA-RT, архитектуру нейронной сети, разработанную для того, чтобы сделать существующую модель RT-2 более точной и быстрой. Компания также анонсировала RT-Trajectory, которая добавляет 2D-контуры, чтобы помочь роботам лучше выполнять определенные физические задачи, такие как протирание стола.