«Следующая ступень для генеративных моделей — моделирование реалистичного опыта в ответ на действия, которые предпринимают люди, роботы и прочие интерактивные агенты», — написали исследователи. Всего этого они рассчитывают добиться при помощи UniSim, генеративной системы искусственного интеллекта, которая создает «универсальный симулятор взаимодействий реального мира», пишет VentureBeat.
UniSim — генеративная модель, которая имитирует взаимодействия людей и ИИ-агентов с миром. Она может воссоздавать визуальные последствия как высокоуровневых («открой дверцу»), так и низкоуровневых («встань на точку х, у») инструкций. Эти данные могут затем служить примерами для других моделей, которым понадобятся данные реального мира.
Поле обучения UniSim генерирует широкий спектр фотореалистичных видеоматериалов, включая людей, выполняющих различные действия, и перемещение в пространстве. Также модель способна выполнять симуляцию долгого горизонта, например, робота-манипулятора, выполняющего последовательность действий. При этом UniSim не нарушает структуру сцены и объектов в ней. Более того, модель может создавать «стохастические средовые переходы», то есть открывать различные предметы, скрытые тканью.
Как отмечают авторы, UniSim обладает чрезвычайно высокой способностью к генерации реалистичных видео по текстовым описаниям. Однако ее главное преимущество в интеграции со средой обучения с подкреплением. В этом случае UniSim позволяет проводить оффлайн-обучение моделей и агентов без необходимости во взаимодействии с реальным миром.
По словам разработчиков, UniSim может с успехом объединять информацию, которая содержится в тренировочных данных и обобщать ее, создавая богатые на опыт взаимодействия с объектами в статических сценах. Способность UniSim имитировать реалистичный опыт имеет далеко идущие последствия. Она может использоваться для обучения различных моделей, требующих высококачественных и консистентных визуальных данных.
Большие языковые модели (БЯМ) — нейронные сети, обученные на значительном объеме текста — приобрели еще одну перспективу. Команда DeepMind, подразделение Google, известное своими системами ИИ, обыгрывающими людей в настольные и видеоигры, сообщает, что БЯМ могут не только писать научные работы, художественную литературу и журналистские статьи, но и превосходно сжимать данные. Авторы выступают за то, чтобы «взглянуть на проблему прогнозирования через линзу сжатия».