Hitech logo

Обучение машин

DeepMind учит ИИ предвидеть опасности

TODO:
Георгий Голованов16 декабря 2019 г., 08:22

Исследователи из DeepMind описали в статье новый метод вознаграждения ИИ, применимый в ситуациях с неизвестной опасностью. Агенты смогут заметить рискованные ситуации, не попадая в них, даже в незнакомой среде.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Искусственный интеллект, обученный добиваться своей цели через подкрепление, то есть методом кнута и пряника, лежит в основе автономного транспорта, умелых роботов и систем исследования новых видов лекарств. Но поскольку такие агенты предрасположены открывать неизвестные состояния, они подвержены так называемой «проблеме безопасного изучения», когда они фиксируются на потенциально опасных действиях (например, когда робот движется в канаву), рассказывает Venture Beat.

Подход, описанный специалистами DeepMind, поощряет агента исследовать различные ситуации гипотетически. За это отвечают две системы: генеративная модель первоначальных состояний и модель динамического движения. Обе модели обучены на случайных данных. Оператор-человек отмечает нужное поведение вознаграждением, а агенты интерактивно изучают правила, чтобы получить максимальную награду. Только после того, как агенты научились предсказывать награду и небезопасные ситуации, они переходят к выполнению задач.

Ключевая идея метода заключается в активном синтезе гипотетического поведения, чтобы сделать его предельно информативным, но без непосредственного взаимодействия со средой.

Разработчики назвали его ReQueST и объяснили, что он генерирует четыре типа гипотетического поведения.

«Насколько нам известно, ReQueST — это первый алгоритм моделирования вознаграждения, который безопасно изучает небезопасные состояния и обучает модели вознаграждения нейронных сетей в среде с высокоразмерными, продолжительными состояниями, — пишет соавтор исследования. — До сих пор мы лишь демонстрировали эффективность ReQueST в симуляциях с относительно простой динамикой. Одно из направлений будущей работы — тестирование ReQueST в трехмерной среде с более реалистичной физикой, во взаимодействии с другими агентами».

Статья DeepMind вышла вскоре после появления Safety Gym, набора инструментов для обучения ИИ умению не причинять вред. Платформа обучения с подкреплением была создана разработчиками из OpenAI, которые преследовали схожие цели.