Hitech logo

Обучение машин

ИИ DeepMind учится предсказывать будущее по прошлому

TODO:
Георгий Голованов11 декабря 2019 г., 11:29

Специалисты DeepMind и их коллеги из Канады разработали ИИ Dreamer, который изучает устройство мира и планирует свои действия, «представляя» их последствия.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Некоторые ИИ добиваются поставленных задач в сложных условиях, извлекая сведения о мире из прошлого опыта. Они обобщают этот опыт и выводят из него новые решения, подходящие для обстоятельств, в которых они никогда раньше не были. Обучение с подкреплением особенно хорошо подходит и для тренировки моделей, генерализирующих опыт агентов, и для приобретения новых умений, пишет Venture Beat.

Созданный усилиями команды ученых DeepMind и Университета Торонто Dreamer изучает скрытую динамику модели и предсказывает, каким будет вознаграждение исходя из действий и наблюдений ее динамики в прошлом.

В данном контексте, «скрытая динамика» означает модель, которая учится на изображениях и планирует свои действия, чтобы получить новый опыт. Она изучает неочевидные представления объектов, например, их положения и скорость.

Dreamer состоит из пяти элементов: репрезентативного компонента, который кодирует наблюдения и действия; переходного, который предвидит состояния, не видя их причин; и из поощрительного компонента, который предсказывает вознаграждение. Наконец, ценностная модель определяет ожидаемые награды, которое получит агент в результате действий, а наблюдательная модель обеспечивает сигналы обратной связи.

В ряде экспериментов ученые протестировали Dreamer на 20 задачах в программе DeepMind Control Suite. Сначала они обучили его с помощью одного графического чипа Nvidia V100 и десяти процессорных ядер на каждый цикл обучения, который занял 9 часов. Для сравнения, PlaNet, предшественник Dreamer, добился аналогичных результатов за 17 часов.

Dreamer смог использовать изученные модели мира, чтобы делать выводы на основании небольшого объема опыта и успешно продемонстрировал способность к обучению, превосходящую ведущие методы. Более того, даже для краткосрочного планирования он показал себя не хуже других ИИ.     

Специалисты DeepMind вместе с коллегами из вузов США и Великобритании исследовали вопрос, может ли искусственный интеллект обобщить свой опыт, полученный в ходе взаимодействий с объектами. В качестве ответа они разработали ИИ, способный правильно интерпретировать инструкции и делать умозаключения.