Hitech logo

Обучение машин

IBM заставила нейросеть обучаться непрерывно, перемещаясь во времени

TODO:
Георгий Голованов5 апреля 2019 г., 10:16

Мобильная игра Flappy Bird была удалена в 2014 году по просьбе ее создателя, потому что оказалась слишком аддиктивной. Но IBM нашла способ использовать ее для исследований в области глубокого обучения.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Специалисты компании представили на этой неделе исследование о том, как машины могли бы обучаться различным навыкам — в том числе, игре в Flappy Birds — постоянно, улучшая свои показатели, а не останавливаясь, столкнувшись со слишком сложным уровнем. Такой подход называется непрерывным обучением и, несмотря на десятки лет исследований, остается до сих пор сложной задачей, пишет ZDNet.

Проблема непрерывного обучения была сформулирована в 1987 году Гейлом Карпентером и Стивеном Гроссбергом, которые назвали ее «дилеммой стабильности — пластичности».

Искусственный интеллект, писали они, должен быть «пластичным, чтобы узнавать о важных новых событиях, но должен оставаться стабильным в ответ на нерелевантные или часто повторяющиеся события».

Другими словами, нейросеть должна быть создана таким образом, чтобы сохранять и расширять то, что оптимизировано, в каждом отрезке времени. Ее цель — минимизировать вмешательство, то есть помехи обучению, и в то же время максимизировать процесс будущего обучения, меняя приоритеты на основании новой информации.

Для этого исследователи смешали два элемента оптимизации приоритетов: GEM, основанный на разработке специалистов Facebook 2017 года, и так называемый Reptile, созданный в прошлом году учеными из OpenAI. Это алгоритм помогает учиться новым вещам на опыте прошлого обучения.

Исследователи пришли к выводу, что возможности GEM и Reptile ограничены: каждый алгоритм «смотрит» лишь в одну сторону стрелы времени. GEM хочет сохранить прошлое, а Reptile хочет менять значимость только в момент изучения нового.

Вместо этого требуется симметрия, когда показатель значимости уточняется в обоих направлениях во времени.

Редкая птица

Игра Flappy Bird стала главным испытанием возможностей нового инструмента. В ней игрок должен помочь птичке безопасно добраться до места назначения, минуя преграды из труб. Разработчики определили каждое изменение аспекта игры — например, высоты труб — как новую задачу.

Затем нейросеть должна была экстраполировать данные из одной задачи в следующую, чтобы максимизировать эффект от уже изученной и обработанной информации.

Авторы испытали свой подход на двух разных тестах и в обоих случаях получили результаты, превосходящие возможности систем GEM и Reptile.

Специалисты IBM и MIT учат ИИ просить помощи и помогать друг другу. Предложенная ими стратегия коллективного обучения имитирует то, как люди получают новую информацию — не только из непосредственного наблюдения, но и от других людей.