IBM заставила нейросеть обучаться непрерывно, перемещаясь во времени

Обучение машин

Георгий Голованов5 апреля 2019 г., 10:16

Георгий Голованов5 апреля 2019 г., 10:16

Мобильная игра Flappy Bird была удалена в 2014 году по просьбе ее создателя, потому что оказалась слишком аддиктивной. Но IBM нашла способ использовать ее для исследований в области глубокого обучения.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Специалисты компании представили на этой неделе исследование о том, как машины могли бы обучаться различным навыкам — в том числе, игре в Flappy Birds — постоянно, улучшая свои показатели, а не останавливаясь, столкнувшись со слишком сложным уровнем. Такой подход называется непрерывным обучением и, несмотря на десятки лет исследований, остается до сих пор сложной задачей, пишет ZDNet.

Конгрессу США показали видео как НЛО «поглотил» удар ракеты Hellfire

Проблема непрерывного обучения была сформулирована в 1987 году Гейлом Карпентером и Стивеном Гроссбергом, которые назвали ее «дилеммой стабильности — пластичности».

Искусственный интеллект, писали они, должен быть «пластичным, чтобы узнавать о важных новых событиях, но должен оставаться стабильным в ответ на нерелевантные или часто повторяющиеся события».

Другими словами, нейросеть должна быть создана таким образом, чтобы сохранять и расширять то, что оптимизировано, в каждом отрезке времени. Ее цель — минимизировать вмешательство, то есть помехи обучению, и в то же время максимизировать процесс будущего обучения, меняя приоритеты на основании новой информации.

Для этого исследователи смешали два элемента оптимизации приоритетов: GEM, основанный на разработке специалистов Facebook 2017 года, и так называемый Reptile, созданный в прошлом году учеными из OpenAI. Это алгоритм помогает учиться новым вещам на опыте прошлого обучения.

Исследователи пришли к выводу, что возможности GEM и Reptile ограничены: каждый алгоритм «смотрит» лишь в одну сторону стрелы времени. GEM хочет сохранить прошлое, а Reptile хочет менять значимость только в момент изучения нового.

Вместо этого требуется симметрия, когда показатель значимости уточняется в обоих направлениях во времени.

Редкая птица

Игра Flappy Bird стала главным испытанием возможностей нового инструмента. В ней игрок должен помочь птичке безопасно добраться до места назначения, минуя преграды из труб. Разработчики определили каждое изменение аспекта игры — например, высоты труб — как новую задачу.

Затем нейросеть должна была экстраполировать данные из одной задачи в следующую, чтобы максимизировать эффект от уже изученной и обработанной информации.

Авторы испытали свой подход на двух разных тестах и в обоих случаях получили результаты, превосходящие возможности систем GEM и Reptile.

Специалисты IBM и MIT учат ИИ просить помощи и помогать друг другу. Предложенная ими стратегия коллективного обучения имитирует то, как люди получают новую информацию — не только из непосредственного наблюдения, но и от других людей.

Также по теме

Идеи

Мозг формируется совсем не так, как представляли ученые, — параллельно и с упором на опыт

Идеи

Получены самые четкие на сегодня доказательства состояния осознанного сновидения

Идеи

Создано умное стекло, которое не даст помещениями нагреваться

Идеи

Ученые телепортировали квантовую ячейку с тремя возможными состояниями

Новости СМИ2