Специалисты компании представили на этой неделе исследование о том, как машины могли бы обучаться различным навыкам — в том числе, игре в Flappy Birds — постоянно, улучшая свои показатели, а не останавливаясь, столкнувшись со слишком сложным уровнем. Такой подход называется непрерывным обучением и, несмотря на десятки лет исследований, остается до сих пор сложной задачей, пишет ZDNet.
Проблема непрерывного обучения была сформулирована в 1987 году Гейлом Карпентером и Стивеном Гроссбергом, которые назвали ее «дилеммой стабильности — пластичности».
Искусственный интеллект, писали они, должен быть «пластичным, чтобы узнавать о важных новых событиях, но должен оставаться стабильным в ответ на нерелевантные или часто повторяющиеся события».
Другими словами, нейросеть должна быть создана таким образом, чтобы сохранять и расширять то, что оптимизировано, в каждом отрезке времени. Ее цель — минимизировать вмешательство, то есть помехи обучению, и в то же время максимизировать процесс будущего обучения, меняя приоритеты на основании новой информации.
Для этого исследователи смешали два элемента оптимизации приоритетов: GEM, основанный на разработке специалистов Facebook 2017 года, и так называемый Reptile, созданный в прошлом году учеными из OpenAI. Это алгоритм помогает учиться новым вещам на опыте прошлого обучения.
Исследователи пришли к выводу, что возможности GEM и Reptile ограничены: каждый алгоритм «смотрит» лишь в одну сторону стрелы времени. GEM хочет сохранить прошлое, а Reptile хочет менять значимость только в момент изучения нового.
Вместо этого требуется симметрия, когда показатель значимости уточняется в обоих направлениях во времени.
Редкая птица
Игра Flappy Bird стала главным испытанием возможностей нового инструмента. В ней игрок должен помочь птичке безопасно добраться до места назначения, минуя преграды из труб. Разработчики определили каждое изменение аспекта игры — например, высоты труб — как новую задачу.
Затем нейросеть должна была экстраполировать данные из одной задачи в следующую, чтобы максимизировать эффект от уже изученной и обработанной информации.
Авторы испытали свой подход на двух разных тестах и в обоих случаях получили результаты, превосходящие возможности систем GEM и Reptile.
Специалисты IBM и MIT учат ИИ просить помощи и помогать друг другу. Предложенная ими стратегия коллективного обучения имитирует то, как люди получают новую информацию — не только из непосредственного наблюдения, но и от других людей.