Hitech logo

Обучение машин

Специалисты IBM и MIT научили ИИ помогать друг другу

TODO:
Георгий Голованов30 января 2019 г., 11:42

Первые программы искусственного интеллекта, разгромившие людей в шахматы и го, получали инструкции от людей. Но они не смогут сравниться в мастерстве с новым поколением алгоритмов, которые учатся у других ИИ, и с невероятной скоростью.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

За череду побед над людьми в настольных и компьютерных играх машины должны благодарить две технологии — сочетание алгоритмов глубокого обучения и обучения с подкреплением. Но несмотря на весь этот прогресс, игры, напоминающие реальную жизнь — с неполной информацией, множеством игроков, отсутствием раундов и смесью кратко- и долгосрочных вознаграждений — все еще вызывают у ИИ серьезные затруднения.

Для того чтобы преодолеть их, исследователи из MIT и IBM Watson AI Lab разрабатывают дополнительные методы, которые выводят обучение ИИ на новый уровень.

Предложенная ими стратегия коллективного обучения имитирует то, как люди получают новую информацию — не только из непосредственного наблюдения, но и от других людей, из газет, книг и прочих средств массовой информации, пишет MIT News.

Алгоритм учит интеллектуального агента вовремя просить о помощи и применять новые данные к тому, что он уже изучил.

Каждый агент в системе уникален и не является экспертом; в разные моменты времени каждый действует как учащийся или как учитель, запрашивает информацию или же предоставляет ее.

Идея специалистов MIT и IBM состояла в том, чтобы заставить команду интеллектуальных агентов как можно быстрее освоить новый трюк — в данном случае, добраться до противоположной стены и коснуться ее одновременно. Обучающий алгоритм чередовал две фазы. В первой и ученик, и учитель решали после каждого шага, нужно ли обращаться за советом или давать его, на основании собственной уверенности в следующем шаге или в совете. Затем информация обновлялась и процесс продолжался.

Во время второй фазы алгоритм глубокого обучения с подкреплением использовал ранее записанные данные обучения, чтобы обновить стратегию рекомендаций. «С каждым апдейтом учитель давал советы все лучше и во все более подходящее время», — говорит Ким Дон Ки, один из участников проекта.   

Несмотря на недавнюю победу ИИ DeepMind в StarCraft II, машины пока не в состоянии одерживать уверенные победы над профессионалами в играх вроде Dota 2, требующих быстроты реакции и постоянной адаптации к меняющимся условиям. Но если машины станут лучше справляться с маневрами в динамической среде, они скорее созреют для реальных задач, например, управления дорожным движением в городах или координации действий спасательно-поисковых отрядов.