Концепция стрелы времени, введенная астрономом Артуром Эддингтоном, гласит, что у времени есть направление, то есть состояния переходят от одного к другому по некой траектории, и не возвращаются вспять. Если ваза упала на пол и разбилась, ее прежнее, целое состояние уже недостижимо.
Разработанная группой под руководством Назима Рахамана нейросеть рассчитывает вероятность того, что как только одна заданная ситуация приводит к другой, процесс не вернется в исходное состояние, сообщает ZDNet.
«У людей есть врожденное понимание ассиметричного движения времени, которое мы используем для эффективного и безопасного восприятия и управления окружающей средой, — пишут исследователи. — Мы задали вопрос, можно ли использовать эти свойства для обучения представлению, которое функционально имитирует наше понимание асимметричной природы времени, и как это сделать».
Авторы применили разновидность обучения с подкреплением, которая называется Q-обучение. В ней агент формирует функцию полезности, на основе которой выбирает стратегию поведения. Важная составляющая этого метода состоит в том, что, в отличие от шахмат или го, правила игры тут неизвестны.
Компьютер получает сведения о разных состояниях среды без информации о том, как одно состояние может привести к другому. Машина должна вычислить, к каким последствиям может привести данная ситуация, а к каким — не может.
В результате у нейросети не появилось чувство времени в обиходном значении. Однако компьютер смог вычислить обязательный порядок событий. Эта способность, считают авторы исследования, может улучшить обучение с подкреплением для таких ИИ, действия которых могут вызвать нежелательный и необратимый эффект.
Специалисты MIT и IBM Watson считают, что постигать окружающий мир могут машины, обученные по генеративно-состязательной методике. Они разработали ИИ, который сумел без помощи человека понять, как устроена часть реальности.