Машинное обучение с подкреплением означает, что для обучения нейросети достаточно обозначить благоприятные и неблагоприятные исходы, после чего система самостоятельно разберется, как максимизировать результат.
Как говорится в блоге FB, платформу Horizon характеризуют уникальные навыки: она работает с огромными наборами данных — миллионами и миллиардами сэмплов, при низкой скорости обратной связи и учитывает, что все эксперименты должны внедряться с осторожностью. Ведь в случае с соцсетью речь идет не о симуляторе, а о поведении конкретных пользователей.
Как отмечает Engadget, Horizon все шире используется самой соцсетью для обучения своих ИИ-алгоритмов, для которых ранее применялся другой подход — обучение с наставником. Среди известных кейсов: советы от виртуального помощника M в приложении Messenger, настройка уведомлений и оптимизация качества потокового видео.
Сейчас обучение с подкреплением чаще всего используется в робототехнике и компьютерных играх. Facebook надеется, что благодаря Horizon эти методы получат применение и в других областях.
Horizon основан на открытых фреймворках PyTorch 1.0, Caffe2 и Spark. Код уже выложен в репозиторий Facebook Research на Github.
Обучение с подкреплением иногда дает результаты, на которые исследователи не рассчитывают. Например, обученный по такой технологии любопытству алгоритм предпочел учебе телевизор.