Нейросеть создавалась по принципам глубокого обучения с подкреплением. Но базовый принцип был усилен с помощью человека-наблюдателя. Вместе им удавалось четко давать понять ИИ-системе, когда ее действия приводят к ожидаемым результатам. Успешные стратегии впоследствии закреплялись.
Специалисты объединили две концепции, чтобы достичь сверхчеловеческой производительности игрового ИИ. С помощью специальных функций вознаграждения ученые направляли процесс обучения в режиме реального времени.
Модель состояла из двух частей: нейросети Q-Learning, которую DeepMind использовала в предыдущих исследованиях с играми на Atari 2600 и сверточной нейронной сети, обучаемой на примерах, предоставленных либо человеком, либо компьютером, создающим их, пишет VentureBeat.
Это привело к тому, что модель прогрессировала как за счет демонстраций экспертов, так и за счет собственного опыта, играя миллионы раундов.
Всего модель совершила 50 млн итераций, эксперты создали 6800 программных меток, подсказывающих ИИ, как выигрывать.
После этого ученые установили, что система превзошла предыдущие результаты, а для ее обучения потребовалась в два раза меньше человеческого времени, чем ранее.
В июне ИИ от OpenAI преодолел очень важный рубеж. В течение месяца он играл и с любителями, и с полупрофессионалами Dota 2, чьи команды входят в список лучших. В итоге ИИ одержал победу во всех играх. Позже даже Билл Гейтс отметил это достижение, заявив, что «победа ботов над людьми в Dota 2 — это большой прорыв».