Статья Reward is Enough («Вознаграждения достаточно»), вышедшая в журнале Artificial Intelligence, появилась под влиянием изучения эволюции естественного интеллекта, а также анализа последних достижений в искусственном. Идея авторов заключается в том, что метода максимизации вознаграждения и опыта проб и ошибок достаточно, чтобы машина начала вести себя так, чтобы ее можно было принять за разумную, пишет Venture Beat. Отсюда они делают вывод, что обучение с подкреплением, разновидность машинного обучения, основанная на максимизации вознаграждения, может привести к появлению универсального ИИ.
Один из самых распространенных методов создания ИИ — воспроизведение элементов интеллектуального поведения. Например, биология зрения млекопитающих породила системы, распознающие изображения, определяющие границы между предметами и так далее. Аналогичным образом, достижения в лингвистике привели к созданию систем обработки естественного языка. Все это примеры узкого ИИ, созданного для выполнения определенных задач.
Другой путь, который предлагает DeepMind — имитация простого, но эффективного правила, которое породило интеллект естественный. «Мы предлагаем альтернативную гипотезу: что обобщенной цели максимизации вознаграждения достаточно для того, чтобы стимулировать поведение, которое проявляет большую часть, если не все способности естественного и искусственного интеллекта», — пишут авторы.
Фактически, они предлагают повторить естественный отбор для машин. Те, кто приспособится лучше, выживут, остальные будут уничтожены. Успех в таком случае будет означать увеличение награды и потребует развития различных интеллектуальных навыков. В такой среде любое поведение, которое повышает вероятность вознаграждения, будет проявлять черты интеллекта.
В завершении авторы утверждают, что наиболее «универсальный и масштабируемый» способ максимизировать вознаграждение — позволить агенту учиться в процессе взаимодействия с окружающей средой. Постепенно эффективный ИИ сможет научиться восприятию, языку, социальному интеллекту и другим аспектам универсального интеллекта.
В конце прошлого года ИИ DeepMind решил одну из самых трудных проблем биологии — предсказал, как свертываются белки из линейной цепочки аминокислот в трехмерные формы, позволяющие им выполнять важные функции. Программе даже удалось справится с белками, спрятанными в клеточных мембранах — играющих большую роль в человеческих заболеваниях, но сложных для изучения методом рентгеновской кристаллографии.