Опыт проводили обозреватели MIT Technology Review Уилл Найт и журналист Карен Хао. Они загрузили краткие сюжеты 360 рождественских фильмов в алгоритм машинного обучения, надеясь получить на выходе новый голливудский блокбастер. Но выяснили, что смешная комедия — это серьезное и сложное дело, пишет издание.
Исследователи использовали тот же алгоритм textgenrnn, который применяла Шейн. У него есть два режима: можно либо генерировать из букв слова, имитирующие стиль других слов, либо создавать из слов предложения в стиле других предложений. У обоих режимов есть одинаковые настройки: сложность нейронной сети, число обращений к обучающим данным и частота использования слов из примеров для подражаний.
Играя с настройками и раз за разом получая неудобочитаемый результат, экспериментаторы пришли к выводу, что ничего хорошего у них не получится.
Обсудив ситуацию с Шейн, они поняли свои ошибки: во-первых, 360 примеров — слишком мало для обучения. Отчасти это проблема алгоритма, который справляется с задачей не лучшим образом. Но основная причина в том, что нейросети в принципе плохо приспособлены для генерации предложений.
Даже если использовать лучшие данные и алгоритмы, шанс получения логически связного повествования исчезающе низок.
Это становится очевидно, если взглянуть «под капот» алгоритма: машинное обучение отлично подходит для использования статистики для поиска и приложения закономерностей в данных, но не более того.
В контексте создания предложений ИИ выбирает каждое последующее слово на основании вероятности того, что оно должно стоять после уже выбранного. Это как сочинять письмо из предлагаемых компьютером слов. В результате теряется логика и грамматическое согласование.
Вот самые забавные из синопсисов:
И несколько наиболее удачных названий:
Намного лучше выполнил роль сценариста IBM Watson. Изучив лучшие образцы рекламных роликов за последние 15 лет, а также эмоции зрителей, суперкомпьютер выдал сюжет рекламы для автомобиля Lexus.