Сама идея, что роботы будут оценивать сочинения, вызывает возмущение и у преподавателей, и у учеников. Но профессор Колорадского университета в Боулдере и вице-президент исследовательской компании Pearson Петер Фольтц, один из разработчиков ИИ, который способен поставить оценку за эссе, уверен в обратном: раз мы доверяем алгоритмам водить машины, выявлять рак и даже поддерживать беседу, то с проверкой текстов они справятся не хуже.
«Я работал над этим 25 лет, и сейчас самое время начать использовать роботов для оценки сочинений. ИИ в скором времени научится распознавать контент на высочайшем уровне, поскольку уже совершено несколько прорывов в этой области», — заявил Фольтц.
В Pearson проанализировали 34 млн студенческих эссе, которые набрали самые высокие баллы. На их основе алгоритмы научились распознавать тексты, которые люди посчитали хорошими. После чего ИИ самостоятельно стал выявлять интересные работы, основываясь на критериях, присущих сочинениям отличников.
ИИ оценивает от 50 до 100 различных признаков. Это не только орфография и пунктуация, но и грамотная аргументация, богатство лексикона, манера строить предложения, а также умение разделить текст на блоки — введение, основную часть и заключение. Согласно исследованиям, которые проводили разработчики Pearson, в большинстве случаев оценка искусственного интеллекта совпадает с оценкой учителя.
Несколько штатов, включая Айдахо и Юту, уже автоматизировали проверку выпускных экзаменов. ИИ-система стала такой популярной не только из-за экономии денег, но и благодаря оптимизации процесса. Теперь проверка занимает минуты, а не месяцы. Сначала в учебных заведениях Юты очень осторожно относились к нововведениям, и эссе всегда перепроверяли люди. Но когда алгоритмы доказали свою эффективность, сочинения полностью отдали в ведение ИИ.
Лишь в 20% случаев попадаются очень необычные тексты или выясняется, что оценка спорная — тогда эссе читают преподаватели.
И все же, ИИ для проверки сочинений далек от совершенства, и это доказал исследователь из MIT Лес Перельман. Он создал генератор случайных текстов Babel, который пишет абсолютную ерунду. Но эта бессмыслица идеально соответствует всем критериям, которые алгоритмы применяют для оценки студенческих эссе. Текст, в котором не было ни капли смысла, набрал 6 из 6 баллов.
«Допустим, вы напишете, что Вторая Мировая началась в 1812 году. Компьютер не заметит ошибку, поскольку он видит цифры, но не понимает смысла написанного. ИИ распознает это, как занимательный факт, и только добавит вам баллов», — рассказывает Лес Перельман.
«В некоторых вопросах машины гениальны, но в некоторых они совсем дураки. И это как раз тот случай», — уверен Перельман.
Более того, студенты и сами могут догадаться, как обмануть робота. И тогда им не составит труда набросать в текст необходимых «умных» слов, цифр и речевых оборотов. Составить из них «правильную» конструкцию и получить высший бал ни за что.
В защиту ИИ выступил Нитин Маднани — исследователь компании Educational Testing Service, которая создает алгоритмы для проверки эссе на выпускных экзаменах. По его словам, учителя обращают внимание на те же самые вещи, что и роботы. И если студенты намеренно вставят в свои сочинения все нужные для высшего балла вещи, значит, они достаточно умны и заслуживают хорошей оценки. А поскольку эссе обычно перечитывают люди, то откровенно бредовый текст никогда не пройдет проверку.
Зато в Юте, где сочинения проверяли только машины, студенты обманывали их с завидной регулярностью.
Одни писали по-настоящему хороший абзац текста, а потом копировали его 10 раз. Другим удавалось получить высокие баллы за эссе, написанное по принципу: «В ввввв вввв ввввввв, ввв ввввввв, ввв». Третьи и вовсе копировали тексты, которые им предлагались для разбора и анализа.
Разработчики, конечно, постоянно совершенствуют систему и устраняют недостатки. Но преподаватели переживают, что при таком подходе студентов перестанут учить думать — вместо этого их просто начнут «натаскивать» на прохождение не только тестов, но и на написание шаблонных сочинений. Так что, несмотря на всю быстроту и удобство таких методов проверки, системе еще есть, куда расти.
Пока в США разбираются с этичностью роботизированной оценки текстов, в четверти школ Китая оценки за сочинения уже ставит ИИ. В 60 тысячах школ ученики потеряли возможность «лить воду» в сочинениях. В качестве примера разработчики приводят ситуацию, когда в очередном абзаце пишущий уходит от темы задания — система отметит это и снизит оценку. Исследователи отмечают, что не разрабатывают замену учителю или строгий инструмент, который будет портить жизнь детям.
По словам разработчиков, система создана в первую очередь в помощь учителям, чтобы экономить их время. Кроме того, ИИ пригодится в далеких сельских областях, где у учителей не хватает квалификации, а в некоторых местах нет и самих учителей.
Алгоритмы все чаще собираются использовать в творческих сферах, где, казалось бы, холодному расчету не место. Так, стартап Fresno Unlimited обещает выпускать только популярные сериалы благодаря ИИ. С помощью технологии ИИ-прогнозирования, Fresno сможет любой сериал сделать хитом, заведомо подстроив его под интересы аудитории. В результате, получится контент премиум-класса, который будет привлекать не только зрителей, но и рекламодателей.