Затраты на оценивание школьников — вечная проблема системы образования в любых стране и регионе. Например, на проведение ЕГЭ в 2004 году Российская Федерация потратила 866,4 миллиона рублей. В Техасе около $20 миллионов уходят только на временных сотрудников для оценки результатов теста STAAR, который помогает понять, хорошо ли дети усвоили школьную программу.
Техасское агентство по образованию (TEA) обычно нанимало 6000 учителей для оценки теста, но теперь понадобится только 2000. В 2023 году STAAR изменили — убрали часть закрытых вопросов и классических тестов с несколькими вариантами ответа, добавили больше заданий, в которых нужно рассуждать и писать развёрнуто, аргументировать своё мнение. Казалось бы, оценить такое с помощью ИИ будет трудно, но большие языковые модели отлично справляются. Кроме того, они проверяют длинные ответы в несколько раз быстрее учителей-людей.
Для разработки системы автоматической оценки TEA собрала 3000 ответов учеников, которые прошли через 2 раунда проверки людьми. Этот набор данных позволил системе изучить характеристики ответов. Теперь она присваивает те же оценки, которые дал бы человек.
Этой весной, когда ученики завершат свои тесты, компьютер сначала оценит все полученные ответы, а затем отправит четверть из них педагогам для повторной проверки. Это поможет избежать ошибок и несправедливости, а также лучше натренировать систему.
Если ИИ будет не уверен на счет того, какую оценку присвоить, ответы ученика будут автоматически направлены человеку. То же самое произойдет, если модель столкнется с типом ответа, который программа не распознает, например, с использованием сленга или слов на языке, отличном от английского.
Сотрудники TEA ежедневно просматривают сводку результатов, чтобы убедиться, что они соответствуют ожидаемым. Помимо спорных ответов, люди также автоматически получают случайную выборку готовых тестов с оценками ИИ, чтобы понять, хорошо ли справляется система. В TEA уверены, что их решение — это не совсем искусственный интеллект, поскольку работу модели не пускают на самотёк, а тщательно контролируют. Кроме того, у этого ПО нет возможности обучаться в процессе обработки тестов — для оценки он всегда полагается на требования, установленные государством.
Однако не все проходит так гладко, как хотелось бы чиновникам от образования. Многие педагоги и родители штата недовольны новшеством. Кроме того, в декабре 2023 года, когда систему автоматической оценки только представители, многие дети получили от неё 0 балов за ответ, потому что он не соответствовал жёстким критериям оценивания. Например, если в нем были проблемы с логикой или формой предоставления информации. Учитель-человек в таком случае бы оценил что имеется и выставил хотя бы минимальный балл, но ИИ жёстко отбраковывает всё, что не соответствует требованиям.