Hitech logo

Кейсы

Китайцы научили ИИ понимать язык лучше среднего человека

TODO:
Георгий Голованов27 декабря 2019 г., 10:59

В декабре ИТ-гигант Baidu, китайский эквивалент Google, без лишнего шума обошел западных конкурентов в гонке искусственного интеллекта. Точнее, в соревновании по пониманию языка GLUE (General Language Understanding Evaluation). Их новый алгоритм понимает естественный язык лучше, чем средний человек.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

GLUE оценивает, насколько хорошо ИИ понимает человеческий язык. Состязание состоит из девяти различных тестов — надо выделить в предложении имена собственные или определить, на что указывает местоимение. Модель, заработавшая больше всего баллов, способна выполнять сложные задачи по пониманию текста. Средний человек тоже может пройти этот тест и обычно набирает 87 баллов из 100. ERNIE, модель Baidu получила 90.

Рейтинг чемпионов GLUE постоянно меняется, и в скором времени, скорее всего, другая команда потеснит Baidu. Однако достижение китайских разработчиков иллюстрирует то, как расширение географии участников идет на пользу исследованиям в области ИИ. Для того чтобы создать ERNIE, специалистам Baidu пришлось разработать языковую модель для китайского языка. Но оказалось, что она лучше понимает и английский, пишет MIT Technology Review.

Предшественником ERNIE был BERT, модель естественного языка, разработанная в Google в 2018. Она стала прорывом — ее предшественники учились предсказывать и интерпретировать значения слов, по контексту, расположенному либо до, либо после этого слова. BERT учитывал контекст в обоих направлениях, применяя метод наложения маски. В отрывке текста он случайным образом прятал 15% слов, а затем пытался предсказать их по оставшимся. Это позволяет делать более точные предсказания.

Специалисты Baidu тоже решили применить метод наложения маски, но им пришлось переработать его под китайский язык. В английском слово выступает семантической единицей: даже если лишить его контекста, оно сохранит свое значение. Но в китайском это не так. У некоторых иероглифов есть собственное значение, но у большинства — пока они не соединятся друг с другом — нет. Поэтому маска у ERNIE работала иначе — она прятала части иероглифов.

В результате ERNIE стал точнее предсказывать отсутствующие элементы. Такой подход оказался полезен при переводе текстов на другие языки и при восстановлении информации с бумажных носителей. Кроме того, исследователи быстро поняли, что метод лучше работает и для английского языка, в котором тоже бывают идиоматические выражения, которые отличаются по смыслу от суммы значений составляющих их слов.   

В «обычной жизни» ERNIE помогает пользователям получить более точные результаты поисковых запросов и повышает способность виртуального помощника Сяо Ду точно отвечать за вопросы.

В сентябре новейшая версия BERT — ALBERT — заработала 92,2 пункта в стэнфордском тесте SQUAD, в котором нужно было отвечать на вопросы, и 89,4 в тесте на оценку верности понимания языка GLUE.