Большинство систем машинного перевода обучаются на обширных базах текстовых данных, представленных сразу на двух языках. Благодаря этому алгоритм быстро находит соответствие словосочетаниям и предложениями в языковой паре, например, между английским и испанским. Но, как поясняют разработчики Facebook, для этого нужно два равнозначных набора параллельных текстов — как на испанском, так и на английском.
Некоторые языки недостаточно широко распространены, а базы текстов для них не составлены. Из-за этого ИИ не удается освоить языковую пару и составить грамотный перевод.
Для решения проблемы разработчики Facebook применили неконтролируемую модель обучения ИИ, при которой программа работает с минимальными исходными данными. Алгоритм тренируется не на текстах, а на парах слов. Система усваивает их векторные репрезентации, то есть учится по контексту и по одному слову предсказывать, что стоит перед ним и после него.
Так, ИИ понимает, что в контексте слова «котенок» скорее встретится слово «животное» или «пушистый», чем «ракета». Причем подобные контекстные паттерны характерны для любого языка, будь то английский или урду.
На основе этой системы исследователи создали билингвальный словарь, по которому обучали алгоритм. Готовый переведенный текст пропускают через подобие стилистического фильтра, который отделяет грамотные предложения от несовершенных. Затем еще одна компьютерная модель помогает ИИ делать обратный перевод с минимальным количеством ошибок.
«Наш подход значительно превосходит аналогичные методики неконтролируемого перевода. Такой же результат можно получить только с помощью контролируемого алгоритма, обученного на сотне тысяч параллельных предложений», — утверждают авторы исследования.
Для оценки качества машинного перевода используются баллы BLEU. По словам ученых, хороший результат — это улучшение на один балл, но им удалось преодолеть отметку в 10 BLEU-баллов.
Новая методика подходит не только для работы с редкими языковыми парами, но и для перевода между языками с существенными грамматическими различиями, например, между английским и русским.
Однако лингвистической работой исследователи не намерены ограничиваться. Технологию можно применять для обучения алгоритмов и в других сферах, причем с минимальной начальной базой данных и минимальным контролем со стороны человека. Система уже доступна для экспериментов — разработчики выложили ее код на GitHub.
В будущем встроенные системы машинного перевода появятся не только в смартфонах и компьютерах, но и в носимых устройствах — часах, наушниках и даже слуховых аппаратах. Недавно компания Starkey Hearing Technologies представила гаджет, который не только улучшает слух, но также следит за здоровьем пользователя и помогает ему переводить иностранную речь.