Компания Facebook открыла доступ к новой языковой модели М2М-100, для обучения которой потребовалось 7,5 млрд пар предложений. Для того чтобы собрать такой объем данных, разработчики воспользовались инструментами автоматизации: собрали миллиарды предложений из сети и пропустили их через еще одну языковую модель FastText, которая определила язык. Затем программа LASER 2.0 при помощи обучения без учителя — разновидности машинного обучения, не требующей разметки данных вручную, — сопоставила предложения по смыслу.
Разработчики отобрали комбинации языков, которые показались им наиболее востребованными. Они сгруппировали языки по их лингвистической, географической и культурной близости, предположив, что жители одного региона будут общаться между собой чаще — как, например, жители Индии, которые говорят на бенгали, хинди, тамильском и урду, пишет Technology Review.
Перевод на некоторые языки — в частности, те, на которых говорят в Африке или Юго-Восточной Азии — не всегда оказывается точным. Ведущий исследователь проекта Энджела Фань объясняет это тем, что в сети недостаточно данных для обучения модели.
Facebook попросил группу носителей языка оценить качество перевода между 20 языковыми парами, ни одна из которых не связана с английским. Эксперты оценили достоверность перевода относительно высоко, но отметили, что M2M-100 имеет тенденцию создавать дословные переводы со сленгом, при котором смысл текста теряется. Они также обнаружили, что модель подвержена грамматическим проблемам, таким как пропущенная запятая в предложении, что может привести к неправильной интерпретации.
«Для многих языков нам необходимы существенные улучшения, прежде чем можно будет надежно получить разумный перевод, — признали исследователи Facebook в статье, подробно описывающей M2M-100. — Примеры включают африканские языки, такие как коса и зулу, европейские языки, такие как каталанский и бретонский, и языки Юго-Восточной Азии, такие как илоко и кебуано. Для многих из них даже одноязычные ресурсы в интернете ограничены, что сильно влияет на количество и качество обучающих данных».
У Facebook пока нет планов по использованию этой модели в своих продуктах. М2М-100 предназначена исключительно для исследовательских целей, заявила Фань. Возможно, в будущем она поможет повысить качество коммуникации пользователей и модерацию контента соцсети.
Наушники китайской компании Timekettle переводят на 36 языков. Один надо вставить себе в ухо, другой — в ухо собеседнику. Помимо функции синхронного перевода есть подавление фоновых шумов и микрофон, изолирующий речь владельца для лучшего распознавания звуков.