Hitech logo

Идеи

В MIT создали алгоритм автоматической дешифровки мертвых языков

TODO:
Георгий Голованов21 октября 2020 г., 09:48

Исследователи из MIT приблизились к разгадке тайн древних языков, разработав систему машинного обучения, способную разобраться в мертвом языке, не зная о его связях с другими языками. Система способна самостоятельно определять отношения между языками.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Утерянные языки — не просто лингвистический курьез. Без них человечество лишается массива знаний о людях, которые некогда говорили на них. К сожалению, большинство из них настолько мало представлены в письменном виде, что алгоритмы машинного обучения вроде Google Translate не могут расшифровать их. У некоторых нет хорошо изученных родственных языков, с которыми их можно было бы сравнить. Часто они бывают лишены привычных знаков препинания и пробелов.

Тем не менее, специалисты из лаборатории искусственного интеллекта (CSAIL) MIT совершили прорыв в этой области, разработав систему автоматической дешифровки мертвых языков без наличия хорошо изученных родственных языков. Система способна самостоятельно определять связи между языками, пишет MIT News.

Система основана на нескольких принципах, взятых из исторического языкознания. К примеру, что у языка есть несколько предсказуемых путей развития. Так, язык редко приобретает или лишается целого звука, но способен заменять одни звуки другими. Звук [п] может измениться на [б], но вряд ли на [к] из-за значительной разницы в произношении.

Получившийся алгоритм смог обрабатывать большой объем возможных трансформаций языка. Он учился преобразовывать язык в многомерное пространство, в котором разница в произношении отражалась в виде дистанции между соответствующими векторами. В итоге модель смогла сегментировать слова древних языков и сопоставить их с родственными языками.

Таким образом, алгоритм может оценить сходство двух языков. Тесты на известных языках показали, что он точно идентифицирует языковые семьи. Конечная цель исследователей — расшифровать мертвые языки, над которыми лингвисты ломают головы десятки лет, имея в своем распоряжении всего несколько тысяч слов.

Немецкие ученые изучили процесс зарождения первых языков у людей. В ходе эксперимента они установили, что даже дети дошкольного возраста смогли спонтанно создать язык, обладающий основными свойствами естественного.