Современные алгоритмы уже способны создавать краткие пересказы новостей. Судя по всему, это связано с обилием примеров для тренировки. Однако с другими типами текстов искусственный интеллект пока справляется намного хуже, отмечает Venture Beat.
Важный шаг в разработке универсального алгоритма для написания кратких резюме сделали сотрудники исследовательского проекта Google Brain. Они создали нейросеть под названием SummAE, которая работает без вмешательства человека.
Алгоритм сначала переводит тексты в цифровой вид, а затем на основе этих данных генерирует краткий пересказ. Благодаря двум системам шумоподавления ИИ создает достаточно сложные словосочетания. Это достигается за счет изменения порядка предложений в абзацах и произвольной маскировки отдельных фрагментов текста.
Работу трех вариантов SummAE протестировали на корпусе прозы ROCStories. 98 159 текстов разделили на три группы — набор для обучения, набор для проверки и набор для теста. Для примеров, относящихся к двум последним группам, исследователи подобрали по три написанных человеком резюме.
После 100 000 этапов обучения лучшая версия SummAE достигла значительных успехов. 80% добровольцев, участвовавших в работе над оценкой алгоритма, отметили высокое качество сгенерированных резюме.
Тем не менее, авторы отмечают, что SummAE — всего лишь первый этап в работе над проектом и нуждается в усовершенствовании. Помочь с этим может каждый: набор данных и код алгоритма доступны на GitHub.
Другие компании также активно работают над алгоритмами, распознающими текст. Например, ИИ от компании Alibaba научился самостоятельно искать ответы на заданные вопросы. В этом он не уступает человеку, а иногда даже превосходит нас.