Hitech logo

Кейсы

DeepMind представила ИИ, превосходящий человека в проверке фактов

TODO:
Екатерина Шемякинская29 марта, 10:49

Новое исследование подразделения Google DeepMind показало, что искусственный интеллект может превосходить людей в проверке фактов, генерируемых языковыми моделями, например, GPT и Gemini. Система под названием SAFE разбивает сгенерированный текст на части и многократно сопоставляет их с результатами поиска Google для оценки точности утверждений. SAFE совпадал с оценками людей в 72% случаев, а при разногласиях решение ИИ было правильным в 76% случаев. Преимущество SAFE заключается не только в точности, но и в стоимости — в 20 раз дешевле, чем проверка фактов людьми. Но эксперты обращают внимание на непрозрачность исследования. Так, неясно, имели ли участники, с которыми сравнивали ИИ, квалификацию в фактчекинге. А от этого напрямую зависят итоги эксперимента.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

В научной статье представлен метод под названием Search-Augmented Factuality Evaluator (SAFE). SAFE использует большую языковую модель для того, чтобы разбить сгенерированный текст на отдельные факты, а затем определяет точность каждого утверждения, сверяясь с результатами поиска Google.

Исследователи сравнили SAFE с людьми при проверке набора данных, содержащего примерно 16 000 фактов. Оценки SAFE совпадали с оценками людей в 72% случаев. Еще более примечательно то, что в выборке из 100 разногласий между SAFE и оценщиками решение ИИ оказалось правильным в 76% случаев.

Одним из явных преимуществ SAFE является стоимость: использование системы искусственного интеллекта обходится примерно в 20 раз дешевле, чем проверка фактов людьми. Поскольку объем информации, генерируемой языковыми моделями, продолжает стремительно расти, наличие экономичного и масштабируемого способа проверки утверждений будет приобретать все большее значение.

Команда DeepMind использовала SAFE для оценки фактической точности 13 основных языковых моделей из четырех семейств (Gemini, GPT, Claude и PaLM-2) в тесте LongFact. Результаты показывают, что более крупные модели обычно дают меньше фактических ошибок. Но даже самые эффективные модели порождают немало ложных заявлений. Это подчеркивает риски чрезмерной зависимости от языковых моделей, которые могут давать неточную информацию. Инструменты автоматической проверки фактов, такие как SAFE, снижают эти риски.

Хотя в документе утверждается, что «агенты LLM могут достигать сверхчеловеческих рейтинговых показателей», некоторые эксперты задаются вопросом, что на самом деле здесь означает «сверхчеловеческий». По словам исследователя искусственного интеллекта Гэри Маркуса, вероятно, в данном случае имеется в виду, что SAFE лучше, чем обычный человек «из толпы» без квалификации. Но чтобы действительно продемонстрировать сверхчеловеческие возможности, SAFE необходимо сравнивать с экспертами по проверке фактов, а не только с работниками, привлеченными краудсорсингом. Конкретные детали оценщиков — квалификация, вознаграждение и процесс проверки фактов — имеют решающее значение для правильной контекстуализации результатов. Строгое и прозрачное сравнение с экспертами-людьми позволит измерить истинный прогресс ИИ.

Код SAFE и набор данных LongFact выложены в открытый доступ на GitHub, что позволяет другим исследователям изучать и развивать работу.