Команда исследователей из Массачусетского технологического института (MIT), Гарварда и Университета Корнелла проверила, как модели-трансформеры справляются с навигацией по Нью-Йорку. Ученые дали популярным ИИ-продуктам, таким как ChatGPT, задание построить маршрут по городу, используя пошаговые указания. На первых порах модели успешно решали задачу, предоставляя точные направления движения. Однако, когда учёные внесли изменения — например, перекрыли некоторые улицы и добавили объезды, — модели начали ошибаться. Исследователи отметили, что отключение всего 1% улиц снизило точность навигации с почти 100% до 67%.
При восстановлении карты Нью-Йорка, которую модели построили на основе своих «знаний», учёные обнаружили множество ошибок: несуществующие улицы, кривые дороги, пересечения в неожиданных местах и случайные надземные переходы. Эти детали показывают, что модели создают скорее упрощенные и фрагментарные версии города, а не настоящую карту.
Чтобы глубже исследовать, как модели создают внутренние представления о задачах, исследователи разработали 2 новые метрики. Первая метрика, различение последовательностей (sequence distinction), оценивает, может ли модель распознать различие между двумя состояниями — например, между двумя разными расположениями фишек на доске в стратегической настольной игре «Отелло». Вторая метрика, сжатие последовательностей (sequence compression), помогает оценить, понимает ли модель, что одинаковые состояния требуют одних и тех же действий.
Используя эти метрики, учёные тестировали, могут ли модели отличать одинаковые и разные последовательности шагов в ряде задач. Они обнаружили, что хотя модели способны генерировать правильные ходы и шаги, они не обязательно понимают логику задачи.
«Мы часто полагаем, что модели понимают мир, раз они могут выполнять сложные задачи, но наш эксперимент показывает, что это иллюзия», — отметил Ашеш Рамбачан, ведущий исследователь и доцент MIT. Он подчеркнул, что это открытие вызывает вопросы о применении БЯМ в науке, где для точных выводов необходимы согласованные модели мира.
Интересный результат был получен при сравнении моделей, обученных на случайных последовательностях, и моделей, обученных на предсказаниях стратегий. Модели, тренированные на случайных данных, показали лучшие результаты в создании внутренней модели мира. Например, в игре Отелло такие модели смогли охватить больше вариантов ходов, включая редкие и необычные, которые опытные игроки избегают. Однако, несмотря на это, ни одна модель не смогла сформировать полностью согласованное представление о структуре города в задаче по навигации.
Эти выводы особенно важны для будущих исследований, так как БЯМ активно применяются в автоматизации производства, науке и здравоохранении. Для создания моделей, которые могут отражать реальные законы физики или биологии, необходимо больше, чем способность предсказать следующее слово.