В классических моделях-трансформерах каждый новый ввод текста обрабатывается в рамках определенного количества токенов, называемого окном контекста. Превышение этой границы приводит к тому, что самые ранние данные удаляются из обработки, а важная информация теряется. В некоторых случаях БЯМ просто отказываются работать со слишком длинными текстами.
Infini-attention решает эту проблему, позволяя модели обрабатывать данные практически без ограничений по длине. Основа методики — создание в модели специальной структуры, которая включает модуль сжимающей памяти. Он работает как хранилище для старых данных, которые больше не помещаются в текущем контекстном окне.
Старые данные «сжимаются», то есть упаковываются таким образом, чтобы занимать меньше места, но при этом сохранять ключевую информацию о прошлых вводах. Это позволяет модели не терять контекст прошлых вводов, даже если они были сделаны давно и превышали объем диалогового окна.
Другая важная часть Infini-attention — локальное каузальное внимание, которое помогает БЯМ эффективно связывать информацию из текущего ввода с данными, хранящимися в сжатой памяти. Это означает, что каждый новый отрывок текста модель будет не просто обрабатывать в изоляции, но и анализировать в связи с уже накопленной информацией, что значительно повышает качество и согласованность выводов.
Разработчики считают, что их методика не заменит другие, а поможет создавать пользовательские приложения и снизит порог вхождения в эту индустрию. Ранее настройка БЯМ для конкретных приложений требовали значительных усилий инженеров и большого количества вычислительных мощностей. С почти бесконечным контекстным окном модели для приложений можно будет настраивать исключительно текстовыми командами.