Большие языковые модели, несмотря на быстрый прогресс, продолжают сталкиваться с проблемами непрерывного обучения. В отличие от человеческого мозга, способного к нейропластичности и сохранению старых знаний при освоении новых, существующие модели ограничены контекстным окном ввода или статистической информацией, полученной при предварительной подготовке.
Попытки просто обновлять параметры модели новыми данными часто приводят к «катастрофическому забыванию», когда навыки, усвоенные на предыдущих задачах, теряются. Ранее исследователи старались справляться с этим через доработки архитектуры или улучшение алгоритмов обучения. Архитектура модели и алгоритмы оптимизации (правила обучения) рассматривались как отдельные элементы. Это мешало созданию по-настоящему унифицированной и эффективной системы обучения.
Вложенное обучение представляет одну модель как набор взаимосвязанных задач оптимизации. Архитектура модели и алгоритм ее обучения в этом случае представлены как разные уровни одного процесса. Каждый обладает своим потоком контекста и обновляется с собственной частотой.
Это похоже на ассоциативную память: модель учится связывать новые данные с уже известными, сохраняя старые знания. Ключевые компоненты, такие как механизм внимания в трансформерах, помогают находить связи между элементами информации. В результате модель адаптируется к новым задачам, не забывая то, чему она уже научилась.
Для проверки концепции исследователи создали архитектуру Hope. В отличие от предшественников, которые имеют всего два уровня обновления параметров, Hope использует неограниченное количество уровней контекстного обучения. Ее память построена по принципу Continuum Memory Systems: не два фиксированных блока, «кратковременная» и «долговременная», а спектр слоев, каждый из которых обновляется с собственной скоростью. Архитектура самостоятельно оптимизирует свои знания и масштабируется до более крупных контекстных окон.
Эксперименты показали, что Hope справляется с длительными последовательностями информации точнее и стабильнее, чем существующие модели. Она способна решать задачи «Needle-In-Haystack» разной сложности, где требуется найти маленькую деталь в большом объеме текста, и превосходит современные архитектуры, включая Titans, Samba и стандартные трансформеры.
Исследователи считают, что новая методика поможет приблизить возможности искусственного интеллекта к гибкости человеческого мозга и станет основой для следующего поколения самосовершенствующихся моделей.

