Hitech logo

Кейсы

Новая технология Google помогает ИИ учиться без потери информации

TODO:
Екатерина ШемякинскаяСегодня, 04:04 PM

Исследователи Google представили новый подход к машинному обучению — «вложенное обучение», которое позволяет моделям осваивать новые задачи, не теряя навыков, приобретенных ранее. Этот метод призван преодолеть так называемое «катастрофическое забывание», когда добавление новых данных приводит к утрате ранее выученной информации.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Большие языковые модели, несмотря на быстрый прогресс, продолжают сталкиваться с проблемами непрерывного обучения. В отличие от человеческого мозга, способного к нейропластичности и сохранению старых знаний при освоении новых, существующие модели ограничены контекстным окном ввода или статистической информацией, полученной при предварительной подготовке.

Попытки просто обновлять параметры модели новыми данными часто приводят к «катастрофическому забыванию», когда навыки, усвоенные на предыдущих задачах, теряются. Ранее исследователи старались справляться с этим через доработки архитектуры или улучшение алгоритмов обучения. Архитектура модели и алгоритмы оптимизации (правила обучения) рассматривались как отдельные элементы. Это мешало созданию по-настоящему унифицированной и эффективной системы обучения.

Вложенное обучение представляет одну модель как набор взаимосвязанных задач оптимизации. Архитектура модели и алгоритм ее обучения в этом случае представлены как разные уровни одного процесса. Каждый обладает своим потоком контекста и обновляется с собственной частотой.

Это похоже на ассоциативную память: модель учится связывать новые данные с уже известными, сохраняя старые знания. Ключевые компоненты, такие как механизм внимания в трансформерах, помогают находить связи между элементами информации. В результате модель адаптируется к новым задачам, не забывая то, чему она уже научилась.

Для проверки концепции исследователи создали архитектуру Hope. В отличие от предшественников, которые имеют всего два уровня обновления параметров, Hope использует неограниченное количество уровней контекстного обучения. Ее память построена по принципу Continuum Memory Systems: не два фиксированных блока, «кратковременная» и «долговременная», а спектр слоев, каждый из которых обновляется с собственной скоростью. Архитектура самостоятельно оптимизирует свои знания и масштабируется до более крупных контекстных окон.

Эксперименты показали, что Hope справляется с длительными последовательностями информации точнее и стабильнее, чем существующие модели. Она способна решать задачи «Needle-In-Haystack» разной сложности, где требуется найти маленькую деталь в большом объеме текста, и превосходит современные архитектуры, включая Titans, Samba и стандартные трансформеры.

Исследователи считают, что новая методика поможет приблизить возможности искусственного интеллекта к гибкости человеческого мозга и станет основой для следующего поколения самосовершенствующихся моделей.