Ранее ИИ-системы могли выполнять только фиксированный набор задач и требовали полного переобучения для освоения новых действий, на что уходило много ресурсов. Новая модель позволяет ИИ адаптироваться к изменениям внешней среды и новым задачам без участия человека, что ускоряет процесс внедрения и снижает затраты.
Одним из ключевых применений модели Headless-AD станет создание персональных роботов-помощников для дома. Эти роботы смогут обучаться стандартным действиям и адаптироваться к индивидуальным условиям каждого домохозяйства, не требуя повторного обучения. Модель также найдет применение в беспилотных автомобилях, которые смогут работать после замены деталей с другими характеристиками.
Контекстное обучение (In-Context Learning), лежащее в основе модели, позволяет ИИ-агентам адаптироваться к новым ситуациям по 4 компонентам: состояние, переход, награда и действие. В прошлом ИИ умел адаптироваться только по первым 3 компонентам, но новая модель впервые научила ИИ адаптироваться и по действиям.
Разработка Headless-AD базируется на модели дистилляции алгоритма (Algorithm Distillation, AD) и включает 3 ключевые модификации: отказ от конечного линейного слоя, кодировку действий случайными векторами и внедрение контекста для информирования модели о доступных действиях. Эти изменения позволяют модели автоматически адаптироваться к новым задачам.
Было проведено несколько экспериментов для сравнения Headless-AD с аналогами на различных задачах. В модели рекомендательных систем «Контекстуальные бандиты» агент должен рекомендовать пользователю подходящие товары. Headless-AD может рекомендовать в пять раз больше товаров по сравнению с тем, чему ее обучали, в то время как модель AD требует переобучения для каждого нового набора товаров и теряет качество при увеличении их количества.
Headless-AD адаптируется к новым действиям без потери качества. В задаче «Многорукие бандиты», где нужно найти оптимальное действие за минимальное количество попыток, Headless-AD показала эффективность на уровне специализированного алгоритма.
Другие эксперименты подтвердили, что Headless-AD способна выполнять любые комбинации и количество действий. Модель работает эффективно без дополнительных вычислительных ресурсов, что делает её использование более быстрым и экономичным.