Hitech logo

Кейсы

Новая платформа позволяет ИИ-агентам самостоятельно развивать навыки

TODO:
Екатерина ШемякинскаяСегодня, 11:51 AM

Исследователи из нескольких университетов представили Memento-Skills — платформу, позволяющую ИИ-агентам самостоятельно развивать навыки без переобучения базовой языковой модели. В основе лежит следующий механизм: агент выполняет задачу, получает обратную связь и при неудаче автоматически обновляет существующий навык или создает новый, меняя код и инструкции. В ходе тестов на двух сложных бенчмарках ИИ-агент, использующий эту технологию, стал выполнять задачи точнее, а количество его навыков увеличилось с пяти до 235.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Саморазвивающиеся агенты преодолевают ограничения «замороженных» языковых моделей (LLM), которые после развертывания не могут обновлять свои знания и ограничены только тем, что помещается в их контекстное окно. Однако традиционные методы адаптации агентов опираются на вручную созданные навыки или текстовые подсказки, которые плохо применимы к новым задачам.

Новая платформа функционирует как развивающаяся внешняя память: она хранит и обновляет навыки агента в виде структурированных файлов Markdown. Каждый навык включает декларативные спецификации, инструкции и подсказки для LLM, а также исполняемый код и вспомогательные скрипты для решения задач.

Такой подход позволяет агенту совершенствоваться без дорогостоящей тонкой настройки модели или ручного создания новых навыков.

Memento-Skills использует механизм «рефлексивного обучения с чтением и записью»: агент выбирает подходящий навык через специализированный маршрутизатор, выполняет его и получает обратную связь. Если выполнение заканчивается неудачей, система автоматически обновляет существующий навык или создаёт новый, меняя код и инструкции, чтобы повысить эффективность в будущем. Платформа применяет обучение с подкреплением: навыки оцениваются не просто по текстовой или семантической близости, а по тому, насколько они реально помогают достигать целей в рабочих процессах. Благодаря этому агент учится выбирать инструменты, которые действительно решают задачи, а не только подходят по описанию.

Для предотвращения ошибок и регрессии Memento-Skills интегрирует автоматические модульные тесты. После обновления навыка система проверяет его с помощью синтетических примеров, прежде чем сохранять изменения в глобальной библиотеке. Такой контроль обеспечивает надежность работы в производственных средах.

Эффективность платформы была проверена в двух сложных тестах: GAIA, требующем многоэтапного рассуждения, мультимодальной обработки данных, просмотра веб-страниц и использования инструментов, а также HLE, охватывающем восемь академических дисциплин. В качестве базовой замороженной языковой модели выступала Gemini-3.1-Flash.

В сравнении со статической библиотекой навыков Memento-Skills увеличила точность выполнения задач с 52,3% до 66,0% в GAIA и с 17,9% до 38,7% в HLE. Использование специализированного маршрутизатора навыков повышало успешность выполнения задач с 50% до 80%.

Платформа также автономно расширила набор навыков в ходе тестов — с пяти базовых до 41 в GAIA и до 235 в HLE. В результате сформировалась целая библиотека инструментов для разнообразных задач.

Эксперты предупреждают о необходимости осторожного внедрения системы. Наиболее подходящими могут быть структурированные рабочие процессы, где навыки могут оцениваться и улучшаться. Для физически реализованных агентов или задач с длительным горизонтом потребуются более сложные подходы, такие как многоагентные системы LLM.