Саморазвивающиеся агенты преодолевают ограничения «замороженных» языковых моделей (LLM), которые после развертывания не могут обновлять свои знания и ограничены только тем, что помещается в их контекстное окно. Однако традиционные методы адаптации агентов опираются на вручную созданные навыки или текстовые подсказки, которые плохо применимы к новым задачам.
Новая платформа функционирует как развивающаяся внешняя память: она хранит и обновляет навыки агента в виде структурированных файлов Markdown. Каждый навык включает декларативные спецификации, инструкции и подсказки для LLM, а также исполняемый код и вспомогательные скрипты для решения задач.
Такой подход позволяет агенту совершенствоваться без дорогостоящей тонкой настройки модели или ручного создания новых навыков.
Memento-Skills использует механизм «рефлексивного обучения с чтением и записью»: агент выбирает подходящий навык через специализированный маршрутизатор, выполняет его и получает обратную связь. Если выполнение заканчивается неудачей, система автоматически обновляет существующий навык или создаёт новый, меняя код и инструкции, чтобы повысить эффективность в будущем. Платформа применяет обучение с подкреплением: навыки оцениваются не просто по текстовой или семантической близости, а по тому, насколько они реально помогают достигать целей в рабочих процессах. Благодаря этому агент учится выбирать инструменты, которые действительно решают задачи, а не только подходят по описанию.
Для предотвращения ошибок и регрессии Memento-Skills интегрирует автоматические модульные тесты. После обновления навыка система проверяет его с помощью синтетических примеров, прежде чем сохранять изменения в глобальной библиотеке. Такой контроль обеспечивает надежность работы в производственных средах.
Эффективность платформы была проверена в двух сложных тестах: GAIA, требующем многоэтапного рассуждения, мультимодальной обработки данных, просмотра веб-страниц и использования инструментов, а также HLE, охватывающем восемь академических дисциплин. В качестве базовой замороженной языковой модели выступала Gemini-3.1-Flash.
В сравнении со статической библиотекой навыков Memento-Skills увеличила точность выполнения задач с 52,3% до 66,0% в GAIA и с 17,9% до 38,7% в HLE. Использование специализированного маршрутизатора навыков повышало успешность выполнения задач с 50% до 80%.
Платформа также автономно расширила набор навыков в ходе тестов — с пяти базовых до 41 в GAIA и до 235 в HLE. В результате сформировалась целая библиотека инструментов для разнообразных задач.
Эксперты предупреждают о необходимости осторожного внедрения системы. Наиболее подходящими могут быть структурированные рабочие процессы, где навыки могут оцениваться и улучшаться. Для физически реализованных агентов или задач с длительным горизонтом потребуются более сложные подходы, такие как многоагентные системы LLM.

