«На примере Orca 2 мы продолжаем показывать, что улучшенные сигналы обучения и методы могут обеспечить поддержку моделям меньшего размера, чтобы добиться более высоких мыслительных способностей, которые обычно присутствуют только в более крупных языковых моделях», — написали разработчики в блоге.
Microsoft открыла доступ к обеим моделям для анализа и дальнейшего исследования возможностей малых языковых моделей, которые, по мнению разработчиков, способны показывать не менее высокие результаты, чем большие. Для предприятий с ограниченными ресурсами такие системы могут оказаться наилучшим решением, пишет Venture Beat.
Для того чтобы научить небольшую модель соображать так же хорошо, как большая, разработчики решили настроить базовую Llama 2 при помощи специальным образом собранного набора данных. Вместо того чтобы учить ее повторять поведение более способных моделей — метод имитации — исследователи заставляли ее выбирать другие стратегии решения задач. К примеру, чтобы ответить на комплексный вопрос, малой языковой модели удобнее сначала разбить его на составные части, а не отвечать напрямую, как это делает GPT-4.
В испытаниях на 15 эталонных тестах, охватывающих задачи на понимание языка, здравый смысл, многоэтапное рассуждение, решение математических задач, понимание прочитанного, обобщение и правдивость, обе модели Orca 2 показали превосходные результаты, либо не хуже, либо лучше моделей, размер которых больше в 5-10 раз.
В среднем по результатам всех тестов Orca 2 превзошла Llama-2-Chat с 13 и 70 млрд параметров, а также WizardLM с 13 и 70 млрд параметров. Только в задачах на математику WizardLM с 70 млрд параметров оказался значимо лучше.
По словам разработчиков, метод, который они использовали для обучения Llama-2, можно применять и для улучшения других базовых моделей.
Alibaba, китайский гигант в области облачных вычислений и электронной коммерции, представила в начале месяца Tongyi Qianwen 2.0 — языковую модель следующего поколения с сотнями миллиардов параметров. Ее называют одной из самых мощных ИИ-моделей в мире.