Hitech logo

искусственный интеллект

Малая языковая модель Microsoft во многих задачах оказалась умнее больших

TODO:
Георгий Голованов22 ноября 2023 г., 17:45

Лаборатория искусственного интеллекта компании Microsoft выпустила Orca 2, пару малых языковых моделей, не уступающих или даже превосходящих языковые модели в 5-10 раз больше них. Модели представлены в двух размерах, 7 и 13 млрд параметров, а в качестве основы использована оригинальная 13B Orca, уже продемонстрировавшая превосходные мыслительные способности.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

«На примере Orca 2 мы продолжаем показывать, что улучшенные сигналы обучения и методы могут обеспечить поддержку моделям меньшего размера, чтобы добиться более высоких мыслительных способностей, которые обычно присутствуют только в более крупных языковых моделях», — написали разработчики в блоге.

Microsoft открыла доступ к обеим моделям для анализа и дальнейшего исследования возможностей малых языковых моделей, которые, по мнению разработчиков, способны показывать не менее высокие результаты, чем большие. Для предприятий с ограниченными ресурсами такие системы могут оказаться наилучшим решением, пишет Venture Beat.

Для того чтобы научить небольшую модель соображать так же хорошо, как большая, разработчики решили настроить базовую Llama 2 при помощи специальным образом собранного набора данных. Вместо того чтобы учить ее повторять поведение более способных моделей — метод имитации — исследователи заставляли ее выбирать другие стратегии решения задач. К примеру, чтобы ответить на комплексный вопрос, малой языковой модели удобнее сначала разбить его на составные части, а не отвечать напрямую, как это делает GPT-4.

В испытаниях на 15 эталонных тестах, охватывающих задачи на понимание языка, здравый смысл, многоэтапное рассуждение, решение математических задач, понимание прочитанного, обобщение и правдивость, обе модели Orca 2 показали превосходные результаты, либо не хуже, либо лучше моделей, размер которых больше в 5-10 раз.

В среднем по результатам всех тестов Orca 2 превзошла Llama-2-Chat с 13 и 70 млрд параметров, а также WizardLM с 13 и 70 млрд параметров. Только в задачах на математику WizardLM с 70 млрд параметров оказался значимо лучше.

По словам разработчиков, метод, который они использовали для обучения Llama-2, можно применять и для улучшения других базовых моделей.

Alibaba, китайский гигант в области облачных вычислений и электронной коммерции, представила в начале месяца Tongyi Qianwen 2.0 — языковую модель следующего поколения с сотнями миллиардов параметров. Ее называют одной из самых мощных ИИ-моделей в мире.