Для эффективной работы больших языковых моделей обычно требуется множество дорогостоящих графических процессоров. Решение от Яндекса позволяет уменьшить размер моделей в несколько раз, что снижает потребность в вычислительных мощностях и позволяет запускать модели на устройствах с меньшими вычислительными ресурсами. Это делает внедрение и обслуживание нейросетей более доступным для бизнеса. В отличие от других методов, которые существенно снижают качество ответов нейросетей при сжатии, метод Яндекса сохраняет до 95% качества.
Разработанное решение включает два инструмента. Первый уменьшает размер модели до 8 раз, что ускоряет её работу и позволяет запускать её на одном графическом процессоре вместо 4. Второй инструмент исправляет ошибки, возникающие в процессе сжатия, что обеспечивает высокое качество работы модели.
Эффективность методов была проверена на популярных моделях с открытым исходным кодом, таких как Llama 2, Llama 3 и Mistral. В ходе тестирования на англоязычных бенчмарках, метод Яндекса показал лучший результат среди всех существующих методов сжатия, сохранив в среднем 95% качества ответов нейросети, в то время как другие инструменты сохраняют от 59% до 90%.
Код новых методов сжатия уже опубликован на GitHub, что позволяет специалистам начать его использовать. Также доступны для скачивания уже сжатые модели и обучающие материалы, которые помогут разработчикам адаптировать уменьшенные нейросети под свои задачи.
Статья Yandex Research о методе сжатия AQLM вошла в программу одной из самых престижных конференций по машинному обучению — ICML. Работа была подготовлена в сотрудничестве с экспертами из ISTA и ИИ-стартапа Neural Magic.