Новый метод делает ИИ-модели легче и быстрее без потери точности

Идеи

Екатерина Шемякинская10 апреля, 12:00

Екатерина Шемякинская10 апреля, 12:00

Исследователи из MIT CSAIL совместно с международными партнёрами представили метод CompreSSM, позволяющий сокращать размер моделей искусственного интеллекта прямо в процессе обучения. Подход устраняет один из ключевых компромиссов отрасли — необходимость выбирать между высокой производительностью и вычислительной эффективностью.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Обучение современных моделей ИИ остаётся крайне затратным по времени, энергии и ресурсам. Традиционно разработчики либо сначала обучают большую модель и затем сжимают её, либо сразу используют компактные архитектуры, жертвуя точностью. Новый метод предлагает альтернативу: оптимизировать модель «на лету», без потери качества.

Telegram начал автоматически подключать пользователей из России к своему встроенному прокси

CompreSSM ориентирован на модели пространства состояний — класс архитектур, применяемых в обработке языка, генерации звука и робототехнике. Используя инструменты теории управления, исследователи определяют, какие компоненты действительно влияют на поведение модели, а какие можно удалить как избыточные.

Оказалось, что важность разных частей модели определяется уже на раннем этапе. С помощью сингулярных значений Ханкеля — показателя, который измеряет влияние каждого внутреннего состояния на поведение модели — можно определить, какие параметры важны, а какие нет. И для этого требуется всего 10% от общего времени обучения. После этого менее значимые компоненты удаляют, а оставшиеся 90% обучения проходят уже с упрощённой моделью.

Эксперименты подтвердили, что этот подход ускоряет обучение без потери точности. В задачах классификации изображений сжатые модели сохраняли почти такую же точность, как и полноразмерные, но обучались в 1,5 раза быстрее.

Например, на наборе CIFAR-10 модель, уменьшенная с помощью нового метода до четверти исходного размера, достигла точности 85,7%. Для сравнения, обычная модель, которую изначально обучили в таком же маленьком размере, смогла показать только 81,8%. На архитектуре Mamba метод обеспечил четырёхкратное ускорение: 128-мерную модель удалось сжать примерно до 12 измерений, сохранив при этом конкурентоспособную производительность.

CompreSSM сравнили с двумя типами методов. Первые — традиционные: обрезка (pruning) и дистилляция знаний. Они требуют сначала обучить полную модель (обрезка) либо использовать «учителя» и «ученика» (дистилляция) — и то, и другое ведёт к удвоению вычислительных затрат. Вторые — специализированные методы для моделей пространства состояний, например, спектральный подход с регуляризацией ядерной нормы Ханкеля. CompreSSM обошел оба типа.

В тестах метод оказался более чем в 40 раз быстрее спектрального (который замедлял обучение в 16 раз) и при этом показал лучшую точность. А дистиллированные модели при сильном сжатии теряли в качестве, в то время как CompreSSM сохранял почти полную производительность.

Дополнительным преимуществом стала теоретическая обоснованность: исследователи доказали, что важность параметров меняется плавно и их ранняя оценка остаётся стабильной. При этом предусмотрен механизм безопасности — если после сжатия качество падает, можно вернуться к предыдущему состоянию модели.

Авторы отмечают, что метод особенно эффективен для сложных систем с несколькими входами и выходами (MIMO — от англ. multiple input, multiple output), то есть таких, где модель одновременно обрабатывает несколько потоков данных и выдаёт несколько результатов. Исследователи уже рассматривают его расширение на более широкий класс архитектур, включая альтернативы трансформерам.

Также по теме

Идеи

Впервые напечатан композитный промышленный алмаз

Идеи

ИИ нашел способ продлить срок службы автомобильных аккумуляторов на 23%

Идеи

NASA опубликовало стратегию планетарной обороны от астероидов

Идеи

Значения фундаментальных постоянных подстраиваются под биологические процессы

Новости СМИ2