Hitech logo

Идеи

Новый метод делает ИИ-модели легче и быстрее без потери точности

TODO:
Екатерина ШемякинскаяСегодня, 12:00 PM

Исследователи из MIT CSAIL совместно с международными партнёрами представили метод CompreSSM, позволяющий сокращать размер моделей искусственного интеллекта прямо в процессе обучения. Подход устраняет один из ключевых компромиссов отрасли — необходимость выбирать между высокой производительностью и вычислительной эффективностью.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Обучение современных моделей ИИ остаётся крайне затратным по времени, энергии и ресурсам. Традиционно разработчики либо сначала обучают большую модель и затем сжимают её, либо сразу используют компактные архитектуры, жертвуя точностью. Новый метод предлагает альтернативу: оптимизировать модель «на лету», без потери качества.

CompreSSM ориентирован на модели пространства состояний — класс архитектур, применяемых в обработке языка, генерации звука и робототехнике. Используя инструменты теории управления, исследователи определяют, какие компоненты действительно влияют на поведение модели, а какие можно удалить как избыточные.

Оказалось, что важность разных частей модели определяется уже на раннем этапе. С помощью сингулярных значений Ханкеля — показателя, который измеряет влияние каждого внутреннего состояния на поведение модели — можно определить, какие параметры важны, а какие нет. И для этого требуется всего 10% от общего времени обучения. После этого менее значимые компоненты удаляют, а оставшиеся 90% обучения проходят уже с упрощённой моделью.

Эксперименты подтвердили, что этот подход ускоряет обучение без потери точности. В задачах классификации изображений сжатые модели сохраняли почти такую же точность, как и полноразмерные, но обучались в 1,5 раза быстрее.

Например, на наборе CIFAR-10 модель, уменьшенная с помощью нового метода до четверти исходного размера, достигла точности 85,7%. Для сравнения, обычная модель, которую изначально обучили в таком же маленьком размере, смогла показать только 81,8%. На архитектуре Mamba метод обеспечил четырёхкратное ускорение: 128-мерную модель удалось сжать примерно до 12 измерений, сохранив при этом конкурентоспособную производительность.

CompreSSM сравнили с двумя типами методов. Первые — традиционные: обрезка (pruning) и дистилляция знаний. Они требуют сначала обучить полную модель (обрезка) либо использовать «учителя» и «ученика» (дистилляция) — и то, и другое ведёт к удвоению вычислительных затрат. Вторые — специализированные методы для моделей пространства состояний, например, спектральный подход с регуляризацией ядерной нормы Ханкеля. CompreSSM обошел оба типа.

В тестах метод оказался более чем в 40 раз быстрее спектрального (который замедлял обучение в 16 раз) и при этом показал лучшую точность. А дистиллированные модели при сильном сжатии теряли в качестве, в то время как CompreSSM сохранял почти полную производительность.

Дополнительным преимуществом стала теоретическая обоснованность: исследователи доказали, что важность параметров меняется плавно и их ранняя оценка остаётся стабильной. При этом предусмотрен механизм безопасности — если после сжатия качество падает, можно вернуться к предыдущему состоянию модели.

Авторы отмечают, что метод особенно эффективен для сложных систем с несколькими входами и выходами (MIMO — от англ. multiple input, multiple output), то есть таких, где модель одновременно обрабатывает несколько потоков данных и выдаёт несколько результатов. Исследователи уже рассматривают его расширение на более широкий класс архитектур, включая альтернативы трансформерам.