Hitech logo

искусственный интеллект

DeepMind нашла способ оптимизации БЯМ без увеличения размера модели

TODO:
Георгий Голованов27 августа, 13:29

Учитывая стоимость и низкую скорость обучения больших языковых моделей (БЯМ), исследователи и разработчики активно обсуждают, в состоянии ли увеличение циклов вычислений повысить производительность БЯМ без необходимости в их переобучении. В новой статье специалисты из DeepMind и Калифорнийского университета предложили новые способы повышения производительности БЯМ путем стратегического распределения ресурсов.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Главный способ повышения производительности БЯМ до сих пор был связан с увеличением размера модели и ее переобучением. Однако у этого подхода есть несомненные минусы: тренировать крупные модели дорого, их работа расходует много ресурсов, поэтому в ряде случаев применять больше БЯМ оказывается невыгодно.

Альтернативой могут стать более активные вычисления на этапе логических выводов для повышения точности ответов БЯМ на сложные запросы. Этот подход позволяет создавать БЯМ меньшего размера, но с производительностью, сравнимой с более крупными и ресурсоемкими моделями.

Проблема этого подхода заключается в выборе оптимального способа использования фиксированного количества выводов на отрезок времени. Ученые из DeepMind исследовали две главных стратегии оптимизации производительности БЯМ, сообщает Venture Beat. Первая модифицирует распределение заявок и относится к процессу генерации ответов, вторая повышает качество работы верификатора, механизма выбора наилучшего ответа.

Для оценки методов они провели эксперименты с моделью PaLM-2. И обнаружили, что эффективность отдельной стратегии зависит и от природы конкретной проблемы, и от базовой БЯМ, которая используется для ее решения. Для более простых проблем эффективнее предоставлять модели возможность итеративно исправлять первоначальный ответ. Для более сложных проблем, требующих более сложных решений, лучше подходит параллельная перевыборка множества ответов или древовидный поиск по модели вознаграждения.

Применение верного метода позволило существенно повысить производительность и достичь исходного показателя, используя всего 25% вычислительных ресурсов. Также ученые установили, насколько вычисление на этапе тестирования заменяет дополнительное предварительное обучение. Сравнение показало, что меньшие модели с вычислением на этапе тестирования работали с той же производительностью, что и в 14 раз большие модели с предобучением.

«Эти результаты говорят о том, что вместо того чтобы сосредоточиться исключительно на масштабировании предобучения, в некоторых обстоятельствах эффективнее предварительно обучить модели меньшего размера, а затем применить вычисление на этапе тестирования», — говорится в статье. С другой стороны, для ответов на самые сложные вопросы лучше работает предобучение.

По меньшей мере 200 сотрудников исследовательского подразделения Google по искусственному интеллекту, DeepMind, выразили свое несогласие с военными контрактами компании. В мае они направили внутреннее письмо, в котором выразили обеспокоенность сотрудничеством Google с военными организациями, включая поставки ИИ и облачных сервисов израильской армии.