Hitech logo

искусственный интеллект

Предложена архитектура нейроморфной спайковой БЯМ

TODO:
Георгий ГоловановСегодня, 11:45 AM

Большие языковые модели (БЯМ) стали популярной игрушкой человечества, однако по мере увеличения пользовательской базы возрастают и вычислительная нагрузка. Ученые из Китая предлагают решить эту и другие проблемы БЯМ, применив к ним инструментарий нейробиологии. Благодаря введению целочисленного обучения с бинарным выводом, выходные данные стандартных моделей больших языков преобразуются в представления импульсов, что позволяет нейробиологическим инструментам анализировать обработку информации.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Существующие БЯМ, не только требуют больших энергетических затрат, но и, как правило, не обладают интерпретируемостью: их непрозрачные процессы принятия решений и оптимизации затрудняют обеспечение надежности и справедливости в таких областях высокого риска, как здравоохранение и финансы. Человеческий мозг же выполняет сложные задачи, потребляя менее 20 ватт энергии, при этом отличается прозрачностью когнитивных процессов.

Авторы статьи, опубликованной в журнале National Science Review, предлагают единую структуру, которая преобразует обычные языковые модели в нейроморфные спайковые БЯМ путем подсчета целочисленных импульсов и бинарного преобразования импульсов. Благодаря введению целочисленного обучения с бинарным выводом выходные данные стандартных БЯМ преобразуются в представления импульсов, что позволяет нейробиологическим инструментам анализировать обработку информации.

Для подтверждения энергоэффективности подхода в исследовании реализована вычислительная архитектура без MatMul для модели с миллиардом параметров на платформе FPGA. В частности, для оценки влияния каждого слоя на потери квантования используется стратегия послойного квантования и иерархические метрики чувствительности, что позволяет настроить оптимальную модель импульсов со смешанным временным шагом. Такой подход обеспечивает конкурентоспособную производительность при низкобитном квантовании, пишет EurekAlert.

Кроме того, стратегия разреживания с помощью квантования меняет распределение мембранного потенциала и смещает вероятности отображения квантования в сторону меньших целочисленных значений, что значительно снижает частоту генерации импульсов и дополнительно повышает эффективность модели.

Аппаратное ядро, созданное на FPGA VCK190, полностью исключает операции матричного умножения, снижая динамическое энергопотребление до 13,849 Вт и увеличивая пропускную способность до 161,8 токенов в секунду.

По сравнению с графическим процессором A800, этот подход обеспечивает в 19,8 раз более высокую энергоэффективность, в 21,3 раза большую экономию памяти и в 2,2 раза более высокую пропускную способность при выполнении инференции.

Преобразуя поведение языковых моделей в нейронные динамические представления, исследователи получают возможность анализировать как динамические свойства нейронов, так и их характеристики обработки информации. Это позволяет более четко интерпретировать вычислительную роль, которую играют нейроморфные модели.

Результаты экспериментов показывают, что модель эффективнее кодирует информацию при обработке однозначного текста. Благодаря интеграции нейронной динамики с информационно-теоретическими методами, эта структура обеспечивает интерпретируемость механизмов БЯМ, вдохновленную биологическими принципами, при этом значительно сокращая требования к данным.

Новая разработка исследователей из Samsung AI ставит под сомнение распространенное в отрасли убеждение в том, что чем больше модель ИИ, тем она, в целом, лучше. Созданная ими «Крошечная рекурсивная модель» (TRM) содержит всего 7 миллионов параметров, однако превосходит в сложных задачах рассуждения большие языковые модели, в тысячи раз превышающие ее по размеру.