Существующие БЯМ, не только требуют больших энергетических затрат, но и, как правило, не обладают интерпретируемостью: их непрозрачные процессы принятия решений и оптимизации затрудняют обеспечение надежности и справедливости в таких областях высокого риска, как здравоохранение и финансы. Человеческий мозг же выполняет сложные задачи, потребляя менее 20 ватт энергии, при этом отличается прозрачностью когнитивных процессов.
Авторы статьи, опубликованной в журнале National Science Review, предлагают единую структуру, которая преобразует обычные языковые модели в нейроморфные спайковые БЯМ путем подсчета целочисленных импульсов и бинарного преобразования импульсов. Благодаря введению целочисленного обучения с бинарным выводом выходные данные стандартных БЯМ преобразуются в представления импульсов, что позволяет нейробиологическим инструментам анализировать обработку информации.
Для подтверждения энергоэффективности подхода в исследовании реализована вычислительная архитектура без MatMul для модели с миллиардом параметров на платформе FPGA. В частности, для оценки влияния каждого слоя на потери квантования используется стратегия послойного квантования и иерархические метрики чувствительности, что позволяет настроить оптимальную модель импульсов со смешанным временным шагом. Такой подход обеспечивает конкурентоспособную производительность при низкобитном квантовании, пишет EurekAlert.
Кроме того, стратегия разреживания с помощью квантования меняет распределение мембранного потенциала и смещает вероятности отображения квантования в сторону меньших целочисленных значений, что значительно снижает частоту генерации импульсов и дополнительно повышает эффективность модели.
Аппаратное ядро, созданное на FPGA VCK190, полностью исключает операции матричного умножения, снижая динамическое энергопотребление до 13,849 Вт и увеличивая пропускную способность до 161,8 токенов в секунду.
По сравнению с графическим процессором A800, этот подход обеспечивает в 19,8 раз более высокую энергоэффективность, в 21,3 раза большую экономию памяти и в 2,2 раза более высокую пропускную способность при выполнении инференции.
Преобразуя поведение языковых моделей в нейронные динамические представления, исследователи получают возможность анализировать как динамические свойства нейронов, так и их характеристики обработки информации. Это позволяет более четко интерпретировать вычислительную роль, которую играют нейроморфные модели.
Результаты экспериментов показывают, что модель эффективнее кодирует информацию при обработке однозначного текста. Благодаря интеграции нейронной динамики с информационно-теоретическими методами, эта структура обеспечивает интерпретируемость механизмов БЯМ, вдохновленную биологическими принципами, при этом значительно сокращая требования к данным.
Новая разработка исследователей из Samsung AI ставит под сомнение распространенное в отрасли убеждение в том, что чем больше модель ИИ, тем она, в целом, лучше. Созданная ими «Крошечная рекурсивная модель» (TRM) содержит всего 7 миллионов параметров, однако превосходит в сложных задачах рассуждения большие языковые модели, в тысячи раз превышающие ее по размеру.

