Hitech logo

Кейсы

Ученые нашли способ приблизить ИИ к мозгу по энергоэффективности

TODO:
Екатерина СмирноваВчера, 11:33 AM

При обучении искусственного интеллекта требуется огромное количество вычислительных ресурсов, что вызывает опасения относительно экологии и энергозатрат. Обычно для обучения используются модели с избыточным количеством параметров, которые обучаются на случайных данных. Ученые предложили альтернативный подход: обучение «по программе», при котором данные подаются в порядке возрастающей сложности. Аналогичным образом учатся люди — начинают с простых примеров и постепенно переходят к сложным. Исследования показали, что такой метод может быть эффективным, особенно для компактных моделей с меньшим числом параметров, и поможет снизить потребление ресурсов.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Бурное развитие нейросетей сопровождается стремительным ростом энергопотребления. Для обучения искусственного интеллекта требуются огромные вычислительные мощности, что вызывает серьезные опасения относительно экологических последствий. Так что оптимизация энергоэффективности ИИ становится важной задачей.

Нейронные сети — это вычислительные модели, построенные по принципу биологических нейронных сетей. Они состоят из множества взаимосвязанных узлов, способных к обучению на основе данных. Производительность нейронных сетей прямо пропорциональна их размеру во время обучения. Чем больше параметров содержит сеть, тем точнее она выполняет поставленные задачи. Это явление получило название «гипотезы лотерейного билета». Однако такой подход сопряжен с огромными вычислительными затратами, требующими ресурсов и энергии.

При этом человеческий мозг работает эффективно, используя гораздо меньше энергии, чем компьютеры. Ученые полагают, что секрет кроется в том, как люди учатся. Например, чтобы научиться играть на пианино, мы начинаем с простых мелодий, а не сразу беремся за сложные произведения. Исследователи считают, что искусственные нейронные сети могли бы делать так же, постепенно усложняя задачи.

Метод, при котором данные подаются нейронной сети в порядке возрастающей сложности, называют обучением по принципу учебной программы (curriculum learning). Однако на практике обучение происходит так: крупные модели с избыточным количеством параметров получают данные случайным образом. После завершения обучения нейросеть можно уменьшить, сократив число параметров на 90%, поскольку большинство из них уже не используется. Однако если с самого начала использовать сеть с таким ограниченным количеством параметров, она не сможет обучиться. Таким образом, хотя готовая ИИ-модель может быть достаточно компактной, чтобы поместиться в смартфон, для ее обучения требуются мощные серверы.

Ученые думали, что если учить нейронные сети пошагово, от простого к сложному, то можно сэкономить время и ресурсы. Но оказалось, что для очень больших и сложных сетей такой подход не работает.

В новом исследовании команда попыталась выяснить, почему. Ученые установили, что сложные сети не нуждаются в направляющих примерах, поскольку огромное количество параметров помогает им выполнять задачи. Вместо того чтобы использовать оптимизированные обучающие данные, нейросеть полагается на свои обширные вычислительные ресурсы. Система находит внутри себя компоненты, которые, после небольших корректировок, могут справляться с поставленной задачей.

Эти результаты на самом деле положительные, поскольку показывают, что нейросети способны использовать преимущества обучения с постепенным усложнением. В сетях с большим количеством параметров обучение идет по другому пути, так как изначально у них достаточно ресурсов для выполнения задачи. Однако теоретически можно начинать с меньших сетей и применять обучение с увеличением сложности примеров. Исследование показало, что в таких случаях представление данных в специально подобранном порядке улучшает производительность сети по сравнению со случайным порядком подачи. Причем это улучшение становится заметнее, чем простое увеличение числа параметров, при котором порядок входных данных теряет значение.