Hitech logo

искусственный интеллект

В MIT придумали, как делать большие языковые модели меньше

TODO:
Георгий Голованов9 июня 2023 г., 11:46

Размер языковой модели не обязательно предопределяет ее эффективность, доказали специалисты из США. Не стоит недооценивать небольшие языковые модели, особенно в области интерпретации естественного языка, считают разработчики модели, которая в 500 раз превосходит большие аналоги в некоторых задачах на понимание языка. Кроме того, она сочетает приватность и надежность с высокой производительностью.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Большие языковые модели (LLM), показывающие впечатляющие результаты в области компиляции текстов, изображений или программного кода, требуют серьезных вычислительных мощностей и могут быть причиной утечки личных данных пользователей. Модели меньшего размера, с другой стороны, не обладают способностями LLM к многозадачности и в целом менее производительны, пишет MIT News.

Однако есть способ повысить эффективность моделей небольшого размера. Так называемое семантическое следование позволяет решать различные языковые задачи, в которых, если одно высказывание (посылка) правдиво, то и другое (постулат) тоже будет правдой. Эта концепция применяется для обучения «модели следования», которая оказалась менее предвзятой, чем другие языковые модели. Затем с ее помощью создаются «подсказки», которые может применять ИИ в процессе обучения.

Языковая модель, которую создали в MIT, насчитывает всего 350 млн параметров, но превосходит LLM с 137-175 млрд параметров, несмотря на то, что обучалась без учителя и без меток. «Доказав, что модели меньшего размера могут выполнять задачи по интерпретации языка на том же уровне, что и более крупные, эта работа прокладывает путь для более устойчивых и защищенных технологий ИИ», — сказал Ло Хунинь, ведущий автор статьи.

Он и его коллеги обнаружили, что можно повысить эффективность модели еще больше, при помощи метода самообучения, когда модель использует собственные предсказания для обучения самой себя и обходится без надзора человека и дополнительных данных. Этот метод позволяет значимо повысить производительность в ряде задач, в том числе, в смысловом анализе, вопросах и ответах, классификации новостей. Он превосходит возможности моделей LaMDA, FLAN, GPT и других алгоритмов, требующих учителя.

А для того, чтобы отучить модель время от времени генерировать неверные метки, которые снижают производительность, разработчики написали новый алгоритм SimPLE. Он просматривает и модифицирует псевдометки в начальных раундах обучения. Это не только повышает эффективность модели, но и делает ее более надежной.

Группа разработчиков под коллективным псевдонимом Pizza Later объединила пять разных моделей искусственного интеллекта, чтобы создать рекламный ролик для вымышленного ресторана-пиццерии под названием Pepperoni Hug Spot. Ролик получился с явно выраженным эффектом «зловещей долины» — его герои выглядят и ведут себя как люди, но вызывают у настоящих людей неприязнь и отвращение.