Большие языковые модели (LLM), показывающие впечатляющие результаты в области компиляции текстов, изображений или программного кода, требуют серьезных вычислительных мощностей и могут быть причиной утечки личных данных пользователей. Модели меньшего размера, с другой стороны, не обладают способностями LLM к многозадачности и в целом менее производительны, пишет MIT News.
Однако есть способ повысить эффективность моделей небольшого размера. Так называемое семантическое следование позволяет решать различные языковые задачи, в которых, если одно высказывание (посылка) правдиво, то и другое (постулат) тоже будет правдой. Эта концепция применяется для обучения «модели следования», которая оказалась менее предвзятой, чем другие языковые модели. Затем с ее помощью создаются «подсказки», которые может применять ИИ в процессе обучения.
Языковая модель, которую создали в MIT, насчитывает всего 350 млн параметров, но превосходит LLM с 137-175 млрд параметров, несмотря на то, что обучалась без учителя и без меток. «Доказав, что модели меньшего размера могут выполнять задачи по интерпретации языка на том же уровне, что и более крупные, эта работа прокладывает путь для более устойчивых и защищенных технологий ИИ», — сказал Ло Хунинь, ведущий автор статьи.
Он и его коллеги обнаружили, что можно повысить эффективность модели еще больше, при помощи метода самообучения, когда модель использует собственные предсказания для обучения самой себя и обходится без надзора человека и дополнительных данных. Этот метод позволяет значимо повысить производительность в ряде задач, в том числе, в смысловом анализе, вопросах и ответах, классификации новостей. Он превосходит возможности моделей LaMDA, FLAN, GPT и других алгоритмов, требующих учителя.
А для того, чтобы отучить модель время от времени генерировать неверные метки, которые снижают производительность, разработчики написали новый алгоритм SimPLE. Он просматривает и модифицирует псевдометки в начальных раундах обучения. Это не только повышает эффективность модели, но и делает ее более надежной.
Группа разработчиков под коллективным псевдонимом Pizza Later объединила пять разных моделей искусственного интеллекта, чтобы создать рекламный ролик для вымышленного ресторана-пиццерии под названием Pepperoni Hug Spot. Ролик получился с явно выраженным эффектом «зловещей долины» — его герои выглядят и ведут себя как люди, но вызывают у настоящих людей неприязнь и отвращение.