Hitech logo

искусственный интеллект

Новый метод помогает БЯМ решать сложные новые задачи

TODO:
Георгий Голованов8 июля, 10:47

Несмотря на все свои впечатляющие возможности, большие языковые модели (БЯМ) часто не справляются с новыми задачами, требующими сложных навыков рассуждения. Специалисты из США нашли способ сделать их более адаптируемыми и стратегически использовать определенную методику обучения для повышения производительности модели при решении незнакомых, сложных проблем.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Пользователи БЯМ часто пытаются улучшить эффективность выполнения моделью новой задачи при помощи метода контекстного обучения. Однако этот подход не всегда работает для задач, требующих логики и рассуждений.

Исследователи из Массачусетского технологического института разработали способ повышения эффективности выполнения сложных задач, сочетающий контекстное обучение с обучением во время теста (Test-Time Training, TTT). TTT подразумевает обновление определенных параметров модели — внутренних переменных, которые она использует для прогнозирования — на основании небольшого количества новых, специфичных для текущей задачи данных, рассказывает MIT News.

Разработчики выяснили, как ТТТ взаимодействует с контекстным обучением. Они сравнили различные варианты моделей на предмет максимальной производительности, и обнаружили, что ТТТ — гораздо более эффективная форма обучения. Хотя простое предоставление примеров может слегка повысить точность, метод обучения во время теста дает лучший результат, особенно в сложных областях знаний.

Исследователи протестировали новый метод на двух тестах производительности с чрезвычайно сложными задачами вроде тех, которые дают для оценки IQ. Точность ответов оказалась в шесть раз выше, по сравнению с методами, которые используют только контекстное обучение. Задачи, которые включали структурированные шаблоны или те, которые использовали совершенно незнакомые типы данных, показали наибольший прирост производительности.

В будущем исследователи хотят использовать эти идеи для разработки моделей, которые обучаются непрерывно. Их долгосрочная цель — такая БЯМ, которая, получив запрос, сможет автоматически определить, нужно ли ей использовать ТТТ для обновления параметров или же она способна решить задачу с помощью контекстного обучения, а затем сможет выполнить выбранную стратегию без вмешательства человека.

Из 475 опрошенных ведущих специалистов по ИИ 76% считают, что увеличение размеров языковых моделей вряд ли приведет к созданию общего искусственного интеллекта (AGI), способного учиться на уровне человека. Это ставит под сомнение оптимистичные прогнозы технологических компаний, которые после успехов генеративного ИИ в 2022 году ожидали достижения уровня человеческого интеллекта с помощью простого наращивания объемов данных и вычислительных мощностей.