Пользователи БЯМ часто пытаются улучшить эффективность выполнения моделью новой задачи при помощи метода контекстного обучения. Однако этот подход не всегда работает для задач, требующих логики и рассуждений.
Исследователи из Массачусетского технологического института разработали способ повышения эффективности выполнения сложных задач, сочетающий контекстное обучение с обучением во время теста (Test-Time Training, TTT). TTT подразумевает обновление определенных параметров модели — внутренних переменных, которые она использует для прогнозирования — на основании небольшого количества новых, специфичных для текущей задачи данных, рассказывает MIT News.
Разработчики выяснили, как ТТТ взаимодействует с контекстным обучением. Они сравнили различные варианты моделей на предмет максимальной производительности, и обнаружили, что ТТТ — гораздо более эффективная форма обучения. Хотя простое предоставление примеров может слегка повысить точность, метод обучения во время теста дает лучший результат, особенно в сложных областях знаний.
Исследователи протестировали новый метод на двух тестах производительности с чрезвычайно сложными задачами вроде тех, которые дают для оценки IQ. Точность ответов оказалась в шесть раз выше, по сравнению с методами, которые используют только контекстное обучение. Задачи, которые включали структурированные шаблоны или те, которые использовали совершенно незнакомые типы данных, показали наибольший прирост производительности.
В будущем исследователи хотят использовать эти идеи для разработки моделей, которые обучаются непрерывно. Их долгосрочная цель — такая БЯМ, которая, получив запрос, сможет автоматически определить, нужно ли ей использовать ТТТ для обновления параметров или же она способна решить задачу с помощью контекстного обучения, а затем сможет выполнить выбранную стратегию без вмешательства человека.
Из 475 опрошенных ведущих специалистов по ИИ 76% считают, что увеличение размеров языковых моделей вряд ли приведет к созданию общего искусственного интеллекта (AGI), способного учиться на уровне человека. Это ставит под сомнение оптимистичные прогнозы технологических компаний, которые после успехов генеративного ИИ в 2022 году ожидали достижения уровня человеческого интеллекта с помощью простого наращивания объемов данных и вычислительных мощностей.