Hitech logo

Кейсы

Новая технология Nvidia решает главную проблему БЯМ — ограничение контекста

TODO:
Екатерина ШемякинскаяВчера, 09:11 AM

Nvidia представила технологию Helix Parallelism, благодаря которой модели смогут обрабатывать миллионы слов и одновременно обслуживать в 32 раза больше пользователей. Эта разработка, построенная на архитектуре Blackwell, решает одну из главных проблем больших языковых моделей — ограничение контекста. Раньше ИИ не справлялся с длинными текстами и забывал информацию в середине диалога. Новая система особенно полезна в сферах, где нужно анализировать большие объёмы данных в реальном времени — например, в юриспруденции, медицине и программировании.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Эксперты отмечают, что большие языковые модели (LLM) до сих пор с трудом удерживают внимание при работе с очень длинными текстами. LLM ограничены размером контекстного окна, из-за чего им приходится «забывать» информацию, полученную в начале долгих диалогов. Из-за этой проблемы, известной как «потеря в середине», модели эффективно используют лишь 10–20% своих входных данных.

При генерации каждого нового слова модели приходится обращаться к ранее обработанным токенам, хранящимся в так называемом KV-кэше. Это создаёт серьёзную нагрузку на память и пропускную способность видеокарт. Одновременно для каждого шага генерации нужно подгружать большие объёмы весов нейросети с прямой связью (FFN), что замедляет работу, особенно в интерактивных задачах вроде чатов.

Раньше для распределения нагрузки использовали тензорный параллелизм (TP), но с ростом объёма кэш начинал дублироваться на разных видеокартах, усугубляя проблемы с памятью. Технология Helix Parallelism решает эту проблему, разделяя обработку двух ключевых частей модели: внимания и слоя прямой связи.

На этапе внимания Helix распределяет историю текста (кэш) между разными видеокартами с помощью метода KV-параллелизма. Так каждая видеокарта обрабатывает лишь свою часть данных, избегая дублирования и ускоряя доступ к памяти. Затем эти же видеокарты переходят в стандартный режим TP и совместно обрабатывают следующий этап — слой прямой связи. Такой подход помогает равномерно распределить нагрузку, сократить простои и использовать все ресурсы системы более эффективно.

Исследователи провели симуляции с моделью DeepSeek-R1 671B, которая, как следует из названия, имеет 671 млрд параметров, а также способна к логическому мышлению. Новая техника позволила сократить время ответа до 1,5 раз.

Разработчики считают, что Helix Parallelism может изменить подход к созданию и использованию LLM. Технология расширяет «память» моделей, позволяя им в реальном времени обрабатывать и анализировать большие объёмы данных. Это открывает перспективы для использования моделей в юриспруденции (анализ гигабайтов документов), программировании (работа с большими репозиториями) и медицине (анализ историй болезни). Кроме того, Helix поможет развивать многоагентные системы, где ИИ могут эффективно взаимодействовать и принимать сложные решения на основе обширной информации.

Однако остаются сложности с передачей данных между уровнями памяти, что может замедлять работу при увеличении контекста. Это значит, что даже при аппаратных прорывах оптимизация потоков данных остаётся ключевой задачей.