Эксперты отмечают, что большие языковые модели (LLM) до сих пор с трудом удерживают внимание при работе с очень длинными текстами. LLM ограничены размером контекстного окна, из-за чего им приходится «забывать» информацию, полученную в начале долгих диалогов. Из-за этой проблемы, известной как «потеря в середине», модели эффективно используют лишь 10–20% своих входных данных.
При генерации каждого нового слова модели приходится обращаться к ранее обработанным токенам, хранящимся в так называемом KV-кэше. Это создаёт серьёзную нагрузку на память и пропускную способность видеокарт. Одновременно для каждого шага генерации нужно подгружать большие объёмы весов нейросети с прямой связью (FFN), что замедляет работу, особенно в интерактивных задачах вроде чатов.
Раньше для распределения нагрузки использовали тензорный параллелизм (TP), но с ростом объёма кэш начинал дублироваться на разных видеокартах, усугубляя проблемы с памятью. Технология Helix Parallelism решает эту проблему, разделяя обработку двух ключевых частей модели: внимания и слоя прямой связи.
На этапе внимания Helix распределяет историю текста (кэш) между разными видеокартами с помощью метода KV-параллелизма. Так каждая видеокарта обрабатывает лишь свою часть данных, избегая дублирования и ускоряя доступ к памяти. Затем эти же видеокарты переходят в стандартный режим TP и совместно обрабатывают следующий этап — слой прямой связи. Такой подход помогает равномерно распределить нагрузку, сократить простои и использовать все ресурсы системы более эффективно.
Исследователи провели симуляции с моделью DeepSeek-R1 671B, которая, как следует из названия, имеет 671 млрд параметров, а также способна к логическому мышлению. Новая техника позволила сократить время ответа до 1,5 раз.
Разработчики считают, что Helix Parallelism может изменить подход к созданию и использованию LLM. Технология расширяет «память» моделей, позволяя им в реальном времени обрабатывать и анализировать большие объёмы данных. Это открывает перспективы для использования моделей в юриспруденции (анализ гигабайтов документов), программировании (работа с большими репозиториями) и медицине (анализ историй болезни). Кроме того, Helix поможет развивать многоагентные системы, где ИИ могут эффективно взаимодействовать и принимать сложные решения на основе обширной информации.
Однако остаются сложности с передачей данных между уровнями памяти, что может замедлять работу при увеличении контекста. Это значит, что даже при аппаратных прорывах оптимизация потоков данных остаётся ключевой задачей.