Новая технология Nvidia решает главную проблему БЯМ

Кейсы

Новая технология Nvidia решает главную проблему БЯМ — ограничение контекста

Екатерина Шемякинская9 июля, 09:11

Екатерина Шемякинская9 июля, 09:11

Nvidia представила технологию Helix Parallelism, благодаря которой модели смогут обрабатывать миллионы слов и одновременно обслуживать в 32 раза больше пользователей. Эта разработка, построенная на архитектуре Blackwell, решает одну из главных проблем больших языковых моделей — ограничение контекста. Раньше ИИ не справлялся с длинными текстами и забывал информацию в середине диалога. Новая система особенно полезна в сферах, где нужно анализировать большие объёмы данных в реальном времени — например, в юриспруденции, медицине и программировании.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Эксперты отмечают, что большие языковые модели (LLM) до сих пор с трудом удерживают внимание при работе с очень длинными текстами. LLM ограничены размером контекстного окна, из-за чего им приходится «забывать» информацию, полученную в начале долгих диалогов. Из-за этой проблемы, известной как «потеря в середине», модели эффективно используют лишь 10–20% своих входных данных.

Создан цемент, охлаждающий стены на 5,4°C под палящим солнцем

При генерации каждого нового слова модели приходится обращаться к ранее обработанным токенам, хранящимся в так называемом KV-кэше. Это создаёт серьёзную нагрузку на память и пропускную способность видеокарт. Одновременно для каждого шага генерации нужно подгружать большие объёмы весов нейросети с прямой связью (FFN), что замедляет работу, особенно в интерактивных задачах вроде чатов.

Раньше для распределения нагрузки использовали тензорный параллелизм (TP), но с ростом объёма кэш начинал дублироваться на разных видеокартах, усугубляя проблемы с памятью. Технология Helix Parallelism решает эту проблему, разделяя обработку двух ключевых частей модели: внимания и слоя прямой связи.

На этапе внимания Helix распределяет историю текста (кэш) между разными видеокартами с помощью метода KV-параллелизма. Так каждая видеокарта обрабатывает лишь свою часть данных, избегая дублирования и ускоряя доступ к памяти. Затем эти же видеокарты переходят в стандартный режим TP и совместно обрабатывают следующий этап — слой прямой связи. Такой подход помогает равномерно распределить нагрузку, сократить простои и использовать все ресурсы системы более эффективно.

Исследователи провели симуляции с моделью DeepSeek-R1 671B, которая, как следует из названия, имеет 671 млрд параметров, а также способна к логическому мышлению. Новая техника позволила сократить время ответа до 1,5 раз.

Разработчики считают, что Helix Parallelism может изменить подход к созданию и использованию LLM. Технология расширяет «память» моделей, позволяя им в реальном времени обрабатывать и анализировать большие объёмы данных. Это открывает перспективы для использования моделей в юриспруденции (анализ гигабайтов документов), программировании (работа с большими репозиториями) и медицине (анализ историй болезни). Кроме того, Helix поможет развивать многоагентные системы, где ИИ могут эффективно взаимодействовать и принимать сложные решения на основе обширной информации.

Однако остаются сложности с передачей данных между уровнями памяти, что может замедлять работу при увеличении контекста. Это значит, что даже при аппаратных прорывах оптимизация потоков данных остаётся ключевой задачей.

Также по теме

Кейсы

Adobe представила множество ИИ-функции для Photoshop и других приложений

Кейсы

LifeShip доставит ДНК клиентов на Луну всего за $99

Кейсы

Тест на антитела с точностью 99% одобрен для использования в Европе

Кейсы

В Японии успешно испытали будущий 5G из стратосферы

Новости СМИ2