Hitech logo

Кейсы

Меньше, быстрее, дешевле: как российские ML-инженеры решают задачи для мирового рынка

TODO:
София Головина21 мая 2025 г., 07:32

16–17 мая в Санкт-Петербурге прошла IML 2025 — техническая конференция для ML-инженеров и исследователей. 350 участников, 40 спикеров, 30+ докладов. Хайтек+ разобрался, какие темы оказались в центре внимания и что это говорит о состоянии индустрии.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Гонка за размером закончилась. Началась гонка за эффективностью

Ещё два года назад главным мерилом прогресса в машинном обучении был размер модели: больше параметров — лучше результат. Эта логика определяла и продуктовые решения, и инвестиции, и найм. Сегодня она работает значительно хуже.

Стоимость обучения сверхбольших моделей растёт быстрее, чем отдача от масштабирования. Железо не успевает за аппетитами архитекторов. И индустрия — одновременно в России и за рубежом — начала искать ответ в другом направлении: не как сделать модель больше, а как сделать вывод умнее и дешевле.

Именно этот сдвиг стал сквозной темой IML 2025. Программу конференции формировал, в том числе, Александр Толмачёв — практикующий эксперт в области машинного обучения с опытом построения платформ обработки данных и МО-платформ в электронной коммерции и финтехе, регулярный спикер отраслевых конференций — от PiterPy и HighLoad++ до Datafest и Positive Hack Days. В индустрии он рассматривается как признанный эксперт в области прикладного машинного обучения и построения инфраструктуры МО, которого регулярно привлекают к формированию программ профессиональных конференций и экспертных дискуссий. В роли со-организатора и члена программного комитета IML он отвечал за содержательную планку мероприятия.

«Мы намеренно отбирали доклады, где есть конкретика: что сломалось, как починили, сколько это стоило в вычислениях», — говорит Толмачёв. Заявки с общими рассуждениями о трендах отсеивались на этапе рецензирования: каждую рассматривали минимум три рецензента из программного комитета, и главный вопрос был один — есть ли за этим реальный производственный опыт. Именно такой отбор и определил состав спикеров: Яндекс, Wildberries, Сбер, Т-Банк, Авито, Циан — компании, которые эксплуатируют системы машинного обучения под высокой нагрузкой каждый день.

Масштабирование вывода: новое измерение, которое меняет экономику продукта

Центральным техническим докладом конференции стало выступление инженера Яндекса Сергея Воробьёва — «Масштабирование обучения и вывода больших языковых моделей». Уровень сложности в программе был отмечен как высший.

Суть проблемы: модели класса DeepSeek-V3 и Llama требуют сотен графических процессоров для обучения и развёртывания. При горизонтальном масштабировании возникают системные узкие места — графические процессоры простаивают, накладные расходы на коммуникацию растут, эффективная утилизация падает. Воробьёв разобрал инструментарий, с которым Яндекс работает сейчас: PyTorch FSDP, различные виды параллелизма — тензорный, конвейерный, по данным — их преимущества и слабые стороны при разных конфигурациях. Отдельный блок — вывод в промышленной среде: vLLM, SGLang, практические трудности при развёртывании.

«Это уже не инженерная деталь — это вопрос, который напрямую влияет на экономику продукта», — говорит Толмачёв. — «Когда вывод одного запроса стоит дорого, это проблема не команды эксплуатации, это проблема бизнес-модели. И именно здесь сейчас сосредоточена реальная конкуренция».

Показательно, что параллельно с IML — 12–15 мая в Калифорнии — проходила MLSys 2025, ведущая международная конференция по системам машинного обучения. Лучшей статьёй там была признана работа FlashInfer: высокопроизводительный движок механизма внимания для вывода больших языковых моделей. Вся секция по обслуживанию моделей строилась вокруг той же проблематики — кэш ключей и значений, эффективность механизма внимания, аппаратно-ориентированное планирование. Это не совпадение и не заимствование: индустрия глобально упёрлась в одни и те же узкие места. Разница — в жанре: на MLSys публикуют воспроизводимые исследования, на IML разбирают, как это работает под реальной нагрузкой конкретного продукта.

От кодировщик-декодировщик к малой языковой модели: кейс Wildberries

Один из наиболее показательных докладов второго дня — выступление команды Wildberries про эволюцию рекомендательной системы маркетплейса.

Несколько лет назад для задач рекомендаций использовалась архитектура P5 — модель «кодировщик-декодировщик», которая на момент появления считалась передовым решением для рекомендательных систем на основе больших языковых моделей. Проблема обнаружилась при масштабировании: архитектура оказалась вычислительно дорогой под промышленными нагрузками. Команда прошла путь от анализа влияния языка модели на качество рекомендаций — через эксперименты с подсказками и токенизацией — к смене архитектуры: переходу на декодировщик-ориентированную малую языковую модель. Результат: снижение вычислительных затрат при сохранении качества офлайн-метрик.

«Именно такие доклады сложнее всего найти где-либо ещё», — говорит Толмачёв. — «Wildberries не опубликуют это на arxiv. Но инженер из другого маркетплейса или финтеха может унести это решение в свою команду и сэкономить месяцы экспериментов. Ради этого переноса знания конференция и существует».

Это иллюстрация более широкого тренда: малые языковые модели перестали быть компромиссом для тех, у кого нет ресурсов на большие модели. При правильной организации вывода они становятся осознанным архитектурным выбором — экономически и технически обоснованным.

Мультимодальный поиск: почему раннее слияние выигрывает

Доклад Алексея Попова из компании Navio был посвящён архитектурам мультимодального распознавания — на примере задач автономного транспорта, где одновременно работают камеры, лидары, радары и сонары.

Каждая модальность имеет свои слепые зоны: камеры хорошо видят контекст, но теряются при осадках; лидары точно измеряют пространство, но не различают цвета; радары работают в любую погоду, но создают помехи. Попов разобрал два подхода к объединению сигналов: позднее слияние — объединение готовых предсказаний отдельных алгоритмов — и раннее слияние — объединение признаковых представлений на ранних слоях нейросети. Его вывод и опыт команды говорят в пользу раннего слияния: именно оно позволяет моделям учиться на взаимодействии модальностей, а не просто суммировать независимые предсказания.

«Мультимодальность — это одна из тем, где разрыв между академическими результатами и тем, что реально работает в промышленной среде, всё ещё очень большой», — отмечает Толмачёв. — «Поэтому нам был важен именно инженерный взгляд изнутри: не „что показывают контрольные испытания“, а „что происходит, когда это едет по дороге“».

Главный доклад: будущее МО — не там, где его ждут

Общую рамку для обоих дней задал совместный главный доклад Александра Крайнова и Сергея Николенко из Яндекса — «Будущее машинного обучения: за пределами больших моделей».

Их тезис: современное машинное обучение чрезмерно сфокусировано на масштабировании параметров. Но когда закон Мура замедляется, а стоимость обучения растёт, конкурентное преимущество смещается в вычисления на этапе вывода, архитектурную эффективность, умение делать больше с меньшими ресурсами.

«Мы хотели открыть конференцию именно этим разговором — не про то, как устроена та или иная модель, а про то, куда движется логика всей индустрии», — говорит Толмачёв. — «Это задаёт контекст для всех остальных докладов: почему люди переходят к малым языковым моделям, почему так много внимания к масштабированию вывода, почему мультимодальность — это не про добавление новых входов, а про переосмысление архитектуры целиком. Когда программный комитет видит эту связность — это признак зрелой конференции».

Что это значит для рынка

IML существует несколько лет, и каждый раз программный комитет намеренно удерживает планку: не массовое мероприятие, а плотная аудитория практиков. 350 человек в зале — это не ограничение охвата, это фильтр качества: люди, которые пишут производственный код, а не читают о нём в блогах.

IML 2025 зафиксировала момент, когда ведущие российские технологические компании работают с теми же инженерными проблемами, что определяют глобальную повестку — не с отставанием, а в реальном времени. И то, что эти проблемы одновременно оказались в центре внимания и на IML в Петербурге, и на MLSys в Калифорнии — лучшее подтверждение актуальности программы, которую выстраивал комитет.

Все записи докладов доступны на сайте конференции. «Мы с самого начала закладывали это как часть концепции, а не бонус», — говорит Толмачёв. — «Знание, которое осталось только у 350 человек в зале, имеет ограниченный импакт. Нам было важно, чтобы материалы работали дальше — для тех, кто не смог приехать, и для тех, кто вернётся к докладу через полгода, когда столкнётся с той же проблемой в промышленной среде».

Записи докладов IML 2025: imlconf.com