Hitech logo

Кейсы

Стартап Inception получил $50 млн на ИИ-модели в 10 раз быстрее, чем у OpenAI

TODO:
Денис ЕременкоСегодня, 11:36 AM

Стартап из Пало-Альто Inception, основанный профессором Стэнфорда Стефано Эрмоном, получил $50 млн на развитие диффузионных языковых моделей Mercury — альтернативы классическим авторегрессионным LLM. Компания обещает кратный прирост скорости генерации текста — до 5–10 раз относительно «фронтирных» моделей — без потери качества, что делает возможными сценарии реального времени: голосовые ассистенты, интерактивные интерфейсы и «живую» генерацию кода.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Ставка Inception — на перенос в текст того, что уже доказало эффективность в изображениях и видео: диффузионный процесс, где ответ появляется не по одному токену, а формируется «целиком» через серию параллельных уточнений. В отличие от авторегрессии, которая по природе последовательна и упирается в латентность декодирования, диффузия раскрывает параллелизм современных GPU и снимает «узкое горлышко» вывода. «По мере масштабного внедрения ИИ именно неэффективный inference становится главным барьером и драйвером затрат», — говорит Эрмон, называя диффузию «путём к практичности производительности в масштабе».

Ключевая новинка — Mercury: первая коммерчески доступная диффузионная LLM, по заявлению компании, сопоставимая по точности с флагманами OpenAI, Anthropic и Google, но быстрее в 5–10 раз. На Nvidia H100 Mercury демонстрирует свыше 1 000 токенов в секунду — метрика, которая ещё недавно ассоциировалась с экзотическими ускорителями Groq или Cerebras.

Технический препринт на arXiv фиксирует через сторонние измерения пропускную способность 1 109 токенов/с у Mercury Coder Mini и 737 токенов/с у Mercury Coder Small; при этом модели сохраняют качество на профильных бенчмарках для программирования.

Mercury уже вышла за пределы лаборатории: модели доступны через собственный API, а также интегрированы в экосистемы Amazon — Bedrock Marketplace и SageMaker JumpStart. Это означает, что корпоративные команды могут подключать dLLM из знакомой инфраструктуры AWS, сравнивая латентность и стоимость владения «в бою» с существующими авторегрессионными аналогами. Дополнительно Inception предлагает доступ через OpenRouter и Poe, позиционируя Mercury как «drop-in» замену AR-моделям в текущих пайплайнах.

Скорость — лишь первый слой. По расчётам Inception, снижение вычислительных требований позволяет либо держать ту же задержку на более крупных моделях, либо обслуживать больше пользователей на той же инфраструктуре. Архитектура диффузии, утверждают в компании, открывает и функциональные надстройки: встроенную коррекцию ошибок (снижение галлюцинаций), унифицированную мультимодальность (язык+изображения+код) и точное структурирование вывода — от function calling до генерации формализованных данных.

Для рынка это означает сдвиг в экономике вывода: декод-тяжёлые задачи (кодовые ассистенты, «агентные» пайплайны с длинными цепочками рассуждений, диалоговые интерфейсы) становятся заметно дешевле и быстрее без компромиссов для качества.

На фоне гонки «больших» и всё более дорогих LLM заявка Inception выглядит как попытка переложить центр тяжести с масштабирования параметров на оптимизацию пути генерации. В интервью TechCrunch Эрмон подчёркивает, что диффузия позволяет обойти фундаментальную последовательность авторегрессии: «Мы получили пропускную скорость свыше 1 000 токенов в секунду — это недостижимо у существующих AR-технологий, потому что наш стек изначально параллелен». В публикации также отмечается интеграция Mercury с инструментами для разработчиков и акцент на снижении латентности и стоимости, двух метрик, критичных для продакшена.

Наконец, у Inception сильная научная биография: в команде — профессора Стэнфорда, UCLA и Корнелла; среди технических «кирпичиков», к которым причастны основатели, — диффузия, flash-attention, decision transformers и DPO. Это важный сигнал для консервативных интеграторов: ставка делается не на «трюк с ускорением», а на самостоятельную ветвь развития генеративного ИИ, где тезис «быстрее и дешевле» не противоречит требованиям к качеству и управляемости. Если заявленные характеристики Mercury подтвердятся масштабными внедрениями, рынок может получить редкий компромисс: фронтирное качество при латентности и TCO, совместимых с требованиями эффективности реального бизнеса.

Раунд финансирования Inception возглавил фонд Menlo Ventures; среди участников — Mayfield, Innovation Endeavors, NVentures (венчурное подразделение Nvidia), M12 (фонд Microsoft), Snowflake Ventures и Databricks Investment; к сделке также присоединились бизнес-ангелы Эндрю Ын и Андрей Карпатый.