В основе HunyuanWorld-Voyager — гибридный подход: нейросеть одновременно генерирует цветное изображение и карту глубины (RGB-D), после чего данные преобразуются в точечное облако, которое проецируется обратно в 2D-плоскость. Такой цикл позволяет поддерживать геометрическую согласованность между кадрами. В отличие от других алгоритмов, например Sora от OpenAI, продукт Tencent отслеживает пространственные взаимосвязи объектов, благодаря чему при виртуальном перемещении камеры сохраняется корректная перспектива. На практике генерация ограничивается двумя секундами видео (49 кадров), но эти короткие клипы можно соединять в более продолжительные последовательности.
«Мы обучили систему на массиве из более чем 100 тысяч видеороликов, включая сцены на движке Unreal Engine, чтобы добиться ощущения реального 3D-пространства», — поясняют исследователи Tencent. Однако даже такой объём данных не избавил модель от ограничений: при длительном повороте камеры ошибки накапливаются, и сцена теряет целостность.
Иными словами, HunyuanWorld-Voyager опирается не на истинное понимание трёхмерной геометрии, а на сложное сопоставление шаблонов, дополненное обратной проекцией.
Для управления виртуальными сценами предусмотрен интерфейс задания траектории камеры — вперёд, назад, в стороны или с поворотом. Пользователь получает готовое видео и карту глубины, которые можно использовать для реконструкции облаков точек и последующего 3D-моделирования. По словам Tencent, система состоит из двух взаимосвязанных блоков: генерации видео с глубиной и так называемого «глобального кэша» — библиотеки точечных моделей, созданных из ранее сгенерированных кадров. Кэш обеспечивает проверку согласованности новых изображений с уже построенными сценами.
HunyuanWorld-Voyager стала развитием представленной в июле модели HunyuanWorld 1.0 и интегрируется в экосистему Hunyuan, куда также входят Hunyuan3D-2 (создание трёхмерных объектов по текстовому описанию) и HunyuanVideo (генерация роликов). Tencent рассчитывает, что связка алгоритмов позволит компании занять прочные позиции в быстрорастущем сегменте мультимодальных ИИ.
Работа системы требует значительных ресурсов: для генерации сцен в разрешении 540p необходимо не менее 60 Гбайт видеопамяти, а для более качественной картинки — до 80 Гбайт.
Код и документация выложены на платформе Hugging Face, однако лицензия накладывает ряд ограничений: модель нельзя использовать в Евросоюзе, Великобритании и Южной Корее, а коммерческое применение в проектах с аудиторией более 100 млн человек в месяц требует отдельного разрешения.
Эксперты отмечают, что открытость исходного кода — редкий шаг для китайских корпораций. По мнению аналитиков Ars Technica, Tencent демонстрирует готовность конкурировать с глобальными игроками не только на уровне продуктов, но и на уровне исследовательской инфраструктуры, где уже давно доминируют американские компании. Вопрос остаётся в другом: смогут ли подобные алгоритмы превратиться в полноценный инструмент разработки контента или же их ниша останется скорее экспериментальной.