Компания Tencent открыла исходный код и веса Hunyuan World 1.1, известной также как WorldMirror. Это универсальная feed-forward модель, которая генерирует трёхмерные сцены практически из любых входных данных — от видео и фото до комбинации снимков с разных ракурсов.
В отличие от версии Hunyuan World 1.0, которая фокусировалась на генерации 3D-миров из текста или одного изображения, новая модель делает ставку на точную реконструкцию реальной геометрии и поддержку видео. По сути, это шаг от «создания фантазийных миров» к воспроизведению реальности.
Читайте также: Как создавать видео с помощью нейросеть WAN 2.5
Что умеет нейросеть Hunyuan World 1.1
1. Любые входные данные.
WorldMirror принимает на вход видео, серию фото или одиночные изображения. При желании пользователь может добавить геометрические приоры — позы камер, фокусные расстояния, карты глубины — чтобы улучшить точность и устранить неоднозначности в структуре сцены.
2. Любые выходные данные.
Модель генерирует сразу несколько 3D-представлений в одном проходе:
- плотные облака точек (dense point clouds);
- карты глубины для разных ракурсов;
- параметры камер;
- нормали поверхностей;
- 3D Gaussian Splatting — формат, подходящий для современных рендеров и движков.
3. Быстро и просто.
Hunyuan World 1.1 — это feed-forward архитектура без итеративных шагов оптимизации. Весь процесс реконструкции выполняется на одной GPU и занимает несколько секунд. Это делает модель удобной для применения в реальном времени и в продакшн-пайплайнах.
Почему это важно? Раньше, чтобы восстановить 3D-сцену из видео или фото, требовались мощные серверы и много времени — иногда десятки минут на один объект. WorldMirror делает то же самое за несколько секунд и на одной видеокарте.
Модель не нужно долго настраивать под каждый набор данных — она работает «из коробки». Благодаря этому 3D-реконструкцию теперь можно использовать гораздо шире: быстро генерировать объекты и сцены для игр или VR, делать цифровые копии зданий и помещений, а также визуализировать сцены для фильмов.
Tencent утверждает, что WorldMirror показывает результаты уровня лучших в мире моделей (SOTA) на популярных наборах данных — и особенно хорошо работает, если добавить подсказки вроде позиции камер или карт глубины.
Статья в тему: Промты для создания 3D-фигурок и кукол в коробке
Как пользоваться Hunyuan World 1.1?
Модель Hunyuan World 1.1 (WorldMirror) распространяется по лицензии Tencent Hunyuan World Mirror Community License — она разрешает исследовательское и ограниченное коммерческое использование.
Использовать её можно двумя способами:
- Скачать и запустить локально. Репозиторий HunyuanWorld-Mirror на GitHub содержит код инференса, примеры и подробные инструкции по установке.
- Попробовать онлайн. На Hugging Face доступны веса модели и демо-интерфейс: можно загрузить видео или набор снимков и получить готовую 3D-сцену прямо в браузере.
Летом 2024 года Tencent представила Hunyuan World 1.0, модель для генерации 3D-миров из текста или одиночного изображения. Позже вышла Hunyuan World Lite — версия для обычных видеокарт. Теперь компания делает следующий шаг — универсальную 3D-реконструкцию из реальных данных, объединяющую разные направления (текст → 3D, фото → 3D, видео → 3D) в одном решении.
Итог: Tencent сместила фокус с генерации вымышленных 3D-миров на реконструкцию реальных сцен. Hunyuan World 1.1 (WorldMirror) показывает переход индустрии от «творческих» моделей, создающих фантазии по тексту, к практическим инструментам, которые точно восстанавливают геометрию и физику окружающего мира.
По сути, Tencent предлагает универсальный пайплайн для цифрового копирования реальности — шаг к «реальному» 3D-интеллекту, где модели не придумывают, а понимают и воспроизводят мир.
Ранее Lightricks представила нейросеть LTX-2, которая нативно генерирует видео в 4K.