Soul App联合西工大和上交大开源语音合成模型SoulX-Podcast，已登顶Hugging Face TTS趋势榜！-阿里云开发者社区

Soul App联合西工大和上交大开源语音合成模型SoulX-Podcast，已登顶Hugging Face TTS趋势榜！

2025-11-03 155

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

模型训练 PAI-DLC，100CU*H 3个月

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

交互式建模 PAI-DSW，每月250计算时 3个月

简介： Soul AI Lab联合西工大、上交大开源SoulX-Podcast，支持中英粤川等多语种方言及副语言生成，可稳定输出超60分钟自然流畅的多人对话音频，已在Huggingface登顶TTS趋势榜。

近日，Soul App AI团队（Soul AI Lab）联合西北工业大学ASLP@NPU团队和上海交通大学X-LANCE Lab正式开源语音播客生成模型SoulX-Podcast。该模型是一款专为多人、多轮对话场景打造的语音生成模型，支持中、英、川、粤等多语种/方言与副语言风格，能稳定输出超60分钟、自然流畅、角色切换准确、韵律起伏丰富的多轮语音对话。

除了播客场景以外，SoulX-Podcast在通用语音合成或克隆场景下也展现了出色的表现，带来更真实、更生动的语音体验。目前，该模型在开源社区公布的第二天便快速登上Huggingface TTS模型趋势榜榜首。

Demo Page:

https://soul-ailab.github.io/soulx-podcast

Technical Report:

https://arxiv.org/pdf/2510.23541

Source Code:

https://github.com/Soul-AILab/SoulX-Podcast

Model:

https://modelscope.cn/models/Soul-AILab/SoulX-Podcast-1.7B

01效果展示

零样本克隆的多轮对话能力

在零样本克隆播客生成场景中，SoulX-Podcast 展现出卓越的语音生成能力。它不仅能高度还原参考语音的音色与风格，更能根据对话语境灵活调节韵律与节奏，让每一段对话都自然流畅、富有节奏感。无论是多轮长时对话，还是情感层次丰富的交流，SoulX-Podcast 都能保持声音的连贯与表达的真实。此外，SoulX-Podcast还支持笑声、清嗓等多种副语言元素的可控生成，让合成语音更具临场感与表现力。

📎多轮对话能力demo.mp4

多语种和跨方言的克隆能力

除中英文外，SoulX-Podcast 同样支持四川话、河南话、粤语等多种主流方言。更值得关注的是，SoulX-Podcast 实现了跨方言音色克隆——即便仅提供普通话的参考语音，模型也能灵活生成带有四川话、河南话、粤语等方言特征的自然语音。

📎podcast_long.mp3

超长播客生成

SoulX-Podcast可以支持超长播客的生成，并维持稳定的音色与风格。

02SoulX-Podcast 开源背景

2025年9月，Soul 的两位虚拟人——孟知时与屿你——在 Soul App 群聊派对（多人语音互动场景）中发起了一场持续约40分钟的语音对话。在没有任何额外投流、仅依靠虚拟人自身自然流量的情况下，这场活动迅速引爆社区，房间互动热度刷新平台纪录，受到了广大用户的热烈欢迎。

这一成功案例让 Soul 的 AI 技术与虚拟IP运营团队深刻意识到：“虚拟IP + AI语音对话”正在成为虚拟内容生态的重要增长点。它不仅展现了虚拟人的人格魅力与表达张力，更揭示了 AI 在内容创作与社交互动中的全新潜能。

然而，当时业界能够稳定支持多轮自然对话的开源对话语音合成模型还比较匮乏。为此，Soul 团队决定开源 SoulX-Podcast，以期通过开源，携手 AIGC 社区，共同探索 AI 语音在内容创作、社交表达与虚拟生态中的更多可能。

03SoulX-Podcast 系统介绍

相比传统的单说话人语音合成系统，播客语音合成系统不仅需要保持文本与语音的精准一致，还要具备更强的上下文理解能力，以实现多轮对话间语音衔接的自然流畅与节奏的动态变化。此外，面对多角色交互和超长对话场景，系统还需在音色一致性、风格延续性以及角色切换的准确性上实现更高水平的控制与建模。

近来，已有部分开源研究开始探索播客或对话场景下的多说话人、多轮次语音合成能力。然而，这些工作仍主要聚焦于普通话或英语，对中文受众广泛的方言（如粤语、四川话、河南话等）支持不足。此外，在多轮语音对话场景中，恰当的副语言表达——如叹息、呼吸、笑声——对提升对话的生动性与自然度至关重要，但现有模型对此普遍关注不足。而SoulX-Podcast正是希望解决这些痛点：不仅支持多轮、多角色的长对话生成，同时兼顾方言覆盖和副语言表达能力，使播客语音更贴近真实交流场景、富有表现力与生动感，从而提升听众的沉浸体验和内容传播力。

整体SoulX-Podcast模型基础结构上采用了常用的LLM + Flow Matching的语音生成范式，前者建模语义token，后者进一步建模声学特征。在基于LLM的语义token建模方面，SoulX-Podcast以 Qwen3-1.7B 作为基座模型，并基于原始文本模型参数进行初始化，以充分继承其语言理解能力。

超长多轮对话合成

为支持超长多轮播客的稳定生成，SoulX-Podcast 在采用了<SPEAKER1><Text Tokens><Audio Tokens><SPEAKER2><Text Tokens><Auditon Tokens><<SPEAKER3><...>的交替排布策略，使模型能够自然扩展至任意长度的多轮对话推理，确保音色一致、衔接自然。

为在推理过程中尽可能保留长的对话历史信息，SoulX-Podcast在训练阶段充分考虑了语音 token 序列长度远高于文本 token 的特点。基于这一考量，SoulX-Podcast对话数据中的部分 speech token 进行了有策略的丢弃，仅保留对应的文本内容。

这一设计不仅源于对模型记忆效率的优化需求，也与真实数据的特性密切相关。在处理 in-the-wild 的对话数据过程中，部分语句的转写可能存在误差，或音频质量受噪声影响较大。为兼顾音频质量与数据留存率，数据在处理过程中是以句为单位进行筛选的：对于音质或转写质量较低的句子，仅保留文本信息，去除对应音频样本。通过这一策略，模型在推理阶段可以仅加载早期对话的文本信息，从而有效提高模型对更长历史对话信息的感知。

实际推理表明，SoulX-Podcast 能够稳定生成超过90 分钟 的多说话人长篇播客，在说话人切换自然性、对话流畅性与音色一致性方面均表现出色。

副语言可控生成

一定的副语言表达——如笑声、叹息等——对于提升多轮对话的自然度与真实感至关重要。为增强模型在这方面的表现，该工作通过 Gemini-2.5-Pro 等工具对语料中包含副语言元素的语音进行召回与标注，构建了高质量的副语言训练数据集。得益于这一设计，SoulX-Podcast 能够在合成过程中实现以下多种副语言的可控生成：