Soul App联合西工大和上交大开源语音合成模型SoulX-Podcast,已登顶Hugging Face TTS趋势榜!

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: Soul AI Lab联合西工大、上交大开源SoulX-Podcast,支持中英粤川等多语种方言及副语言生成,可稳定输出超60分钟自然流畅的多人对话音频,已在Huggingface登顶TTS趋势榜。

近日,Soul App AI团队(Soul AI Lab)联合西北工业大学ASLP@NPU团队和上海交通大学X-LANCE Lab正式开源语音播客生成模型SoulX-Podcast。该模型是一款专为多人、多轮对话场景打造的语音生成模型,支持中、英、川、粤等多语种/方言与副语言风格,能稳定输出超60分钟、自然流畅、角色切换准确、韵律起伏丰富的多轮语音对话。


除了播客场景以外,SoulX-Podcast在通用语音合成或克隆场景下也展现了出色的表现,带来更真实、更生动的语音体验。目前,该模型在开源社区公布的第二天便快速登上Huggingface TTS模型趋势榜榜首。

Demo Page:

https://soul-ailab.github.io/soulx-podcast

Technical Report:

https://arxiv.org/pdf/2510.23541

Source Code:

https://github.com/Soul-AILab/SoulX-Podcast

Model:

https://modelscope.cn/models/Soul-AILab/SoulX-Podcast-1.7B

01效果展示

零样本克隆的多轮对话能力

在零样本克隆播客生成场景中,SoulX-Podcast 展现出卓越的语音生成能力。它不仅能高度还原参考语音的音色与风格,更能根据对话语境灵活调节韵律与节奏,让每一段对话都自然流畅、富有节奏感。无论是多轮长时对话,还是情感层次丰富的交流,SoulX-Podcast 都能保持声音的连贯与表达的真实。此外,SoulX-Podcast还支持笑声、清嗓等多种副语言元素的可控生成,让合成语音更具临场感与表现力。

📎多轮对话能力demo.mp4

多语种和跨方言的克隆能力

除中英文外,SoulX-Podcast 同样支持四川话、河南话、粤语等多种主流方言。更值得关注的是,SoulX-Podcast 实现了跨方言音色克隆——即便仅提供普通话的参考语音,模型也能灵活生成带有四川话、河南话、粤语等方言特征的自然语音。

📎podcast_long.mp3

超长播客生成

SoulX-Podcast可以支持超长播客的生成,并维持稳定的音色与风格。

02SoulX-Podcast 开源背景

2025年9月,Soul 的两位虚拟人——孟知时屿你——在 Soul App 群聊派对(多人语音互动场景)中发起了一场持续约40分钟的语音对话。在没有任何额外投流、仅依靠虚拟人自身自然流量的情况下,这场活动迅速引爆社区,房间互动热度刷新平台纪录,受到了广大用户的热烈欢迎。


这一成功案例让 Soul 的 AI 技术与虚拟IP运营团队深刻意识到:“虚拟IP + AI语音对话”正在成为虚拟内容生态的重要增长点。它不仅展现了虚拟人的人格魅力与表达张力,更揭示了 AI 在内容创作与社交互动中的全新潜能。


然而,当时业界能够稳定支持多轮自然对话的开源对话语音合成模型还比较匮乏。为此,Soul 团队决定开源 SoulX-Podcast, 以期通过开源,携手 AIGC 社区,共同探索 AI 语音在内容创作、社交表达与虚拟生态中的更多可能。


03SoulX-Podcast 系统介绍

相比传统的单说话人语音合成系统,播客语音合成系统不仅需要保持文本与语音的精准一致,还要具备更强的上下文理解能力,以实现多轮对话间语音衔接的自然流畅与节奏的动态变化。此外,面对多角色交互和超长对话场景,系统还需在音色一致性、风格延续性以及角色切换的准确性上实现更高水平的控制与建模。


近来,已有部分开源研究开始探索播客或对话场景下的多说话人、多轮次语音合成能力。然而,这些工作仍主要聚焦于普通话或英语,对中文受众广泛的方言(如粤语、四川话、河南话等)支持不足。此外,在多轮语音对话场景中,恰当的副语言表达——如叹息、呼吸、笑声——对提升对话的生动性与自然度至关重要,但现有模型对此普遍关注不足。而SoulX-Podcast正是希望解决这些痛点:不仅支持多轮、多角色的长对话生成,同时兼顾方言覆盖和副语言表达能力,使播客语音更贴近真实交流场景、富有表现力与生动感,从而提升听众的沉浸体验和内容传播力。


整体SoulX-Podcast模型基础结构上采用了常用的LLM + Flow Matching的语音生成范式,前者建模语义token,后者进一步建模声学特征。在基于LLM的语义token建模方面,SoulX-Podcast以 Qwen3-1.7B 作为基座模型,并基于原始文本模型参数进行初始化,以充分继承其语言理解能力。


超长多轮对话合成

为支持超长多轮播客的稳定生成,SoulX-Podcast 在采用了<SPEAKER1><Text Tokens><Audio Tokens><SPEAKER2><Text Tokens><Auditon Tokens><<SPEAKER3><...>的交替排布策略,使模型能够自然扩展至任意长度的多轮对话推理,确保音色一致、衔接自然。


为在推理过程中尽可能保留长的对话历史信息,SoulX-Podcast在训练阶段充分考虑了语音 token 序列长度远高于文本 token 的特点。基于这一考量,SoulX-Podcast对话数据中的部分 speech token 进行了有策略的丢弃,仅保留对应的文本内容。


这一设计不仅源于对模型记忆效率的优化需求,也与真实数据的特性密切相关。在处理 in-the-wild 的对话数据过程中,部分语句的转写可能存在误差,或音频质量受噪声影响较大。为兼顾音频质量与数据留存率,数据在处理过程中是以句为单位进行筛选的:对于音质或转写质量较低的句子,仅保留文本信息,去除对应音频样本。通过这一策略,模型在推理阶段可以仅加载早期对话的文本信息,从而有效提高模型对更长历史对话信息的感知。


实际推理表明,SoulX-Podcast 能够稳定生成超过90 分钟 的多说话人长篇播客,在说话人切换自然性、对话流畅性与音色一致性方面均表现出色。


副语言可控生成

一定的副语言表达——如笑声、叹息等——对于提升多轮对话的自然度与真实感至关重要。为增强模型在这方面的表现,该工作通过 Gemini-2.5-Pro 等工具对语料中包含副语言元素的语音进行召回与标注,构建了高质量的副语言训练数据集。得益于这一设计,SoulX-Podcast 能够在合成过程中实现以下多种副语言的可控生成:

  • Laughter(笑声)
  • Sigh(叹息)
  • Breathing(呼吸)
  • Coughing(咳嗽)
  • Clearing(清嗓)

不过,由于此前标注的数据以中文为主,所以在英文上,相关副语言的表现相对欠佳。


多种方言支持

为有效支持方言播客生成,满足多样化的内容创作需求,作者们通过定向数据获取与语料召回相结合的方式,构建了覆盖多种方言标签的高质量播客数据集。目前,SoulX-Podcast 已支持以下主要方言的语音生成:


粤语

📎粤语.mov

四川话

📎四川话.mov

河南话

📎Henan-24fps.mov

SoulX-Podcast的客观表现




尽管SoulX-Podcast是专为多人、多轮对话播客场景设计的系统,但在传统的单人语音合成与零样本语音克隆任务中同样表现优异。在播客生成任务中,相较于近期相关工作,SoulX-Podcast 在语音可懂度与音色相似度方面均取得了最佳结果。


点击即可跳转模型:https://modelscope.cn/models/Soul-AILab/SoulX-Podcast-1.7B


目录
相关文章
|
10天前
|
机器学习/深度学习 人工智能 搜索推荐
Thinking Machines Lab最新研究结果如何复现?On-Policy Distillation让训练成本直降10倍
Thinking Machines Lab提出On-Policy Distillation技术,让小模型高效继承大模型能力。相比传统强化学习,训练成本降低90%,效率提升十倍,支持本地部署、降低成本与延迟。结合vLLM加速与独立DeepSpeed配置,MS-SWIFT框架实现开箱即用的高效蒸馏训练,助力轻量模型具备“会思考、能纠错、可进化”的智能。
113 10
|
14天前
|
人工智能 程序员 开发者
「超级开发个体」在诞生:一份白皮书带你理解AI时代开发者
10月24日程序员节,魔搭社区联合知乎发布《THE NEXT WAVE:AI时代开发者生态白皮书》,揭示AI时代开发者新画像:以“超级个体”为核心,兼具技术与商业闭环能力,工具平权让个人开发者崛起。报告涵盖年龄、学历、组织分布及认知行为特征,展现开发者如何用AI提效、实现从“写代码”到“搭系统”的跃迁。点击下载完整报告。
167 0
|
10天前
|
机器学习/深度学习 人工智能 自然语言处理
UI-Ins:让 GUI 智能体真正“看懂”用户指令的新范式
通义实验室联合人大发布全新GUI Grounding模型UI-Ins,首创“指令即推理”范式,通过多视角动态推理实现SOTA性能,在五大基准全面领先,支持开源复现与应用。
262 1
|
14天前
|
传感器 人工智能 API
仅100多元,他给视障人群装上AI“眼睛”
上海两名开发者为验证AI助盲实效,亲手打造百元AI眼镜,蒙眼实测过马路、识盲道,并开源项目鼓励更多人参与。技术导航,人心照亮。
422 5
仅100多元,他给视障人群装上AI“眼睛”
|
12天前
|
机器学习/深度学习 人工智能 文字识别
全新框架 Glyph 开源:用视觉理解文本,3–4 倍上下文压缩,近 5 倍推理提速!
清华CoAI与智谱AI提出Glyph新范式,将长文本渲染为图像,通过视觉语言模型实现高效长上下文处理。3-4倍压缩比,性能媲美主流大模型,显存占用降2/3,低成本支持百万token任务,开源可商用。
313 22
|
18天前
|
文字识别 测试技术 开发者
Qwen3-VL新成员 2B、32B来啦!更适合开发者体质
Qwen3-VL家族重磅推出2B与32B双版本,轻量高效与超强推理兼备,一模型通吃多模态与纯文本任务!
1095 11
|
14天前
|
编解码 调度 图形学
腾讯混元世界模型1.1开源:支持多视图及视频输入,单卡部署,秒级生成_魔搭ModelScope社区-ModelScope魔搭社区
混元世界模型1.1(WorldMirror)发布,支持多视图、视频输入,单卡秒级生成3D场景。兼容CG管线,开源可部署,实现点云、深度、相机等多任务统一预测,性能领先。
152 1
|
27天前
|
机器学习/深度学习 人工智能 API
用Macbook微调Qwen3!手把手教你用微调给Qwen起一个新名字
本文介绍如何在MacBook上使用苹果MLX框架高效微调Qwen3大模型。借助MLX的高性能计算与统一内存架构,仅需2分钟即可完成训练,内存占用低至2GB,推理速度达400 Token/s,并支持快速部署为本地API服务,展现Mac轻薄本的强大AI生产力潜力。
635 16
用Macbook微调Qwen3!手把手教你用微调给Qwen起一个新名字

热门文章

最新文章