覆盖16省方言的老人语音数据集!SeniorTalk:智源研究院开源全球首个超高龄老年人中文语音数据集

简介: SeniorTalk是由智源研究院与南开大学联合推出的全球首个中文超高龄老年人对话语音数据集,包含202位75岁及以上老年人的55.53小时语音数据,涵盖16个省市的不同地域口音。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🎙️ "75+老人语音识别准确率翻倍!全球首个中文高龄数据集开源,覆盖16省方言"

大家好,我是蚝油菜花。当AI语音助手在年轻人中普及率超过80%时,你是否发现这些"黑科技"对家中老人依然不够友好?

这些场景可能让你揪心过:

  • 👵 奶奶用方言问天气,智能音箱却回复"正在为您订购外卖"
  • 🏥 爷爷的咳嗽声被误听成指令,半夜自动拨通了120
  • 📞 视频通话时AI降噪过度,把老人的关键病情描述当成了背景杂音...

今天要介绍的 SeniorTalk ,正在改变老年语音技术的困境!这个由智源研究院×南开大学打造的数据集:

  • 填补全球空白:专攻75-85岁高龄群体,202位老人55小时真实对话
  • 方言保护计划:覆盖16省口音,连"哩语"和气息声都被完整收录
  • 科研级标注:精确到词级时间戳+重叠语音标记,错误率直降63%

已有团队用它开发出适老语音识别系统,准确率提升47%——你家的智能设备,是时候真正"听懂"长辈了!

🚀 快速阅读

SeniorTalk是专为75岁以上高龄老年人设计的语音数据集。

  1. 数据规模:包含202位老人55.53小时语音,覆盖16省市方言。
  2. 技术价值:提供词级时间戳、口音标签等多维度标注。
  3. 应用前景:支持语音识别、健康监测等适老化技术研发。

SeniorTalk 是什么

SeniorTalk

SeniorTalk 是智源研究院联合南开大学计算机学院人类语言技术实验室(HLT Lab)推出的全球首个中文超高龄老年人对话语音数据集。数据集包含202位75岁及以上超高龄老年人的语音数据,总时长达到 55.53小时。

数据采集覆盖16个省市,涵盖不同地域口音,基于两两自发对话的方式,话题涉及退休、健康、生活等,贴近真实交流场景。数据集包含多维度精细标注,如说话人信息、对话内容转写、时间戳(句子级和词级)、口音类别标签等。

SeniorTalk 的主要功能

  • 语音识别:提升超高龄老年人语音识别的准确率,助力开发更精准的语音识别系统。
  • 说话人验证:支持说话人验证技术研究,确保语音交互的安全性和可靠性。
  • 说话人分离:提供多说话人的对话数据,助力说话人分离技术研究。
  • 语音编辑:提供自然对话数据,支持语音编辑技术研究,改善语音合成效果。
  • 健康监测:分析超高龄老年人语音特征,支持健康监测技术研究。

SeniorTalk 的技术原理

  • 数据采集:基于两两自发对话方式,用多种智能手机进行录音,确保数据多样性。
  • 数据标注:包含说话人信息、对话内容转写、时间戳等多维度人工标注。
  • 数据处理:采用16kHz采样率的WAV文件格式,分为训练集、验证集和测试集。
  • 技术应用:基于Transformer等模型提升语音识别性能,应用X-vector等模型进行说话人研究。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
7月前
|
数据采集 人工智能 自然语言处理
AI终于能听懂宝宝说话了!ChildMandarin:智源研究院开源的低幼儿童中文语音数据集,覆盖22省方言
ChildMandarin是由智源研究院与南开大学联合推出的开源语音数据集,包含41.25小时3-5岁儿童普通话语音数据,覆盖中国22个省级行政区,为儿童语音识别和语言发展研究提供高质量数据支持。
766 20
AI终于能听懂宝宝说话了!ChildMandarin:智源研究院开源的低幼儿童中文语音数据集,覆盖22省方言
|
8月前
|
人工智能 API 语音技术
EmotiVoice:网易开源AI语音合成黑科技,2000+音色情感可控
EmotiVoice是网易有道开源的多语言语音合成系统,支持中英文2000多种音色,通过提示词控制情感输出,提供Web界面和API接口,具备语音克隆等先进功能。
849 43
EmotiVoice:网易开源AI语音合成黑科技,2000+音色情感可控
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
Dolphin:40语种+22方言!清华联合海天瑞声推出的语音识别大模型,识别精度超Whisper两代
Dolphin是清华大学与海天瑞声联合研发的语音识别大模型,支持40种东方语言和22种中文方言,采用CTC-Attention混合架构,词错率显著低于同类模型。
3456 50
Dolphin:40语种+22方言!清华联合海天瑞声推出的语音识别大模型,识别精度超Whisper两代
|
6月前
|
人工智能 安全 Java
SonarQube Server 2025 Release 3 发布 - 代码质量、安全与静态分析工具
SonarQube Server 2025 Release 3 (macOS, Linux, Windows) - 代码质量、安全与静态分析工具
180 6
SonarQube Server 2025 Release 3 发布 - 代码质量、安全与静态分析工具
|
7月前
|
机器学习/深度学习 人工智能 计算机视觉
AI图像质感还原堪比专业摄影!Miracle F1:美图WHEE全新AI图像生成模型,支持超写实与多风格生成
美图WHEE推出的Miracle F1采用扩散模型技术,通过精准语义理解和多风格生成能力,可产出具有真实光影质感的专业级图像作品。
308 5
AI图像质感还原堪比专业摄影!Miracle F1:美图WHEE全新AI图像生成模型,支持超写实与多风格生成
|
7月前
|
人工智能 自然语言处理 测试技术
能够双向推理的LLM!Dream-7B:港大联合华为开源的扩散推理模型,能够同时考虑前后文信息
Dream-7B是由香港大学与华为诺亚方舟实验室联合研发的开源扩散大语言模型,采用独特的掩码扩散范式,在文本生成、数学推理和代码编写等任务中展现出卓越性能。
320 3
能够双向推理的LLM!Dream-7B:港大联合华为开源的扩散推理模型,能够同时考虑前后文信息
|
7月前
|
机器学习/深度学习 人工智能 IDE
14B小模型代码成绩紧逼O3-Mini!DeepCoder-14B-Preview:基于Deepseek-R1蒸馏优化的开源代码生成模型
DeepCoder-14B-Preview是基于Deepseek-R1蒸馏优化的140亿参数模型,通过强化学习微调在LiveCodeBench达到60.6%准确率,开源训练数据与系统优化方案。
357 3
14B小模型代码成绩紧逼O3-Mini!DeepCoder-14B-Preview:基于Deepseek-R1蒸馏优化的开源代码生成模型
|
7月前
|
机器学习/深度学习 人工智能 文件存储
Llama Nemotron:英伟达开源基于Llama架构优化的推理模型,253B参数持平DeepSeek R1!
NVIDIA推出的Llama Nemotron系列推理模型,基于Llama架构优化,包含Nano/Super/Ultra三款,在数学推理、编程和工具调用等任务中展现卓越性能。
214 5
Llama Nemotron:英伟达开源基于Llama架构优化的推理模型,253B参数持平DeepSeek R1!
|
7月前
|
人工智能 并行计算 测试技术
从商业海报到二次元插画多风格通吃!HiDream-I1:智象未来开源文生图模型,17亿参数秒出艺术大作
HiDream-I1是智象未来团队推出的开源图像生成模型,采用扩散模型技术和混合专家架构,在图像质量、提示词遵循能力等方面表现优异,支持多种风格生成。
618 2
从商业海报到二次元插画多风格通吃!HiDream-I1:智象未来开源文生图模型,17亿参数秒出艺术大作
|
7月前
|
人工智能 自然语言处理 运维
超强辅助!Bolt.diy 自然语言建站工具一键云端部署方案
Bolt.diy 是一款从创意到部署的极速开发工具,支持多语言模型(如 OpenAI、DeepSeek 等)灵活适配,满足不同任务需求。其模块化架构提供高度定制化能力,可扩展自定义服务与私有模型。全栈开发流程覆盖代码生成、调试、版本管理到一键部署,内置数据库管理与 API 自动生成功能。智能化辅助工具实时分析代码错误并提供建议,帮助开发者高效理解复杂项目。基于云原生平台 CAP 构建,支持快速部署与实时预览,适用于快速原型设计、教育及企业级开发等场景。
157 1

热门文章

最新文章