18k个视频、专为自动驾驶世界模型设计,DrivingDojo数据集来了

18k个视频、专为自动驾驶世界模型设计,DrivingDojo数据集来了  第1张


世界模型被广泛认为是实现通用人工智能的关键技术,其核心能力在于模拟真实世界的动态变化,并为决策提供精准的未来状态预测。在自动驾驶领域,世界模型的应用尤为引人注目。然而,现有数据集在视频多样性和行为复杂性方面的不足,限制了世界模型潜力的全面发挥。为了解决这一瓶颈,中国科学院自动化研究所联合美团无人车团队推出了 DrivingDojo 数据集 —— 全球规模最大、专为自动驾驶世界模型研究设计的高质量视频数据集。该数据集已被 NeurIPS 2024 的 Dataset Track 接收。


18k个视频、专为自动驾驶世界模型设计,DrivingDojo数据集来了  第2张


  • 网站:https://drivingdojo.github.io/
  • 论文:https://arxiv.org/pdf/2410.10738
  • 代码:https://github.com/Robertwyq/Drivingdojo


世界模型的核心在于交互、知识以及泛化


18k个视频、专为自动驾驶世界模型设计,DrivingDojo数据集来了  第3张


DrivingDojo 数据集


18k个视频、专为自动驾驶世界模型设计,DrivingDojo数据集来了  第4张


DrivingDojo 数据集相较于传统的感知数据集,经过精心的挖掘与筛选,更加注重视频多样性的设计。从掉落的水桶、倒下的栅栏,到突然窜出的动物、夜晚的篝火、路上的羊群,包含了海量的长尾驾驶场景,为世界模型的研究提供了坚实的基础。


18k个视频、专为自动驾驶世界模型设计,DrivingDojo数据集来了  第5张


18k个视频、专为自动驾驶世界模型设计,DrivingDojo数据集来了  第6张


DrivingDojo 数据集包含大约 18k 个视频,平均时长约为 20 秒。整个数据集可以划分为三个子集,分别聚焦于驾驶行为、动态交互和世界知识的探索。


驾驶行为:还原真实驾驶操作的多样性


我们精心构建了一个名为 DrivingDojo-Action 的子集,全面覆盖驾驶操作的多样化场景,呈现纵向与横向行为的均衡分布:


  • 纵向操作:包含加速、减速、紧急刹车和起停驾驶,精准展现车辆在速度调控中的动态表现。
  • 横向操作:涵盖变道和车道保持,细致描绘车辆在空间选择和路径优化中的决策能力。


动态交互:捕捉复杂交通中的行为模式


除了在静态道路网络环境中进行导航外,建模多智能体之间的动态交互(如并入和让行)也是世界模型的一个关键任务。我们精心挖掘了这一子集,比如并线、会车、被阻挡、超车、被超车。这一子集为世界模型提供了丰富的交互场景,助力其更好地应对复杂的交通环境。


世界知识:赋能开放世界的智能理解


不同于感知和预测模型通过将高维传感器输入压缩为低维向量表示,世界模型在像素空间中运行,展现出更强的场景建模能力。这种增强的能力使得世界模型能够有效捕捉开放世界驾驶场景中的复杂动态,例如动物突然横穿马路或货物从车辆后备厢掉落等意外情况。通过在像素层面上的深度理解,世界模型为处理复杂交通情境提供了更可靠的基础。


推动智能交互与知识驱动的自动驾驶世界模型


真实多样的驾驶场景生成


18k个视频、专为自动驾驶世界模型设计,DrivingDojo数据集来了  第7张


轨迹控制的视频生成


18k个视频、专为自动驾驶世界模型设计,DrivingDojo数据集来了  第8张

给定初始帧和轨迹,世界模型预测未来的情景


18k个视频、专为自动驾驶世界模型设计,DrivingDojo数据集来了  第9张


预测不同的未来情景


我们提出了运动指令跟随的视频预测任务,这也是世界模型的核心。以往的研究主要依赖于定性观察,而在实际驾驶中,控制精度需要通过定量指标进行评估。由于生成视频中缺少真实轨迹,我们采用了 COLMAP 重建方法对生成的轨迹进行重建,从而实现粗略的定量评测。


18k个视频、专为自动驾驶世界模型设计,DrivingDojo数据集来了  第10张


18k个视频、专为自动驾驶世界模型设计,DrivingDojo数据集来了  第11张

利用 COLMAP 估计生成视频的轨迹


生成能力的泛化


与以往在同一数据集上进行的生成测试相比,我们认为跨数据集的测试更为重要,这更好地体现了模型的泛化生成能力。在测试过程中,我们选择了 OpenDV 的子集来进行评估。


18k个视频、专为自动驾驶世界模型设计,DrivingDojo数据集来了  第12张


我们也期望模型具备良好的泛化能力:如运动行为的泛化,以及跨数据集的运动行为泛化。


18k个视频、专为自动驾驶世界模型设计,DrivingDojo数据集来了  第13张


18k个视频、专为自动驾驶世界模型设计,DrivingDojo数据集来了  第14张


1. 异常行为生成 2. 在 nuScenes 数据集实现倒车


交互行为的预测


这一部分的核心在于探索世界模型是否能够根据不同行为的输入预测智能体之间的交互动态。以下示例中,当自车选择停车时,模型预测右前方的车辆会抢占道路进行超车;而当自车选择继续前行时,模型则预测右前方的车辆会等待自车先通过。


18k个视频、专为自动驾驶世界模型设计,DrivingDojo数据集来了  第15张


18k个视频、专为自动驾驶世界模型设计,DrivingDojo数据集来了  第16张


长时间高质量驾驶视频生成


18k个视频、专为自动驾驶世界模型设计,DrivingDojo数据集来了  第17张


18k个视频、专为自动驾驶世界模型设计,DrivingDojo数据集来了  第18张


文章来自微信公众号“机器之心”


18k个视频、专为自动驾驶世界模型设计,DrivingDojo数据集来了  第19张