《Multiagent Multitraversal Multimodal Self-Driving: Open MARS Dataset》
论文链接:https://arxiv.org/abs/2406.09383
解决问题: 传统自动驾驶数据集一般只关注收集单一 Agent(即本车自身)对于环境的感知与决策数据,但很少考虑多 Agent 协作以及多次访问同一地点所收集的数据,团队基于业界真实场景与原始数据开发出了多 Agent、多重访问的多模态自动驾驶开放数据集,从而助力提升自动驾驶以及移动机器人的感知、预测和规划能力
模型架构: 团队和自动驾驶公司 May Mobility 合作,通过激光雷达、RGB 摄像机、IMU、GPS 等传感器获取了长达 4 个月的实时自动驾驶数据,进行多 Agent 和多重访问的数据收集和统计,最终构建了自动驾驶开放数据集 Open MARS
应用场景: 自动驾驶、机器人,具体任务包括三维重建、神经模拟、无监督感知等
测试结果: Open MARS Dataset 对视觉定位(VPR)以及神经重建等任务的 SOTA 方法进行了定量基准测试,其结果反映了单 Agent 感知方法所面临的挑战,以及通过多 Agent 和多重访问来提升感知能力的潜力
SOTA 视觉定位方法在 Open MARS Dataset 不同子集上的定量基准测试结果
绿洲:请帮我们简单介绍一下您过去的研究背景与方向?
冯教授:本科我在武汉大学学习研究摄影测量,博士期间我在密歇根大学安娜堡校区研究即时定位与制图(SLAM)技术,这项技术在自动驾驶和机器人中都有非常大的作用。后来,我逐渐对场景理解产生了兴趣。我们不仅要定位机器人并对其周围环境进行三维建模(属于计算机视觉里的几何视觉方向),还要理解周围哪些东西不能碰撞,哪些东西需要接触并且搬运,因此也涉及了很多感知(Perception)相关的研究,例如物体识别(Object Detection)、跟踪(Tracking)、分割(Segmentation),这些内容恰好属于计算机视觉(CV)里的模式识别方向。
2015年博士毕业后,我到波士顿的三菱电气研究所(MERL)做辅助驾驶(ADAS)以及自动驾驶相关工作,刚开始是继续通过 SLAM 技术做自动泊车。后来我向所里申请研究如何利用深度学习来理解环境的三维点云。那时候整个计算机视觉行业才刚开始大规模使用卷积神经网络(CNN)等深度学习构架来理解图像,但是对于点云这种非图像结构的数据缺乏好的处理方法,因此我们早期提出的点云深度学习构架(FoldingNet 和 KCNet)获得了一些关注。2018年来到 NYU 之后,我感觉做单一的无人驾驶研究入局有点晚,因此同时也开始研究“机器人+深度学习”的方向,也就是现在常说的具身智能。无论是研究无人驾驶还是机器人,我们关注的一个新方向是协同感知(Collaborative Perception),多个 Agent 各自有自己的传感器,互相之间进行通信来合作理解场景,以期整个系统变得更加高效和安全。
举一个关于协同感知的具体例子,假设你在开车,旁边有辆大卡车把你的视野挡住,非常影响你的决策。这时候如果大卡车(或者附近其他车辆)的传感器能够告诉你额外的信息,你就能更好地做决策,这个场景就相当于我们可以透视物体本身(See Through Object),另外在远距离、低分辨率等场景中都可以通过协同感知来加强感知系统的能力。
绿洲:您认为生成式 AI 对自动驾驶有什么样的帮助?未来的自动驾驶会仅依赖视觉模态还是需要多模态输入?
冯教授:首先从长远来看,我认为自动驾驶还会保持多模态的信息输入,但不一定是单辆车多模态,而可以是多数车单模态,少数车多模态,从而整个系统(包含路边单元)多模态。过去十几年自动驾驶行业的发展历程告诉我们交通中的车辆不止是一个个独立的个体,更是形成了一个系统:为了提高整个自动驾驶乃至交通系统的安全性与效率,多模态系统对比特斯拉单独的 Vision-Only 信息输入,能够更容易突破视觉能力的底层限制。单从视觉的角度来讲,目前的摄像头在硬件层面还很难做到和人眼同等质量的高动态、高分辨率的场景理解,更遑论面临不利天气条件的情况。另外还有成本方面的考虑,不同价格的商用自动驾驶层级也会有不同的传感器选择,从而导致多模态。因此我认为未来的自动驾驶还是更可能以多模态的方式实现。
说回生成式 AI 对于自动驾驶的影响,无论是学界还是业界,目前对这一问题似乎还没有形成共识。有的应用场景是用生成式 AI 补充自动驾驶长尾场景,加强获取模拟仿真算法的能力;也有的是用生成式大模型的常识理解能力进行任务规划。但整个行业在积极地往这方面探索,包括英伟达以及自动驾驶的初创企业都有在 CVPR 等顶会上尝试挖掘相关的应用空间。生成式 AI 是否对于自动驾驶的感知、规划、决策等性能有质的提升,未来还有很多可以持续探索的空间。
绿洲:请帮我们解释一下 Open MARS Dataset 的开发初衷?
冯教授:我们在 Open MARS Dataset 中主要想做一个多 Agent 多次访问的多模态自动驾驶开放数据集。多次访问(Multitraversal)是指在不同时间访问同一环境的 Agent 如何利用其中重复的视觉信息进行感知(我的博士生李一鸣,也是本数据集的第一作者,称此为回溯感知,Retrospective Perception),例如一块区域多辆自动驾驶汽车会反复驶入,或者一辆自动驾驶汽车会反复经过同一区域,多次访问的特性能够更好地减少对于人工标注的需求,也更方便对静态环境进行建模。另一方面,在 MARS 这个数据集之前,多 Agent 的协同感知的研究主要依赖 Carla 等仿真平台建立数据集,很少有开放的、来自工业界真实场景的真实数据集。
我们合作的公司 May Mobility 主要是做固定场景中的无人驾驶出租车,去年他们有已经商业落地的四辆 Robo Taxi 在固定区域以几乎固定的路径运行。因此我们提出利用他们的真实数据来验证我们之前的多 Agent 协同感知研究,并且探索多次访问回溯感知给自动驾驶带来的新可能性。比如无人车在同一块区域经历过十次之后,对于静态和动态的数据都能够更好地进行区分与建模,甚至可以解决传统感知模块和大模型都还比较难解决的问题。而且我们的基于多次访问的全自动标注(Auto Labeling)数据生产方式一旦成熟并大规模扩展,会对自动驾驶技术提供商有非常大的帮助。
其实无论是利用多 Agent 做协同感知,还是通过多次访问进行回溯感知,我们都是想从整个大系统的角度来提升自动驾驶(乃至自主移动机器人)系统的安全性和效率:前者从空间维度出发,而后者从时间维度出发,来实现这个目标。开发 MARS 数据集的初衷,就是想通过这样新型的校企合作,来加速验证学界的新想法及新方向,进而促进整个行业的发展。
绿洲:请帮我们解释一下 Open MARS Dataset 的采集方式?
冯教授:传统大公司例如 Waymo、Lyft 的开放数据集,其实没办法帮助我们完成多 Agent 协同感知这样的研究,所以我们最开始做了仿真数据集,直到去年开始和 May Mobility 合作,我们才得以通过真实数据做进一步探索。密歇根安娜堡的 Edwin Olson 教授是 May Mobility 的创始人,同时也是我在密歇根安娜堡学习研究移动机器人时的老师,这才让我们拿到了他们自动驾驶数据的开放许可。在自动驾驶领域,无论是学界还是业界,能达到这种开放程度的双向深度合作都是头一回:我们每天能够通过 API 实时获取他们自动驾驶汽车的数据,同时他们也允许我们把一部分收集到的数据开放出来供全世界的研究人员使用。
我们从去年 10 月到今年 1 月共获取了 4 个月的数据,我们把相关的地理位置信息和时间摘出来,然后进一步向他们索取图像和三维数据,最终形成了我们的多 Agent(Multi-Agent)和多次访问(Multi-Traversal)的两个子集数据。目前 Open MARS Dataset 能够实现不依赖人工标注就可以完成的特定自动驾驶感知任务,例如神经三维重建(Neural 3D Reconstruction)和视觉定位(Visual Place Recognition)。今年下半年我们即将公布第二版数据集,其中将包含更多的人工标注信息以及更高质量的图像数据,使得大家可以进行更多自动驾驶感知任务的研究(比如 Occupancy 预测,三维物体检测等)。
绿洲:长期来看,您觉得大模型对于自动驾驶和机器人感知有什么帮助?
冯教授:一个比较实用的方向是提供更便宜、更便捷的数据标注,当前工业界效率最高的实用机器学习方式还是监督学习(Supervise Learning),因为提升算法架构质量是非常缓慢的进程,但一旦数据质量提升,对于模型质量的提升是显著不一样的。因此我们觉得未来在自动驾驶和机器人领域,利用大模型更高效地对数据进行标注,甚至用一些生成式 AI 能够生成的数据来进行学习,都存在可能性。
其他还有一些特定场景的应用,比如在某个三维环境中利用视觉信息进行导航,(例如给用户一张图片让用户来寻找物品),在这类动作空间(Action Space)没有那么复杂的任务中,生成式数据似乎也有不错的潜力。但对于安全要求高的场景,例如我们尝试过的工业场景的生成或者仿真,我们仍然持谨慎的怀疑态度,也期待未来有更多的同仁将大模型应用到这些严肃场景,生产出真正实用而高效的产品。
本文来自微信公众号“緑洲资本 Vitalbridge”(ID:Vitalbridge),作者:参赞生命力,36氪经授权发布。
文章评论