1、背景与方法简介
清华大学交叉信息院赵行老师研究组MARS Lab与理想汽车合作,提出了一种基于大模型的高阶自动驾驶的全新方案DriveVLM。DriveVLM以视觉语言大模型为基础,并与端到端模型实现双系统,在复杂和驾驶场景中表现出色。模型在理想Mega上部署运行,是首个部署上车的自动驾驶大模型。
城市环境中自动驾驶的主要障碍是理解复杂的 Long-tail 场景,例如具有挑战性的道路条件和微妙的人类行为。DriveVLM 集成了用于场景描述、场景分析和分层规划的推理模块的独特组合。此外,认识到 VLM 在空间推理和繁重计算要求方面的局限性,提出一种混合系统 DriveVLM-Dual,可选择将 DriveVLM 与传统 3D 感知和规划模块集成,例如 3D 物体检测器、占用网络和运动规划器,使系统能够实现 3D 接地和高频规划能力。这种双系统设计类似于人脑的慢速和快速思维过程,可以有效地适应驾驶场景中不同的复杂性。 在 nuScenes 数据集和 SUP-AD 数据集上的实验证明了 DriveVLM 和 DriveVLM-Dual 在处理复杂且不可预测的驾驶条件方面的功效。最后,将 DriveVLM-Dual 部署在量产车辆上,验证其在现实自动驾驶环境中的有效性。
2、DriveVLM实现
DriveVLM 的整体流程如下图所示。图像序列由视觉语言模型(VLM)处理,以执行特殊的思想链(CoT)推理,从而得出驾驶规划结果。 DriveVLM 的架构涉及视觉转换器编码器和大型语言模型 ( LLM )。视觉编码器产生图像标记;然后基于注意力的提取器将这些标记与LLM对齐。推理过程可以分为三个模块:场景描述、场景分析和分层路径规划(Hierarchical Planning)。而 DriveVLM-Dual 进一步融合了传统的3D感知和轨迹规划模块,实现空间推理能力和实时轨迹规划。
