沙井网站设计,湘潭网站建设 排名磐石网络,百度关键词排名手机,网站建设的意见LMDrive#xff1a;大语言模型辅助闭环端到端 LMDrive#xff1a;大语言模型辅助闭环端到端 背景框架输入部分#xff1a;导航指令#xff1a;视觉数据#xff1a;提示指令#xff08;可选#xff09;#xff1a;处理部分#xff1a;输出部分#xff1a; 视觉编码器…LMDrive大语言模型辅助闭环端到端 LMDrive大语言模型辅助闭环端到端 背景框架输入部分导航指令视觉数据提示指令可选处理部分输出部分 视觉编码器vision encoder大语言模型及其相关组件输入部分视觉编码器处理2D 处理路径3D 处理路径 视觉标记生成过程作用 预测模块BEV 地图预测交通信号灯状态预测未来路径点预测预训练阶段指令微调阶段和推理阶段 测试路线类型 Awesome-DriveLM 背景
自动驾驶行驶过程中要从起点到终点避免碰撞防止违反交通法规 端到端与模块化设计之分——端到端已成主流 闭环与开环——在线数据与 驾驶模拟器——使用了carla 交通场景 设计了两种工况有一些特殊交互场景来检验模型对特殊情况的处理。 之前的工作 现有问题 1现代自动驾驶方法在遇到长尾的、难以预见的事件以及复杂的城市场景时表现不佳容易引发严重事故。 2并且以往的自动驾驶方法倾向于依赖有限格式的输入比如传感器数据和导航航点这限制了车辆对语言信息的理解能力以及与人类的交互能力。 新的尝试大语言模型LLM展现出接近 “通用人工智能AGI” 的强大推理能力有望改善自动驾驶面临的问题。图中还展示了结合大语言模型的自动驾驶系统架构通过指令输入利用传感器数据等形成数据和梯度流动的闭环控制。 这里是闭环的系统完整的跑完这个过程而不是用一个数据集使用数据集来跑一个开环是不一样的 通过instruction作为输入同时有环境的数据由LLM输出control给Environment 贡献情况 提出新框架提出了一种新颖的端到端、闭环、基于语言的自动驾驶框架 LMDrive它通过多模态多视角传感器数据以及自然语言指令与动态环境进行交互。 提供数据集提供了一个包含约 6.4 万个数据片段的数据集每个片段包含一条导航指令、若干提示指令、一系列多模态多视角传感器数据以及控制信号数据片段时长在 2 到 20 秒之间。 建立评估基准提出了 LangAuto 基准用于评估将语言指令作为导航输入的自动驾驶智能体该基准涵盖了具有误导性或冗长的指令以及具有挑战性的对抗性驾驶场景 。 实验验证进行了大量的闭环实验验证了所提出框架的有效性并分析了 LMDrive 的特点为该方向的后续研究提供了参考。 数据集格式 navigation instruction notice instruction 示例 包含的一些关于场景的语言的等等 多种表述、误导性、多个指令等 指令多样化借助 ChatGPT API 为每种类型的指令生成八个不同的变体。比如对于 “右转” 指令就有 “行驶 [x] 米后右转” 等多种不同表述方式以丰富指令形式。 加入误导性指令为了提升模型应对误导性指令的能力模拟了这类场景并将其添加到数据集中增强模型在面对错误或干扰信息时的鲁棒性。 连接多个指令构建了一些连续的复杂指令数据用于模拟真实的基于导航的驾驶场景使数据集更贴合实际应用中的复杂情况。 复杂的指令 两个连续指令场景给出了两组示例像 “准备前方右转。沿此路线继续行驶。” 以及 “沿此路线保持当前方向。向左准备驶入。” 模拟了较为基础的连续导航指令情境。 三个连续指令场景列举了三组示例比如 “在即将到达的 T 字路口右转。驶向左侧车道。沿此路线保持行驶。” 这些示例更为复杂模拟了在实际驾驶中可能遇到的一系列连贯的导航指令情况有助于训练和评估自动驾驶模型处理复杂指令序列的能力 。 2T左右的数据
框架
输入部分
导航指令
例如 “在下个路口左转”通过 Tokenizer分词器处理后输入到大语言模型LLM中。
视觉数据
多视角的 RGB 图像和激光雷达LiDAR数据先由 Vision Encoder视觉编码器编码再经过 Q-Former 和 Adapter适配器处理输入到大语言模型。
提示指令可选
比如 “注意前方行人”同样经过 Tokenizer、Q-Former 和 Adapter 处理后进入大语言模型。
处理部分
大语言模型接收上述多种输入信息进行综合处理和推理判断当前指令是否完成。
输出部分
如果指令未完成模型会继续处理输入信息若指令完成模型通过 Adapter 输出控制信号如方向盘、油门、刹车等控制指令实现自动驾驶操作 。 整个框架体现了多模态数据与大语言模型的结合用于实现基于语言指令的自动驾驶控制 。
视觉编码器vision encoder
负责处理来自摄像头和激光雷达等多视角、多模态的传感器数据。通过对这些数据的分析理解周围场景并生成视觉标记visual tokens为后续模型提供关于外部环境的视觉信息。
大语言模型及其相关组件
包括分词器tokenizer、Q-Former 和适配器adapters。该部分处理所有历史视觉标记以及语言指令导航指令和可选的提示指令通过对这些信息的整合和推理来预测车辆的控制信号比如方向盘转向、加减速等操作同时判断当前的指令是否已经完成。
输入部分
有两种输入多视角的图像作为 2D 输入激光雷达LiDAR数据作为 3D 输入。
视觉编码器处理
2D 处理路径
多视角输入先经过 2D Backbone骨干网络提取特征再通过 Transformer EncoderTransformer 编码器输出 key 和 value 值用于后续处理。
3D 处理路径
LiDAR 输入进入 3D Backbone骨干网络同时还有交通信号灯查询Traffic Light query和路径点查询Waypoint queries作为额外输入接着经过 Decoder解码器与 2D 路径的输出结合生成鸟瞰图BEV形式的视觉标记Visual Tokens。
视觉标记
生成过程
由视觉编码器生成。多视角图像和激光雷达数据分别经过 2D Backbone、Transformer Encoder 以及 3D Backbone、Decoder 等模块处理后融合生成鸟瞰图BEV形式的 visual tokens 它综合了车辆周围环境的 2D 和 3D 信息。
作用
是连接视觉感知与后续预测及决策模块的桥梁。一方面作为输入提供给预测头Prediction Headers用于生成 BEV 地图、预测交通信号灯状态和未来路径点另一方面在 LMDrive 模型整体流程中会被输入到大语言模型让大语言模型结合语言指令进行处理从而输出控制信号实现自动驾驶 。简单来说visual tokens 承载了环境感知信息便于模型后续完成各类任务。
预测模块
BEV 地图预测
视觉标记进入 CenterPoint 模块生成 BEV Map用于展示车辆周围环境的鸟瞰图。
交通信号灯状态预测
通过多层感知器MLP根据视觉标记预测交通信号灯状态。
未来路径点预测
利用门控循环单元GRU根据路径点相关的视觉标记预测未来的路径点Future waypoints。
预训练阶段
视觉编码器会连接预测头prediction headers。此时它利用多视角多模态传感器数据作为输入执行目标检测、交通信号灯状态分类和未来路径点预测等预训练任务。通过这些任务视觉编码器能够学习到如何从输入数据中提取与自动驾驶相关的关键信息例如识别周围物体、判断信号灯状态和规划未来行驶路径等。
指令微调阶段和推理阶段
预测头会被舍弃并且视觉编码器被冻结参数不再更新。在这个阶段视觉编码器的主要作用是生成视觉标记visual tokens这些标记会被输入到大语言模型LLM中。这样做的目的是将视觉信息转化为大语言模型能够理解和处理的形式以便大语言模型结合语言指令对自动驾驶行为进行决策和控制。 视觉编码器预训练阶段视觉编码器以单帧传感器数据作为输入。由于指令标注过程会丢弃一些帧所以使用指令标注前的原始数据集进行预训练该原始数据集包含约 300 万帧数据。在此阶段仅对视觉编码器进行预训练任务集中在场景理解相关的感知任务上如目标检测、交通信号灯状态识别等让视觉编码器学会从传感器数据中提取有用的视觉信息。 指令微调阶段整个系统在指令的引导下进行端到端的自动驾驶训练。此时Q-Former 和适配器Adapters是可训练的而其他组件被冻结。LMDrive 模型以一系列帧作为输入在训练时会设置一个固定的序列长度来构建批量数据目的是让模型学会将视觉信息、语言指令和控制信号进行对齐使模型能够根据语言指令和视觉输入输出合适的控制信号实现自动驾驶。 基准benchmark 独特性LangAuto 基准测试是首个在 CARLA一个自动驾驶模拟环境中评估基于语言指令的闭环驾驶的基准。与之前的 Town05 和 Longest6 等基准不同它使用自然语言指令而非离散命令或路点来指导自动驾驶。 特征 自然语言引导用自然语言引导车辆到达目的地还会加入适当的提示以增强安全性更贴近现实中的人类指令交互。 场景丰富覆盖 CARLA 中的全部 8 个城镇包含高速公路、十字路口、环形交叉路口等多种场景以及 16 种环境条件包括 7 种天气和 3 种光照条件能全面测试自动驾驶系统在不同环境下的表现。 多样挑战支持不同的行驶路线提供多样化的驾驶挑战和场景增加了测试的复杂性和全面性。 误导性指令约 5% 的指令是故意设置的误导性指令持续 1 - 2 秒自动驾驶智能体必须识别并忽略这些指令以安全导航以此测试系统应对干扰信息的能力。 度量metics 路线完成率Route completion指已完成的路线长度占总路线长度的百分比用于衡量自动驾驶系统在给定路线上的行驶进展情况体现其能否按照指令规划的路线前进并抵达目的地。 违规分数Infraction score 当自动驾驶车辆发生碰撞或违反交通规则时违规分数会根据相应的折扣因子降低。这个指标主要用于评估自动驾驶系统在行驶过程中的安全性和遵守交通规则的程度。 驾驶分数Driving score 由路线完成率和违规分数相乘得出综合描述了驾驶进展和安全性两个方面是一个被广泛认可的用于对自动驾驶系统进行排名的指标。通过这个分数可以更全面地评估不同自动驾驶系统在复杂场景下的综合性能。
测试路线类型
LangAuto Track导航指令会根据自动驾驶智能体的位置实时更新。它包含三个子路线Tiny/Short/Long分别对应不同的路线长度用于在不同行程距离下测试自动驾驶系统对导航指令的响应和执行能力。 LangAuto - Notice Track在 LangAuto Track 的基础上增加了提示指令用于模拟在复杂场景下为自动驾驶系统提供实时帮助的情景测试系统处理额外提示信息并做出正确反应的能力。 LangAuto - Sequential Track将连续的指令合并为一个长指令模仿现实世界中导航软件的指令形式考验自动驾驶系统理解和执行复杂长指令的能力。 不同路线的对比分析 表格对 LangAuto Track 中的三个子路线LangAuto、LangAuto - Short、LangAuto - Tiny进行了对比 平均行驶距离Avg. Driving DistanceLangAuto 平均为 635.8 米LangAuto - Short 为 305.9 米LangAuto - Tiny 为 122.4 米体现了各子路线的长度差异。 平均导航指令数量Avg. Navigation InstructionsLangAuto 为 20.3 条LangAuto - Short 为 10.8 条LangAuto - Tiny 为 5.1 条 反映出随着路线长度缩短导航指令数量相应减少。 平均提示指令数量Avg. Notice InstructionsLangAuto 为 5.8 条LangAuto - Short 为 3.3 条LangAuto - Tiny 为 1.7 条说明不同长度的路线在运行过程中所需的提示指令数量也有所不同。 这些数据有助于评估自动驾驶系统在不同路线复杂度下的性能表现。 性能指标 这张表格展示了在 LangAuto 基准测试中6 种不同大语言模型LLM作为骨干网络时的性能对比以及消融研究结果涉及的指标和解读如下 指标说明 DSDriving score驾驶分数是路线完成率RC和违规分数IS的乘积综合衡量自动驾驶系统的行驶进展和安全性分数越高表示性能越好。 RCRoute completion路线完成率指已完成的路线长度占总路线长度的百分比数值越高意味着系统在规划路线上行驶得越远。 ISInfraction score违规分数反映自动驾驶系统遵守交通规则的程度数值越高表示违规越少。 模型对比 Random Init.随机初始化作为对比基线其各项指标数值相对较低说明未经训练或预训练的模型在自动驾驶任务中表现较差。 LLaMA、LLaMA2是不同版本的大语言模型。在不同的 LangAuto 子路线LangAuto、LangAuto - Short、LangAuto - Tiny测试中它们在各项指标上均明显优于随机初始化模型且 LLaMA2 在部分指标上比 LLaMA 有一定提升。 Vicuna、Vicuna-v1.5Vicuna 模型及其 v1.5 版本在不同路线测试中的表现也优于随机初始化且 Vicuna - v1.5 在一些指标上略高于 Vicuna。 LLaVA-v1.5在所有对比的模型中LLaVA - v1.5 在多数指标上取得了最高的数值表明该模型在基于语言指令的自动驾驶任务中综合性能相对更优。 关于 LMDrive 模型中不同模块设计的消融研究对比分析了各模块对模型性能的影响 上半部分 对比 LLaVA-v1.5 和 Vicuna-v1.5 在 LangAuto 和 LangAuto - Notice 基准测试中的表现指标如下 违规分数Infraction Score分数越高表示遵守交通规则越好。在 LangAuto - Notice 基准测试中两款模型的违规分数均高于 LangAuto 基准测试说明额外的提示指令有助于减少违规。 车辆碰撞Vehicle Collisions、行人碰撞Pedestrian Collisions、布局碰撞Layout Collisions数值越低表明碰撞情况越少。可以看到在 LangAuto - Notice 基准测试中这几项碰撞指标均有所降低意味着提示指令提升了安全性。 闯红灯违规Red light Violations、驶离道路违规Offroad Infractions、道路堵塞违规Blocked Infractions数值越低代表违规情况越少。从数据可以看出不同模型在不同基准测试中的违规情况有差异 但总体上 LangAuto - Notice 基准测试中的部分违规情况相对较少。 下半部分 对比 LLaVA-v1.5 和 Vicuna-v1.5 在 LangAuto 和 LangAuto - Sequential 基准测试中的表现涉及驾驶分数DS、路线完成率RC和违规分数IS LLaVA-v1.5在 LangAuto 基准测试中的 DS 为 36.2RC 为 46.5IS 为 0.81在 LangAuto - Sequential 基准测试中DS 降至 34.0RC 降至 43.7IS 保持 0.81 说明合并连续指令的 LangAuto - Sequential 基准测试对其驾驶和路线完成能力有一定挑战。 Vicuna-v1.5在 LangAuto 基准测试中的 DS 为 34.0RC 为 39.0IS 为 0.85在 LangAuto - Sequential 基准测试中DS 降至 31.9RC 降至 37.1IS 降至 0.84 同样显示出在 LangAuto - Sequential 基准测试中性能有下降。 训练过程可视化示例 备注DriveLM相关研究
Awesome-DriveLM
A collection of resources and papers on Large Language Models in autonomous driving
BEVGPT: Generative Pre-trained Large Model for Autonomous Driving Prediction, Decision-Making, and Planning Pengqin Wang, Meixin Zhu, Hongliang Lu, Hui Zhong, Xianda Chen, Shaojie Shen, Xuesong Wang, Yinhai Wang AAAI 2024 [Paper]
ADAPT: Action-aware Driving Caption Transformer Bu Jin, Xinyu Liu, Yupeng Zheng, Pengfei Li, Hao Zhao, Tong Zhang, Yuhang Zheng, Guyue Zhou, Jingjing Liu ICRA 2023. [Paper] [Code]
DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model Zhenhua Xu, Yujia Zhang, Enze Xie, Zhen Zhao, Yong Guo, Kwan-Yee. K. Wong, Zhenguo Li, Hengshuang Zhao arXiv Oct. 2023. [Paper]
Driving with LLMs: Fusing Object-Level Vector Modality for Explainable Autonomous Driving Long Chen, Oleg Sinavski, Jan Hünermann, Alice Karnsund, Andrew James Willmott, Danny Birch, Daniel Maund, Jamie Shotton arXiv Oct. 2023. [Paper][Code]
GPT-Driver: Learning to Drive with GPT Jiageng Mao, Yuxi Qian, Hang Zhao, Yue Wang arXiv Oct. 2023. [Paper] [Code]
Drive Anywhere: Generalizable End-to-end Autonomous Driving with Multi-modal Foundation Models Tsun-Hsuan Wang, Alaa Maalouf, Wei Xiao, Yutong Ban, Alexander Amini, Guy Rosman, Sertac Karaman, Daniela Rus arXiv Oct. 2023. [Paper]
LanguageMPC: Large Language Models as Decision Makers for Autonomous Driving Hao Sha, Yao Mu, Yuxuan Jiang, Li Chen, Chenfeng Xu, Ping Luo, Shengbo Eben Li, Masayoshi Tomizuka, Wei Zhan, Mingyu Ding arXiv Oct. 2023. [Paper]
Drive Like a Human: Rethinking Autonomous Driving with Large Language Models Daocheng Fu, Xin Li, Licheng Wen, Min Dou, Pinlong Cai, Botian Shi, Yu Qiao arXiv July 2023. [Paper] [Code]
LINGO-1: Exploring Natural Language for Autonomous Driving Wayve [Website]