文/赵丽萍 肖楷 魏鹳霏 于钟海
中金研究
智能驾驶赛道广受市场关注,而技术是研究智能驾驶行业的一把钥匙。作为智能驾驶系列报告的开篇,本文将基于大量的书籍、论文和企业公开资料,以软件为核心,详细梳理智能驾驶的技术全栈,以期为读者理解智能驾驶技术栈的构成、难点、发展方向乃至行业内各类参与者的竞争优劣势提供一些有益的思考。
点击小程序查看报告原文
Abstract
摘要
智能驾驶技术栈如何构成?智能驾驶技术栈由软件和硬件共同支撑,其中软件可以划分为车端和云端两部分。经典的车端软件为模块化架构,由感知、预测、决策、控制等核心模块分别处理车辆行驶的各关键环节,以传感器信息为输入,经过周围环境/自车状态的感知与环境状态变化的预测,最终形成决策并执行。车端软件既包含人工规则和传统的机器人算法,又涉及CNN、GNN、RNN和强化学习等诸多人工智能模型,而云端软件为开发、训练和迭代这些算法模型奠定了坚实的基础。在软件之外,配合以底层的域控制器等硬件和中间层的系统软件,构成完整的智能驾驶技术栈。
智能驾驶技术栈难在哪?我们认为,智能驾驶技术面临的诸多挑战,本质在于真实世界是非常高维的,特征空间难以完美刻画,而智能驾驶的目标恰好是让车辆在这个高维世界中智能地感知、决策并行动。智能驾驶越是升阶,真实世界的高维性越是凸显。由此,车端感知在建立向量空间的过程中会面临显著的Corner case问题,而车端预测和决策又会面临多主体交互和数据依赖等挑战。世界的高维性,叠加安全性和车端部署可行性这两个严肃的要求,共同使得高阶智能驾驶和自动驾驶具有较高的技术门槛。
智能驾驶技术栈演变呈现怎样的趋势?为应对世界的高维性,更擅长抽取高维特征空间的人工智能模型在高阶智能驾驶软件技术栈中扮演着愈发重要的角色——传统的代码和算法越来越少,神经网络越来越多,且越是靠前的模块,深度学习的渗透率越高,“软件定义汽车”正逐步向“AI定义汽车”迈进。而人工智能渗透率的提升,又向数据和算力提出新的要求,构筑更加敏捷、互通和自动化的数据闭环及云端软件工具链逐渐成为一个新的技术趋势。随着人工智能大模型的浪潮席卷而来,我们预计上述趋势将得到进一步的强化。
风险
技术探索进程缓慢;商业化受阻;行业竞争加剧;政策进展不及预期。
Text
正文
写在前面:智能驾驶的定义、驱动因素与市场空间
智能驾驶是交通运输领域的重要发展方向。智能驾驶耕植于“衣”、“食”、“住”、“行”四大核心场景之一的出行与物流场景,具有严肃性、综合性和规模性,是人工智能(AI)落地的重要场景,受需求侧和供给侧共同驱动。一方面,更智能、更便捷和更高效的驾驶能够创造实际价值,贴合人类的深层次需求;另一方面,以人工智能为代表的技术飞跃、硬件成本的下降、政策的支持与汽车行业竞争格局的变化均增强了智能驾驶发展的确定性,使之成为汽车行业乃至整个交通运输领域面向未来的重要发展方向。智能驾驶技术发展完善的方向、大规模商业化落地的节奏、落地后智能驾驶在整个交通运输市场的份额占比、行业格局与头部企业的护城河,都是市场重点关注的话题。
从定义看,智能驾驶可以划分为不同等级,权责划分是关键维度之一。国际汽车工程师学会将智能驾驶/驾驶自动化划分为L0至L5共6个等级,其中L3是一个分水岭,L3及以上等级始称“自动驾驶”,人类驾驶员与智能驾驶系统的关系为“人辅助系统”或“由系统独立驾驶”,而L3以下为“系统辅助人”,从权责的角度意味着L3及以上等级的系统通常需要为行驶过程的安全负责。而权责划分的不同,又会进一步带来设计运行范围和功能完备性鲁棒性层面的差异。
图表1:驾驶自动化分级
注:1. 人形图标代表“人类驾驶员”,车辆图标代表“驾驶自动化系统/自动驾驶系统”;2. 对于有运行范围限制的Robotaxi、Robotruck、Robovan和Robobus而言,其通常属于L4;若无运行范围限制,则其属于L5
资料来源:《Taxonomy and definitions for terms related to driving automation systems for on-road motor vehicles》(ISO/SAE PAS 22736,2021年),《汽车驾驶自动化分级》(GB/T 40429-2021,2021年发布,2022年实施),中金公司研究部
图表2:智能驾驶的主要功能、场景与产品形态
注:1. 本图的目的仅为展示智能驾驶的主要功能、场景与产品形态,仅作示意,当前部分功能/场景/产品的名称和驾驶自动化等级划分尚无严格且统一的标准,SAE标准与厂商的实际宣传口径亦会有所差异。正如正文所述,我们认为更值得关注的是智能驾驶产品能够覆盖的实际功能/场景以及实际行驶中的权责划分;2. HUD亦可划分为智能车舱领域的功能;3. 图中的英文缩写释义:ACC = Adaptive cruise control,PCC = Predictive cruise control,LCA = Lane centering assistance,LKA = Lane keeping assistance,ALC = Auto lane change,TJA = Traffic jam assists,ADA = Active driving assistance,NOA = Navigation on autopilot,APA = Active parking assistance,RPA = Remote parking assistance,SS = Smart summon,HPA = Home-zone parking assistance,AVP = Automated valet parking,BSW = Blind spot warning,FCW = Forward collision warning,LDW = Lane departure warning,HUD = Head-up display,ADB = Adaptive driving beam,ESC = Electronic stability controller,AEB = Automatic emergency braking,AES = Automatic emergency steering
资料来源:《Taxonomy and definitions for terms related to driving automation systems for on-road motor vehicles》(ISO/SAE PAS 22736,2021年),《Active safety systems terms and definitions》(SAE J3063,2023年),《汽车驾驶自动化分级》(GB/T 40429-2021,2021年发布,2022年实施),世界智能网联汽车大会,四维图新,甲子光年,九章智驾,中金公司研究部
智能驾驶的发展由需求侧和供给侧共同驱动:
► 需求侧,智能驾驶提供了切实的价值增益。首先,对于大部分人类驾驶员,长时间驾驶车辆并不是一件令人愉悦的事情。作为一项相对枯燥、大多数场景下均简单重复的劳动,其天然具备由人工智能技术赋能的空间。其次,对于大部分人类驾驶员,其也并不擅长去长时间地驾驶车辆。尤其是在感知领域,摄像头、雷达等传感器与人工智能算法相结合,往往能在更大范围内实现更精准和稳定的感知,避免人眼疲劳、反应时间不足带来的影响。同时,从商业运行的角度,自动驾驶车辆具有运行时间更长、节省人力成本、能源效率更高等优势,可以给运营者带来实际的商业利润。
► 供给侧,智能驾驶是技术进步、行业竞争、硬件成本下降与政策支持等共同催化的结果。智能驾驶在20世纪70年代即发轫于科研机构,但进展较为缓慢,2012年深度学习算法的突破性进展为重要节点,叠加ImageNet数据集的搭建和GPU芯片的进步,从算法、数据和算力三方面奠定了智能驾驶发展的可行性[1]。从供应商的角度,智能驾驶既是一个广袤的市场,又是行业竞争日趋激烈的情况下有望支撑业绩增长的战略性方向,因此科技公司和汽车制造商纷纷入局,而智能驾驶逐渐起量又拉低了相关硬件的成本。此外,各国政府出台一系列支持智能驾驶发展的政策,为行业发展提供了制度保障。
当前,智能驾驶在消费者决策中的重要性正逐渐提升。根据高工智能汽车研究院统计,2022年中国L2以上乘用车搭载率已达29.4%;根据小鹏和理想的披露,两者旗下NGP/NOA的里程渗透率已超50%,而小鹏搭载最新一代NGP系统的新车型G6上市后亦受市场认可。我们认为,由于智能驾驶贴合人类的深层次需求,随着供给侧的持续发力,当智能驾驶的收益(产品性能与安全性)与智能驾驶的成本达到平衡点时,其渗透率空间有望进一步打开。
智能驾驶市场空间广阔,渗透率是关键变量。从载人到载物、从低速到高速、从封闭场景到高速场景再到城市场景,智能驾驶有望拥有广阔的发展空间,且高阶智能驾驶的空间预计将更大。随着高阶智能驾驶的发展,我们预计智能驾驶软件在产业链中的价值份额有望持续提升:根据麦肯锡的预测,2030年软件在智能驾驶产业链中的份额预计将达到18%(收入口径),较2019年提升6个百分点。
图表3:随着高阶智能驾驶的发展,软件在产业链中所占的份额有望持续提升
注:1. 图中百分比指各细分板块收入占汽车软件与电子器件市场总收入的比重;2. 软件包含功能软件、操作系统、中间件、集成、验证等;3. ECU = Electronic control units, DCU = Domain control units;4. 电力电子不包含电池单元;5. 其他包含线束、显示器等
资料来源:McKinsey: Outlook on the automotive software and electronics market through 2030,中金公司研究部
硬件:智能驾驶的“身体”,实现外界交互的基础条件
智能驾驶的发展离不开硬件和软件的共同支撑,软硬件之间的衔接、协作与耦合关系对智能驾驶系统的性能乃至整个产业链的格局均会产生重要影响。从本章开始,我们将从三个维度来梳理智能驾驶的底层技术:1)硬件,2)软件,3)硬件与软件如何协作,并尝试分析智能驾驶底层技术(尤其是软件层面)面临的挑战和发展趋势。
硬件层面,与智能驾驶相关度较高的车端硬件主要包括传感器、域控制器和线控底盘。类比人类驾驶员,传感器相当于人的“眼睛”、“耳朵”等感觉器官,负责感知自车的行驶状态与外围环境;域控制器相当于人的“大脑”,以车端芯片为底层处理器,使用软件算法处理传感器传输的信息并输出下一步的行驶指令;而线控底盘则相当于人的“四肢”和“躯干”,行驶指令以电信号的形式最终传递给自车的转向、驱动和制动等执行机构,确保其高效、精准地完成规划的各项动作。
图表4:智能驾驶车端典型传感器与决策执行机构
注:本图仅示例车端典型的传感器与决策执行机构,现实中不同车型各有差异
资料来源:《自动驾驶技术概论》(王建、徐国艳、陈竞凯、冯宗宝编著,2019年),《自动驾驶汽车环境感知》(甄先通、黄坚、王亮、夏添编著,2020年),速腾聚创招股书,英伟达官网,高通官网,Mobileye官网,德州仪器官网,特斯拉官网,地平线官网,黑芝麻官网,华为官网,轻舟智航官网,Apollo智能驾驶公众号,麦肯锡,焉知汽车,智能车情报局,车东西,CSDN,iconfont,中金公司研究部
传感器:不同传感器各有所长,选配方案为多种因素综合考量的结果
智能驾驶车辆通常会部署多类/多个传感器,常见的包括摄像头、毫米波雷达、超声波雷达和激光雷达等。不同传感器实质上是覆盖了不同的频谱分布,因而其擅长的感知范围亦各不相同,各传感器结合有望实现全频谱感知。例如,摄像头主要覆盖可见光,较为接近人眼,在识别路牌等静态环境要素的过程中发挥了重要作用;激光雷达主要覆盖905nm-1,550nm波段,分辨率高,识别距离、角度和反射强度等多维度信息的能力强;毫米波雷达是波长最长的传感器,全天候性能好,能够同时测量距离和速度。
当前,市场上不同车型的传感器配置方案各异,其通常是功能、成本和安全等因素综合考量的结果。1V(摄像头)1R(毫米波雷达)和1V5R是满足基础L1-L2功能的经典传感器方案,而若要实现L2+的功能,市场上既有7V1R和6V5R等性价比较高的传感器方案,又有新势力车企为升阶到更高智能驾驶等级而提供的预埋更多传感器的方案;对于L4厂商,其通常配置多个激光雷达作为传感器层面的安全冗余。
域控制器:电子电气架构由分布式架构向域控式架构演变的产物
域控制器是行车域、泊车域乃至整个智能驾驶域[2]的“大脑”,连接车辆的不同传感器、融合处理传感器数据,做出驾驶决策并触发车辆的执行器。芯片是域控制器的重要组成部分,提供底层算力。由于需要兼容多类型多数量传感器,不同工作负载对芯片的要求各异,且域控制器需要同时保障安全性和高性能,用单一芯片满足诸多接口和算力要求存在一定的挑战。例如,摄像头数据处理和深度学习算法运行等负载更适合使用擅长并行计算、搭配加速引擎的GPU等AI芯片,激光雷达点云处理和决策规划等负载更适合使用逻辑串行计算能力强的CPU芯片,而控制单元通常搭载功能安全等级较高的MCU(Micro Controller Unit,微处理器)芯片。
因此,域控制器多采用异构芯片硬件方案(单板卡集成多种架构芯片/单芯片集成多个架构单元),“SoC (System on Chip,系统级芯片)+ MCU”是常见方案,而具体的芯片选型则受到智能驾驶功能、传感器方案、电子电气架构、软件架构、功能安全和成本等多种因素的综合影响。此外,部分头部企业为适配自己的智能驾驶算法,会定制专用芯片以降低成本、提高效率,如特斯拉FSD芯片中NPU(Neural Processing Unit,神经网络处理器)占据了较大物理面积,能够更好地适配神经网络算法。
线控底盘:电动化与智能化的交汇点
线控底盘使用电信号来实现车辆的转向、制动和加速,可细分为线控转向、线控驱动、线控制动、线控悬架等子类别。相较于传统的机械控制,线控底盘能够更高效、更精准地控制车辆的执行机构,让上游作出的行驶规划更好地得以贯彻。
线控底盘的响应实时性、可靠性和冗余性等,是影响智能驾驶软硬件衔接丝滑程度、用户体验和安全性的重要因素。由于性能和安全性[3]要求较高、颇具技术门槛,线控底盘往往需要主机厂投入大量资源进行研发和打磨,尤其在线控转向和线控制动领域,当前适用于L4级以上自动驾驶的稳定的量产产品仍然较少。
图表5:典型的自动驾驶域控制器构成
注:eMMC/Nor Flash/Memory为存储芯片,Des为视频解串芯片,PMIC为电源管理芯片
资料来源:智能车情报局,中金公司研究部
软件:智能驾驶的“灵魂”,AI模型重要性日益凸显
整体而言,智能驾驶的软件技术栈包含车端(Online model)和云端(Offline model)两个部分。在车端,软件将传感器硬件捕捉到的信息作为输入,形成对周围环境和自车状态的感知,预测周围环境尤其是周围动态障碍物在未来一段时间的状态变化,进而做出自车接下来的行驶决策,由线控底盘执行决策,直至最终整个驾驶旅程完成。车端智能驾驶软件通常由域控制器提供算力支持。
图表6:智能驾驶软件技术栈(车端+云端)
注:本图仅为经典的智能驾驶软件技术栈,为中金公司研究部根据文献和其他公开资料整理,业界当前实际使用的技术栈可能会有所差别
资料来源:《无人驾驶原理与实践》(机械工业出版社,2018年),《自动驾驶技术概论》(清华大学出版社,2019年),《自动驾驶汽车环境感知》(清华大学出版社,2020年),《自动驾驶汽车定位技术》(清华大学出版社,2019年),《自动驾驶决策与控制》(清华大学出版社,2019年),《自动驾驶汽车平台技术基础》(清华大学出版社,2019年),《Self-driving cars: a survey》by Claudine Badue, Ranik Guidolini, etc., Waymo,特斯拉AI Day,小鹏官网,轻舟智航官网,知乎,CSDN,焉知汽车,九章智驾,智车Robot,中金公司研究部
而由于智能驾驶软件需要不断迭代和完善,因此云端也是重要环节。智能驾驶车辆在行驶过程中持续采集数据,回传至云端存储,云端利用各类工具挖掘出(或者合成出)最具价值的数据用于算法和模型的训练、迭代与微调,这个过程通常由云端服务器提供算力支持。最新的算法和模型经过测试验证后,再次部署/更新至车端(可能涉及模型的蒸馏与裁剪),开启新一轮的道路行驶实践和反馈数据采集,“车端+云端”最终形成完整的数据闭环和软件迭代闭环。
值得注意的是,这里提到的“软件”既包括由人类经验和专家规则凝练而成的代码和算法,也包括基于大量数据训练得到的AI模型。趋势上,AI模型在软件技术栈中的重要性日益提升。
图表7:智能驾驶各个软件模块涉及的代表性技术路线(部分)
注:根据文献和其他公开资料总结,智能驾驶软件技术栈仍然在高速演进进化的过程当中,本图仅覆盖部分代表性的技术路线,且其中部分技术为传统/经典/理论技术路径,与当前业界实际使用的技术路线会有所差别。Transformer架构等最新的技术路径暂不在本篇报告详细讨论
资料来源:《无人驾驶原理与实践》(机械工业出版社,2018年),《自动驾驶技术概论》(清华大学出版社,2019年),《自动驾驶汽车环境感知》(清华大学出版社,2020年),《自动驾驶汽车定位技术》(清华大学出版社,2019年),《自动驾驶决策与控制》(清华大学出版社,2019年),《自动驾驶汽车平台技术基础》(清华大学出版社,2019年),D.G.Lowe, Distinctive Image Features From Scale-Invariant Keypoints, 2004,D. González, J. etc., A Review of Motion Planning Techniques for Automated Vehicles, 2016,Claudine Badue, etc., Self-Driving Cars: A Survey, 2019,ICML: Raquel Urtasun, Graph Neural Networks For Self-Driving, 2020,特斯拉AI Day,Waymo,Google for developers,小鹏公众号,轻舟智航官网,知乎,CSDN,焉知汽车,九章智驾,自动驾驶之心,智车Robot,中金公司研究部
车端:感知、预测、决策、控制各司其职
车端经典的智能驾驶软件为模块化的技术栈,由感知、预测、决策、控制等核心软件模块来分别处理车辆行驶过程中的各个关键环节。与人类驾驶员类似,感知模块的核心在于回答:1)自车在哪里(定位),2)周边环境如何,有哪些动态和静态障碍物,动态障碍物的历史轨迹如何(环境感知)。预测模块既可以与感知或决策模块融合,又可以作为一个独立的模块,承接感知到的信息,对各障碍物未来可能的轨迹分布做出判断。基于感知和预测的结果,决策模块做出全局路由规划和局部行为决策及运动规划,其间会考虑包含车辆运动/动力学和障碍物碰撞在内的各类约束和成本函数。控制模块则负责将上游的决策精准执行,及时纠正可能的误差。
在下文,我们将逐个梳理智能驾驶各个软件模块涉及的代表性技术路线,部分技术路线虽然逐渐趋于传统或仅为理论路线,但是能帮助我们更好地理解智能驾驶软件技术栈希望解决的问题、面临的挑战以及新兴技术趋势可能带来的影响。
感知:关键在于建立多维向量空间
感知的准确性是下游模块性能的重要基础,由于车辆是在三维空间中行驶和交互(若加上时间维度则为四维空间),因此,我们认为不论车端使用多少种/多少类传感器,感知模块的关键点都在于使用传感器捕捉的信息、建立起对于多维向量空间的感知,并基于此向量空间更丝滑地进行后续的预测、决策和控制,这也是一种较为接近人类驾驶员感知行为的方案。
正因如此,感知模块既涉及基本的计算机视觉(CV)任务,如物体分类、物体检测、物体分割和结构解析,又特别强调对深度信息的感知、对时空信息的记忆以及对道路拓扑结构的认知,获取深度信息能让自车知道周边障碍物的位置,记忆时序信息能够让自车知道动态障碍物的历史轨迹、缓解动态障碍物先被遮挡而后又突然出现所带来的问题(“鬼探头”问题和“客体永久性”问题),记忆空间信息能够增加在恶劣天气和车道线被遮挡的情况下仍然实现准确感知的概率,而认知道路拓扑结构可以帮助自车更好地回答类似于“当前红绿灯对应的是哪条车道”这样的重要问题。由于图像按照像素存储、像素本身不包含语义信息,因此计算机视觉任务本就会面对信息稀疏性、域间差异性和无限粒度性等挑战,而我们认为智能驾驶感知还具有多维、记忆和强认知交互的特点,其所涉及的任务均是计算机视觉里面空间复杂度和语义复杂度较高的任务,这能够部分解释“智能驾驶感知为什么难”。
随着学界和业界的持续探索,部分智能驾驶感知任务已有比较经典或成熟的解决方案,且多基于AI模型,而Transformer架构兴起后“Transformer + BEV(鸟瞰图)”的方案更是让智能驾驶的感知能力迈上了一个新的台阶。
以基于视觉的静态物体检测为例,最早的传统方法是微分运算或依赖SIFT等人工特征,2012年AlexNet惊艳亮相后,深度学习尤其是卷积神经网络(CNN)成为智能驾驶感知能力演进的重要基础。CNN蕴含了信息压缩和层次化识别的思想,信息压缩指从语义稀疏的图像中抽取相对紧凑的特征,从而更高效地完成图像识别;层次化识别指分层、分步地实现图像识别,靠前的层次负责抽取更底层、更通用的特征,传递给靠后的层次用以形成更抽象、更高维的特征,最终实现图像目标的分类和识别。随着实践探索,CNN能构建的神经网络架构多样,如YOLO、ResNet等,也出现了适用于3D物体识别的Voxnet等架构,而卷积模块均是这些架构里的重要组成部分,“特征提取(Backbone)+分类”的思想也一脉相承。
图表8:卷积神经网络(CNN)典型架构
资料来源:Google for developers,《无人驾驶原理与实践》(机械工业出版社,2018年),谢凌曦:计算机视觉基础课程,中金公司研究部
静态物体检测之外,动态物体检测和时序信息融合等领域也陆续出现了具有代表性的解决方案。根据轻舟智航技术博客[4],这些方案包括通过后处理(Post-processing)建立检测物体间的对应关系、借助光流(Optical flow)跨越多帧来传播高层特征、利用记忆对准(Memory alignment)直接融合多帧特征信息等。总的说来,以深度学习为代表的AI模型在感知领域扮演了举足轻重的角色,正朝着提升复杂/长尾场景感知泛化能力的方向迭代和前进。
图表9:传感器融合方式
资料来源:轻舟智航官网,中金公司研究部
在感知模块,有一个重要问题是多传感器融合,其思想在于将失效模式彼此正交的传感器结合起来,综合考虑多种传感器捕捉的信息,从而提高整个感知模块的鲁棒性和冗余性。具体而言,多传感器融合可以大体划分为“前融合”和“后融合”两种方式。前融合方式指将多种传感器获取的原始数据或者初步提取的特征先融合起来,再统一使用感知算法获得感知结果。后融合方式指各个传感器分别基于各自获取的数据信息使用各自的感知算法获得各自的感知结果,然后再根据一定的权重或决策规则将这些结果结合起来,形成最终的感知结果。前融合算法保留了全面的传感器信息,信息损失小,有助于提高感知的精度,但是对于算法和算力的要求较高;后融合算法逻辑简单、计算速度快,但是信息损失较大、部分情况下仅是基于局部信息形成感知结果。需要指出的是,前融合与后融合并非固定的范式,在实际工程化过程中,智能驾驶企业可出于现实的需要和提升冗余性的考虑而并用多种融合方式,且融合过程中的权重可以视具体场景而有所区别。
在多传感器融合领域,有两类传感器/感知部件的使用与否被广泛讨论,一类是激光雷达,一类是高精度地图:
► 是否使用激光雷达:激光雷达擅长获取3D信息尤其是深度信息,探测未知的动静态障碍物,得到3D可行驶空间。正如前文所述,这些均是感知模块的关键任务。相比于纯视觉方案,激光雷达能够减轻后端算法层面的压力,为感知模块提供冗余性和安全兜底,在城中村等复杂场景可以发挥重要的作用。纯视觉方案的着眼点在于激光雷达的成本较高,其致力于以第一性原理不断发掘视觉算法性能的上限,以期纯视觉方案的效果能无限接近于搭配激光雷达的方案。我们认为,对于是否使用激光雷达的问题,未来或需要持续关注激光雷达的降本速度和纯视觉算法性能进步的速度(背后是数据闭环迭代的能力)。
图表10:激光雷达+高精度地图如何助力智能驾驶
资料来源:中金公司研究部
► 是否使用高精度地图:高精度地图本质上是为感知模块提供了关于周围环境的“先验信息”,尤其是车道模型、道路拓扑结构、交通标志等关键信息。激光雷达与高精度地图配合,激光雷达获得3D点云后可以与高精度地图进行匹配,更精准地在高精度地图定义的空间中实现自车定位,并根据高精度地图提供的信息得知当前应该重点进行感知的区域,较好地减轻了感知模块算法的压力,增加了冗余性。去高精度地图的方案主要是考虑到高精度地图的成本、鲜度以及政策节奏不确定等因素,这类方案不仅会对感知算法提出更高的要求,而且由于传递给后续模块的感知结果的确定性有所降低,因此也需要预测、决策等模块具备更强的能力、适应在相对不确定的环境中进行路径搜索和运动规划,整体而言环环相扣、涉及多个环节,需要进行较大规模的软件技术栈迭代和创新。
值得注意的是,去高精度地图不等同于去先验信息,例如,不同城市的交通规则或多或少都有所差异,有的城市具有不成规则的限时车道,有的城市拥有比较宽但无明显标志的非机动车道等等,这些先验的信息依然是智能驾驶企业需要提前获取并在软件设计中加以考虑的。当前,L2/L2+智能驾驶企业正致力于推行“重感知、轻地图”的方案,产生了路线记忆(如小鹏AI代驾)、高维特征(如理想NPN网络)和感知提升(如特斯拉)等不同的具体路线,我们认为这一方面是出于L2/L2+级企业降本增效、加快开城速度的需要(卖出去的车需要“全国都能开”),另一方面也是因为其在行驶过程中有人类驾驶员作为最后的兜底;而对于L4级企业,目前从实践看通常都会用到高精度地图。
预测:综合考虑多种因素,神经网络发挥重要作用
预测模块紧密依赖于上游的感知结果,预测轨迹又是下游决策模块的重要约束/考量因素,因而在实践中预测模块可能与上游或下游模块整合在一起,也可能作为单独的模块存在。预测模块运行时,需要纳入考量的关键因素包括历史轨迹(时序信息)、周围环境、行驶意图以及各类主体之间的相互作用,其中的难点在于,1)对于未知的障碍物,由于缺乏对其运动规律的把握,精准预测其未来轨迹具有一定难度,2)运动轨迹是多个主体相互影响的结果,基于多主体交互的轨迹预测较为复杂。
传统的较为简化的预测方法通常包含对车辆动力学/运动学模型做出假设,如恒速度模型、恒加速度模型、自行车模型等,即假设其他车辆的运动具有速度恒定、加速度恒定、车辆只在二维平面上运动、前轮具有一致的角度和转速等特性,并基于这些假设预测其他车辆的未来轨迹,但是这样的方法通常只适用于短期预测(如1秒以内),长期预测(数秒乃至数十秒)的可靠性较低。基于行为模型的预测更复杂一些,思路是将其他车辆的运动划分为不同行为(车道保持、换道、超车等),进而用这些行为相应的先验轨迹信息进行预测。在实践上,基于行为模型的方法通常凭借人类定义或提取的原型轨迹/轨迹特征,将观察到的预测对象的历史轨迹与之进行匹配,根据匹配结构进行预测。然而,这类方法同样面临只适用于相似的道路结构、分类难度随特征空间维度增加而大幅提高等挑战。
图表11:循环神经网络RNN具有时序信息处理能力
资料来源:Yann LeCun, etc., Deep Learning, 2015,中金公司研究部
图表12:有限状态机示例
资料来源:斯坦福大学,《无人驾驶原理与实践》(机械工业出版社,2018年),中金公司研究部
深度神经网络有助于将隐含在历史轨迹、周围环境、行驶意图及各主体交互中的规律以特征的形式抽取出来,当前在智能驾驶预测模块发挥了重要作用。由于预测模块重“时序”,因此基于长短期记忆(LTSM)的神经网络是一种常用的基础结构。LSTM是一种循环神经网络(RNN),就像CNN可以处理任意长宽的输入,RNN可以处理任意长度的输入序列,其基本的计算单元为循环单元,循环单元的计算输入包含序列中的当前数据及循环单元之前的隐状态两个部分,因此具有时序信息的处理能力[5]。由于预测模块重“交互”,因此图神经网络GNN也是一类受到关注的结构。GNN用于处理图数据,图数据由点和边构成,可以较好地对实体间的交互情况进行建模。
决策:本质是一个优化问题,规则与AI模型并存
决策模块本质是一个优化问题(Optimization),任务是决定一条在二维空间和一维时间组成的三维空间中的曲线,作为接下来自车行驶的轨迹。根据轻舟技术博客,规划的轨迹通常要达到8-10秒的范围,才能满足城市复杂场景的要求[6]。与人类驾驶过程类似,智能驾驶决策模块的核心是在一定的约束条件下,权衡效率(如通行时间)、安全(如避免碰撞)、舒适(如加速度的导数)等各项指标,找到一条“效用最大化”的行驶轨迹,因此是一个优化问题。这里的约束条件包括感知和预测的结果、交通法规、驾驶经验、自车硬件条件限制等等。不过,受限于上游模块的性能,实际上决策模块需要在感知结果和预测结果具有一定不确定性的情况下运作;同时,与预测模块类似,决策是“强交互”的,即自车的决策也将影响其他车辆的轨迹,而其他车辆轨迹的变化又会带来自车决策空间的约束条件变化,智能驾驶企业需要对这种交互过程进行建模并纳入到决策模块的运行当中。整体而言,当前决策模块的技术路线可以大致划分为以规则为主和以AI模型为主。
► 以规则为主:通过设置规则,优化问题实际上被简化为,人类直接以确定性的方式告诉车辆在各种特定的场景下采取怎么样的决策是较优的/符合人类期望的,典型案例为2007年斯坦福大学参加DARPA城市挑战赛时所采用的有限状态机。此外,部分智能驾驶企业在早期选择划分一些典型的驾驶场景(如跟车、变道、环岛等),每个场景含多个子阶段,每个子阶段又含多个子任务,智能驾驶车辆遇到对应的场景后将依次执行相应的子任务。
规则是一种确定性的方案,能够为安全兜底,但是问题在于难以穷尽所有的规则。理想情况下,完善的规则需要将场景划分为颗粒度足够细的子类,每个子类均有详细的规则对应,而高阶智能驾驶的行驶场景更复杂,这意味着人工必须做足够多的分类讨论、设置大量的规则、尽量“面面俱到”,这会使整个规则体系变得繁杂,代码迭代和管理困难。而另一方面,如果规则比较粗略,又会使车辆的行驶显得生硬、缺乏“拟人性”,难以应对强交互场景。
图表13:驾驶决策需要遵守的规则示例
资料来源:《无人驾驶原理与实践》(机械工业出版社,2018年),中金公司研究部
► 以AI模型为主:既然详细的优化策略难以靠纯人工制定,那么一种思路是设定奖励函数,由机器自主学习生成行为策略,即强化学习(Reinforcement Learning)的思想。与需要大量标注数据的监督学习模式不同,强化学习强调AI自主与环境进行交互,获得相应奖励,在交互过程中AI习得一套最优策略。在这种思想的基础上,强化学习还能进一步与深度学习结合,例如深度Q网络算法使用深度神经网络来拟合强化学习的值函数,更适应大规模特征空间;为了从单智能体拓展到多智能体交互,强化学习还可以和博弈论(Game Theory)思想结合,将其他道路参与主体的行为模型纳入学习[7]。此外,奖励函数本身也可以通过学习获得,例如反向强化学习(Inverse Reinforcement Learning)的路线:收集大量专家轨迹,从中推理出奖励函数,进而用得到的奖励函数来优化行为策略。
AI模型在决策模块的渗透正在逐渐加深,但是另一方面上述路线也面临着各自的挑战。1)对于强化学习:行驶过程的“奖励”通常具有一定延时性,设计奖励函数时既需要将安全性、舒适性等诸多指标量化,又需要考虑时延。在哪些场景需要增加奖励函数、如何增加奖励函数,亦需要软件经验的支撑。同时,若强化学习在仿真环境中训练,而仿真环境又不能完美模拟真实环境,那么强化学习在真实环境中的泛化迁移能力或存疑[8]。此外,强化学习还存在可解释性和决策确定性的挑战。2)对于反向强化学习:专家轨迹的质量和分布将显著影响算法的上限,学习之前需要首先判断“轨迹是否值得学习”。
图表14:强化学习与深度强化学习示例
资料来源:《深度强化学习:基础、研究与应用》(电子工业出版社,2021年),Hugging Face,中金公司研究部
综上所述,从当前看,规则和模型在决策模块中各有优势,规则强在确定性、安全兜底,而AI模型强在灵活性、拟人性。实践中,我们看到“规则+模型”确实也是当前智能驾驶企业常用的路线之一。例如,轻舟智航在决策模块会使用规则的方式来选择深度学习使用的场景,限定模型运行在设计的问题范围之内,输出的决策也会使用规则进行校验/修正,并使用时空联合算法对深度学习生成的轨迹进行微调[9]。不过,未来决策模块中规则和模型的合理比重是怎么样的,如果以模型为主,那么模型与规则之间怎么进行整合和协调,仍有待探索。最后需指出,我们认为规则也并不等同于简单的堆砌,好的规则应该是对大量场景归纳抽象后的数学模型,能刻画出优化问题的本质[10];由此推导,通过长期实践逐步积累的经验和Know-how,以及沉淀下来的严谨的逻辑体系,仍然是智能驾驶企业设计决策模块时的重要能力点。
控制:扮演兜底角色,安全性要求较高
作为四个软件模块中的最后一个,控制模块负责为智能驾驶系统提供安全性的兜底,识别来自上游的不合理的行驶指令(比如规划的车速超过自车硬件允许的范围),因此规则的色彩较为浓厚。控制理论的基本思想是反馈控制,即对比环境反馈的自车实际行驶轨迹与预期的参考轨迹,基于反馈回来的误差调整控制输入信号,以使实际轨迹尽量贴合参考轨迹。具体而言,PID控制器和模型预测控制MPC是两种具有代表性的控制方法,此外深度学习在优化控制参数的过程中也能发挥一定作用。
► PID控制器:使用P(比例)、I(积分)、D(导数)三种指标来度量控制误差,并将P、I、D三项按照一定的权重(权重通常需要在实践中根据控制系统的实际表现来确定)进行求和,从而决定控制输入信号。
► 模型预测控制MPC:基于对自车运动学/动力学模型的假设,预测自车未来一段时间的运动,将预测的运动轨迹与参考轨迹作对比,根据预测的误差不断优化控制参数。
图表15:模型预测控制MPC示意
资料来源:智车科技,智能运载装备研究所,H. Shao, Y. Mu, et al., “LanguageMPC: Large Language Models as Decision Makers for Autonomous Driving”, 2023,中金公司研究部
到这里,我们已逐个梳理感知、预测、决策、控制四大软件模块涉及的代表性技术路线。总结来看,AI模型在智能驾驶软件技术栈中的作用日益重要,传统的代码和算法越来越少,神经网络越来越多,且越是靠前的模块,深度学习的渗透率越高,“软件定义汽车”正逐步向“AI定义汽车”迈进。我们认为,以大模型为代表的AI新趋势的到来,或将有助于进一步推动AI模型在智能驾驶软件技术栈中的渗透[11]。而在云端,这一趋势体现为构筑数据闭环、以数据驱动模型迭代。
云端:构筑数据闭环,以数据驱动模型迭代
数据闭环:模型迭代进化的基础设施
数据闭环是AI模型渗透率提升的必然要求。根据安永和华为的观点[12],高阶智能驾驶系统所需的驾驶数据或超过100亿英里。这意味着,随着AI模型渗透率提升,智能驾驶系统的开发难以一蹴而就,而是需要基于实践反馈不断地迭代和完善。传统的汽车软件在量产后便已相对定型,工具链多为分段式、割裂性的;构筑高频收集反馈、敏捷迭代模型、相互连通的数据闭环和云端软件工具链,是“AI定义汽车”时代自然而然的要求。
图表16:从V模型开发流程到数据闭环
资料来源:Waymo,九章智驾,中金公司研究部
云端软件工具链主要支撑数据采集、数据清洗、数据标注、模型训练、测试验证、部署上车等环节,相互连通成为闭环。例如,智能汽车在行驶过程中发生接管,触发数据回传,经过数据挖掘和标注等步骤,有价值的数据被用于训练,最终生成更优的智能驾驶模型。整个闭环的构建是一个庞大的工程,触发条件的设置、回传数据的范围、数据标注的性价比、法律法规的要求、如何从大量数据中高效挖掘出最有价值的数据、如何科学地测试评估模型能力的进步,乃至整个闭环的自动化水平和质量把控,均是构建过程中的重要着眼点。
自动标注:借力大规模离线模型,降低训练数据生成成本
自动标注是一类重要的云端标注方法,其本质在于将大规模AI模型和人类标注员的能力蒸馏,并将跨越时空的信息内化至车端模型。我们认为,相较于车端实时推理,云端自动标注的差异点主要在于:1)车端芯片有明确的算力限制,而云端能够调用的算力更大;2)车端推理实时性要求高,而云端标注的时效可以放宽;3)云端具有“上帝视角”:对于一个特定时点,车端模型只能知晓历史信息,而无法知晓未来;云端拥有一段完整旅程的视频,历史帧和“未来帧”均一览无余,同一地点的不同时间的情况也都能获知。
第1点和第2点使得,云端能够部署更多种类、更大规模、更多细分任务的算法和模型,这些云端的大模型通常比车端的“小模型”具有更强的能力,云端标注的实质其实就是将云端大模型的能力蒸馏给车端模型,或者将诸多细分任务中最关键的任务抽象至车端部署。第3点使得,云端具有超越时空的感知能力,这在处理极端天气、遮挡等条件下的标注时尤为关键,因为云端已经提前获取了正常天气下的或者遮挡消失后的Clip信息,自动标注做的事情实际上是将这些信息以真值标签(Ground-truth labels)的形式内化至车端模型,从而提升车端模型的泛化和预测能力。举个形象的例子,这就像一名经验丰富的人类司机,反复经过城市的某一条道路,因此就算某天天气特别糟糕或者道路特别拥堵,他也能预判这条道路上的红绿灯在哪、何时应该左转等等。
图表17:利用数据闭环提升智能驾驶软件系统能力的案例
资料来源:《百度智能驾驶开放白皮书1.0》(2023年4月),中金公司研究部
智能驾驶仿真:以数学建模的方式还原现实世界
智能驾驶仿真:仿真+汽车,数据闭环的重要组成部分。仿真以数学建模的方式还原现实世界,基于构建出的虚拟世界验证新模型的效果。相较于实际道路测试,仿真具有成本低、灵活安全、测试效率高的特点,能够加速智能驾驶模型的迭代,也因此成为各企业探索的重要领域。智能驾驶仿真主要由三部分构成:1)场景库,真实路采和虚拟合成是两大来源,场景库覆盖面、尤其是难例场景丰富度是重要的评价指标;2)仿真测试平台,构建传感器、动力学、交通流等仿真模型,还原现实环境;3)仿真评价,含仿真测试自身评价(场景真实度、场景覆盖率等)和智能驾驶模型评价(安全性、高效性等)。
智能驾驶仿真早期主要用于决策控制算法的验证,后逐渐拓展至感知等全栈算法,后者会涉及传感器建模等复杂、专业的步骤。当前,在结合高精度传感器建模和高质量目标物渲染的感知算法验证,以及验证决策算法时模拟由自车决策带来的环境变化与交互等领域,智能驾驶仿真仍存在一定的技术挑战[13]。
作为实际道路测试的替代方案,智能驾驶仿真的核心能力点在于尽可能贴近真实世界,这样仿真结果才有泛化意义。这就要求,智能驾驶仿真需要既懂“仿真”(图形/物理引擎、高算力、高并发能力等)、又懂“汽车”(充分理解交通流、传感器、汽车动力/运动学和多主体交互)。例如,如果要验证一个新的决策模型,首先得清晰定义新模型需要验证的核心功能点、相应的对仿真系统的需求,而后从场景库中筛选出真正相关且有价值的场景,并尽可能精准地重现(尤其是准确重现现实场景中的重要参数,如多主体交互关系、环境干扰因素、逆光条件等),同时合理地对场景进行泛化和微调,最终根据完善的多维评价体系来判定新模型的仿真测试结果。我们认为,这些能力与智能驾驶企业所沉淀的车端模型设计能力以及研发经验是紧密相关的。
图表18:仿真测试体系构成
资料来源:《智能汽车云服务白皮书:从上云到入云,云服务赋能汽车产业智能网联升级》(安永,华为,2022年7月),中金公司研究部
图表19:仿真系统典型架构
资料来源:中国自动驾驶仿真技术研究报告(2019年),中金公司研究部
工具链的打通具有重要价值,是一个重要趋势。例如,智能汽车遇到一个corner case,相应地采集了数据,那么之后通常需要在仿真系统中准确地重现该场景、验证改进后的模型是否能够通过。我们认为,在这种情况下,相较于呈割裂状态的单点工具,原生集成、相互打通、接口统一的工具链能够让整个流程更加顺畅。当前,不少行业巨头均在致力于打造工具链生态,如华为借助自身云基础设施能力和伙伴赋能,提供了包含数据管理、模型训练、场景仿真在内的全栈智能驾驶云服务平台。
硬件与软件如何协作?
系统软件与电子电气架构:彰显软硬件的协作关系
系统软件是连接硬件平台与功能软件的桥梁。整体架构上,智能驾驶系统主要由车辆平台与外围硬件、硬件平台、操作系统和应用软件构成,其中隶属于操作系统的系统软件是沟通硬件平台和功能软件的桥梁。系统软件是针对汽车场景定制的复杂大规模嵌入式系统运行环境,通常包含虚拟化、内核系统和中间件等部分。
► 虚拟化:Hypervisor虚拟化技术,虚拟化硬件资源并提供给运行其上的多个内核系统。
► 内核系统:智能驾驶系统通常为多内核设计,支持不同的安全等级,常见的汽车RTOS(实时操作系统)包括Linux、QNX、OSEK OS、VxWorks等。
图表20:车载智能计算基础平台参考架构
资料来源:《车载智能计算基础平台参考架构1.0》(2019年),中金公司研究部
► 中间件:实现软硬件解耦的重要工具,向下抽象底层资源、适配各类内核系统,向上提供标准接口,为上层模块化的软件算法提供通信、安全、数据传输和资源调度等服务。典型中间件包括ROS(搭建验证阶段)、AUTOSAR(应用阶段,分为Classic和Adaptive两个版本),部分智能驾驶企业基于对上层软件算法的深刻理解,也在尝试自研中间件。
电子电气架构的演进,亦能体现硬件与软件之间的关系变化。在分布式架构中,没有独立的行车控制器,芯片和算法集成在智能摄像头,各传感器耦合度较低,供应商话语权较强。随着架构向域控式演进,最直接的变化便是芯片和算法上移到行车控制器,各传感器间的融合协同更强、更有能力实现更为复杂的智能驾驶功能,主机厂对于软件算法的把控力大幅提高。当前,电子电气架构正朝着中央计算平台的方向迭代,我们预计硬件与软件的关系也将持续演进。
L4 vs L2/L2+:对软硬件的要求存在差异
L4对比L2/L2+:对硬件与软件均提出更高的要求。相较于L2/L2+智能驾驶,L4的重要区别在于安全兜底的角色从人类驾驶员转变为自动驾驶系统,我们认为这要求L4自动驾驶具备更高的“完备性”和“冗余性”。
完备性是指,1)L4系统是一个完整的体系而非单点功能,系统必须独立、完整、妥帖地完成整个驾驶过程,面对各类不确定性的场景而非有限数量的确定性工况,克服Corner case识别与应对、在交互中优化预测与决策、拟人化地通过复杂场景等上文所述的核心难点;2)L4系统对失误的容忍度更低,要求输出结果的高置信度、控制结果的随机性。完备性的要求能解释,L4通常装备更多种类的传感器(交叉验证)、神经网络渗透率较高(泛化和拟人性)、模型优化目标与L2/L2+有所差异(需考虑更加周全)且通常结合启发式算法(提高置信度)。
冗余性是指,L4在最差的小概率的情况下仍然能兜底,本质上是完备性的一种表现。硬件上的冗余体现在域控制器和线控底盘等层面的冗余备份,软件上的冗余体现在设计备份算法,让车辆在部分传感器失效的情况下仍能保持行驶、直至最小风险状态。我们认为,如何以合理的架构设计配置这些不同的系统,是L4公司功力的体现。
图表21:智能驾驶系统的升阶,将对硬件(电子电气架构)和软件能力提出更高的要求
资料来源:清华大学车辆与运载学院,毫末智行公众号,九章智驾,中金公司研究部
图表22:“纯视觉方案”与“激光雷达+摄像头方案”的目标物追踪准确度对比
注:1. 每个时间段取半年内所有提交测试评估的AMOTA指标的平均成绩;2. 2H21缺少纯视觉方案数据
资料来源:nuScences,汽车之心,中金公司研究部
附录:智能驾驶重点标的巡礼
文远知行(未上市):L4级自动驾驶公司,旗下拥有多款商业化产品
文远知行成立于2017年,为L4级自动驾驶科技公司。当前,文远知行的产品矩阵分为L4和L2+/L3两部分,其中L4级产品覆盖网约车、公交车、货运、环卫等多种场景,包括自动驾驶出租车(Robotaxi)、自动驾驶小巴(Robobus)、自动驾驶货运车(Robovan)和自动驾驶环卫车(Robosweeper);L2+/L3级主要为高阶智能驾驶产品。
图表23:文远知行产品矩阵
资料来源:文远知行官网,中金公司研究部
文远知行专注于技术方案的通用性,自研WeRide One自动驾驶通用技术平台,囊括全栈软件、底层硬件以及云平台。WeRide One具备较强的通用性,可实现不同场景、不同车型间的技术迁移,目的为大幅降低不同场景、不同车型下的自动驾驶技术的应用门槛。感知路线上,文远知行采用激光雷达主导,配合摄像头、毫米波雷达等传感器进行融合感知,以冗余的感知路径提升精度。2023年1月,文远知行发布Robotaxi传感器套件WeRide Sensor Suite 5.1,具备模块化特征,可以灵活搭配传感器以适配不同车型需求。WeRide Sensor Suite 5.1主要面向L3级智驾,兼容L2-L4场景,能够实现直线距离200m、360度的全方位感知。
小马智行(未上市):L4级自动驾驶方案供应商,积极推进商业化落地
小马智行于2016年底在美国硅谷成立,初期主要提供L4级自动驾驶方案。此后,凭借自身技术积累及对用户智能驾驶需求的洞察,公司在2023年1月宣布建立乘用车智能驾驶业务产品线(POV)。目前,公司拥有三大业务板块,产品覆盖L2+至L4级智能驾驶。
图表24:小马智行业务概览
注:1. 截至2023年12月;2. 截至2023年5月;3. Robotruck经营数据统计截至2023年11月
资料来源:小马智行官网,小马智行公众号,中金公司研究部
华为(未上市):软硬件研发能力全行业领先,强大生态巩固产业链优势
在智能驾驶领域,华为具备行业领先的软硬件研发能力。华为的智能驾驶解决方案涵盖软件方案、算力平台、传感器和云服务等领域,赋能车辆智能驾驶能力的提升。
华为与长安、赛力斯、奇瑞、江淮、北汽等车企深度合作,构建强大的产业链生态。华为与车企合作主要采取三种模式,合作深度依次递增。1)零部件供应模式:华为向车企提供传感器等零部件;2)HI(Huawei Inside)模式:共同研发,车企搭载华为全栈解决方案,长安阿维塔以该模式合作;3)智选模式:近期升级为鸿蒙智行。该模式下华为向车企提供核心技术、设计和销售服务,产品包括与赛力斯的问界M5、M7、M9和与奇瑞的智界S7等,近日江淮宣布加入华为鸿蒙智行,推进双方合作深度,而北汽也将加入鸿蒙智行行列。2023年11月华为整合智能汽车解决方案BU资源建立新公司,长安拟投资该公司并展开战略合作,开启新的合作模式。通过多方合作华为加强构建坚固生态,催化智驾解决方案落地与铺开。
Momenta(未上市):数据飞轮赋能,坚持“一个飞轮,两条腿”
Momenta成立于2016年,坚持“一个飞轮,两条腿”的产品战略,同时推进L2+和L4项目,并将两者数据打通,用L2+量产车的数据训练L4级算法。
► L4级自动驾驶:Momenta提供完全无人驾驶解决方案(MSD),应用于出租车和私家等场景,公司联合享道出行发布的Robotaxi已在上海、苏州等地开展运营。
► L2+智能驾驶:公司提供量产智能驾驶方案(Mpilot),为针对私家车的高阶智能驾驶全栈式解决方案,能够覆盖高速/城市快速路、城区和泊车等场景,已经与智己、比亚迪、吉利等多家车企合作实现定点量产。
图表25:Momenta业务概览
注:L2+业务仅列示智己项目作为代表
资料来源:Momenta官网,智己汽车官网,2023 IM AD DAY,中金公司研究部
主线科技(未上市):专注于L4级自动驾驶卡车的技术研发与应用
主线科技成立于2017年,致力于L4级自动驾驶卡车技术的研发应用,主要面向港口、高速等物流枢纽与干线场景:1)港口枢纽,公司为集装箱运输提供无人驾驶电动集卡、ART人工智能运输机器人(无头运输车)和云服务平台等产品,无人集卡车队已在天津港、宁波舟山港等标杆性港口投入运营。2)高速干线物流,基于卡车编队形式,公司为高速干线物流提供L4级卡车及云服务平台等产品,已获准在京津冀地区进行常态化运输应用[14]。
技术路线上,主线科技采用多传感器融合技术,搭配英伟达Orin芯片组成的计算平台[15],同时公司具有乙级测绘资质,可自行采集地图,实现高精度定位。
毫末智行(未上市):以数据智能为核心,推动“重感知”方案落地量产
毫末智行成立于2019年,是一家致力于自动驾驶的人工智能技术公司。长城汽车为大股东,前身为长城汽车智能驾驶前瞻分部。公司以数据智能为核心,布局乘用车辅助驾驶、末端物流自动配送车和智能硬件三条产品线。
2023年4月,毫末发布自动驾驶生成式大模型DriveGPT,后续进一步升级引入多模态大模型,获得识别万物的能力;借助 LLM(大语言模型),让自动驾驶认知决策具备了世界知识,加速城市NOH落地。DriveGPT由视觉大模型、感知大模型和认知大模型构成:1)视觉大模型:用于输入外部信息,以Transformer为主干架构,提升识别效率和准确性。训练方式上现在主要为基于掩码的自监督学习,更加高效。2)多模态感知大模型:整合NeRF技术路线并加入时序信息,完成4D场景的重建。应用多模态大模型整合图、文、视频信息,高效地实现4D向量空间到语义空间的对齐,加强大模型对万物的感知能力。3)认知大模型:引入大语言模型,将人类常识调度到认知大模型中,使得驾驶决策更加合理。此外,将认知大模型对于驾驶场景的理解反馈到上层解码器,可以生成对未来世界的预测。
蘑菇车联(未上市):自研“车路云一体化”,实现多地多场景规模落地
蘑菇车联成立于2017年,是业内首个自研“车路云一体化”系统的L4级驾驶方案提供商,车路云一体化项目已在湖南衡阳、云南大理等多个城市落地。具体来看,“车路云一体化”自动驾驶系统由路端基础设施、云端数据运营及自动驾驶车辆构成,通过在路侧收集海量真实数据以弥补车端采集数据效率低、丰富度不足的缺陷,进而加速自动驾驶技术落地及城市智慧交通建设。基于该系统,公司围绕“数字交通基础设施”和“自动驾驶车辆”两大板块,推出覆盖车、路、云端的全系列产品矩阵。
图表26:蘑菇车联业务概览
资料来源:蘑菇车联官网,蘑菇车联公众号,赛文交通网,中金公司研究部
商汤科技:驾、舱、云三位一体发展,大模型赋能智能驾驶
商汤科技成立于2014年,作为一家AI软件公司持续引领前沿研究。智能汽车业务方面成立商汤绝影平台,驾、舱、云三位一体,布局智能驾驶方案、智能驾驶功能车、智能车舱、车路协同和赋能引擎五条产品线。截至2023年9月,智能座舱与智能驾驶方案累计前装定点超3600万台,覆盖30+车企[16],量产进程加速。
商汤在智能驾驶技术方面具备优势,发布端到端大模型UniAD。现有自动驾驶方案通常采用模块化设计,单模块的误差将会累加,影响自动驾驶表现。UniAD以视觉作为主要感知,基于Transformer网络,将感知、预测与决策整合为一个框架,从而能够充分保留信息,优化算法表现。相较SOTA方法,UniAD多目标跟踪准确率提升20%,车道线预测准确率提升30%,目标轨迹预测误差下降38%,规划误差下降28%[17]。此外商汤自研多模态大模型DriveMLM,应用于决策规划环节,能够依据图像和视频解决复杂场景下的决策问题。
[1]资料来源:https://mp.weixin.qq.com/s/44_oW35xsUaXugLHeLlVXA
[2]暂不讨论舱驾融合、中央计算平台的情况
[3]根据汽车潜在风险的严重程度、接触概率和可控性,ISO 26262确定了ASIL-A、ASIL-B、ASIL-C、ASIL-D四种汽车安全性等级,其中转向系统、驱动系统和制动系统均需达到安全性等级最高的ASIL-D级
[4]资料来源:https://www.qcraft.ai/blog
[5]资料来源:《深度强化学习:基础、研究与应用》(电子工业出版社,2021年)
[6]资料来源:https://www.qcraft.ai/blog
[7]参考资料:1. Marc Lanctot, etc., A Unified Game-Theoretic Approach to Multiagent Reinforcement Learning, 2017;2. 刘铁岩:博弈机器学习,微软亚洲研究院,2016年
[8]参考资料:《深度强化学习:基础、研究与应用》(电子工业出版社,2021年),第247页
[9]资料来源:https://mp.weixin.qq.com/s/PY9WXTyeuhkOttgruUVmVg
[10]资料来源:https://mp.weixin.qq.com/s/PY9WXTyeuhkOttgruUVmVg
[11]AI大模型对智能驾驶的影响暂不在本篇报告详细讨论
[12]《智能汽车云服务白皮书:从上云到入云,云服务赋能汽车产业智能网联升级》(安永,华为,2022年7月)
[13]资料来源:1. https://mp.weixin.qq.com/s/pFOXK7jEbFBvdbjwNZ3ArA?forceh5=1;2. https://mp.weixin.qq.com/s/_JHiCImNlL46AIP6-WP-Og
[14]https://mp.weixin.qq.com/s/lEKsmTW4RrCnAUHtqK71vA
[15]https://mp.weixin.qq.com/s/sjnj0z-vtr83VGPP14QP0g
[16]资料来源:https://mp.weixin.qq.com/s/Wolnm_dZZLYVP_RSqZmrXw
[17]资料来源:https://mp.weixin.qq.com/s/EWMRzDExsJZ4_SYBSBaMFg
Source
文章来源
本文摘自:2024年1月30日已经发布的《探微智驾(一):拆解智能驾驶技术栈》
分析员 赵丽萍 SAC 执证编号:S0080516060004 SFC CE Ref:BEH709
分析员 肖 楷 SAC 执证编号:S0080523060007 SFC CE Ref:BUF316
分析员 魏鹳霏 SAC 执证编号:S0080523060019 SFC CE Ref:BSX734
分析员 于钟海 SAC 执证编号:S0080518070011 SFC CE Ref:BOP246
Legal Disclaimer
法律声明
特别提示
本公众号不是中国国际金融股份有限公司(下称“中金公司”)研究报告的发布平台。本公众号只是转发中金公司已发布研究报告的部分观点,订阅者若使用本公众号所载资料,有可能会因缺乏对完整报告的了解或缺乏相关的解读而对资料中的关键假设、评级、目标价等内容产生理解上的歧义。订阅者如使用本资料,须寻求专业投资顾问的指导及解读。
本公众号所载信息、意见不构成所述证券或金融工具买卖的出价或征价,评级、目标价、估值、盈利预测等分析判断亦不构成对具体证券或金融工具在具体价位、具体时点、具体市场表现的投资建议。该等信息、意见在任何时候均不构成对任何人的具有针对性的、指导具体投资的操作意见,订阅者应当对本公众号中的信息和意见进行评估,根据自身情况自主做出投资决策并自行承担投资风险。
中金公司对本公众号所载资料的准确性、可靠性、时效性及完整性不作任何明示或暗示的保证。对依据或者使用本公众号所载资料所造成的任何后果,中金公司及/或其关联人员均不承担任何形式的责任。
本公众号仅面向中金公司中国内地客户,任何不符合前述条件的订阅者,敬请订阅前自行评估接收订阅内容的适当性。订阅本公众号不构成任何合同或承诺的基础,中金公司不因任何单纯订阅本公众号的行为而将订阅人视为中金公司的客户。
一般声明
本公众号仅是转发中金公司已发布报告的部分观点,所载盈利预测、目标价格、评级、估值等观点的给予是基于一系列的假设和前提条件,订阅者只有在了解相关报告中的全部信息基础上,才可能对相关观点形成比较全面的认识。如欲了解完整观点,应参见中金研究网站(http://research.cicc.com)所载完整报告。
本资料较之中金公司正式发布的报告存在延时转发的情况,并有可能因报告发布日之后的情势或其他因素的变更而不再准确或失效。本资料所载意见、评估及预测仅为报告出具日的观点和判断。该等意见、评估及预测无需通知即可随时更改。证券或金融工具的价格或价值走势可能受各种因素影响,过往的表现不应作为日后表现的预示和担保。在不同时期,中金公司可能会发出与本资料所载意见、评估及预测不一致的研究报告。中金公司的销售人员、交易人员以及其他专业人士可能会依据不同假设和标准、采用不同的分析方法而口头或书面发表与本资料意见不一致的市场评论和/或交易观点。
在法律许可的情况下,中金公司可能与本资料中提及公司正在建立或争取建立业务关系或服务关系。因此,订阅者应当考虑到中金公司及/或其相关人员可能存在影响本资料观点客观性的潜在利益冲突。与本资料相关的披露信息请访http://research.cicc.com/disclosure_cn,亦可参见近期已发布的关于相关公司的具体研究报告。
本订阅号是由中金公司研究部建立并维护的官方订阅号。本订阅号中所有资料的版权均为中金公司所有,未经书面许可任何机构和个人不得以任何形式转发、转载、翻版、复制、刊登、发表、修改、仿制或引用本订阅号中的内容。
|