从BEV感知到端到端模型，智驾行业“追热词”能抢到技术终局优势吗？-蓝鲸财经

文|飞说智行

智能驾驶行业的发展有多卷？

要回答这个问题很简单，看看车企、自动驾驶公司和智驾方案供应商们追逐的技术焦点变换得有多快就行了。

去年下半年开始，蔚来、小鹏、理想和比亚迪等车企们向智能驾驶领域快速地奔跑起来，纷纷提出了自身“轻地图、重感知”的城市NOA落地时间表，甚至华为和小鹏等企业还更进一步，想要做到真正无图的城市NOA。

一时间，BEV+Transformer和OCC占用网络等一系列的技术名词，就成为了整个智能驾驶行业的热词，推进落地开城和直播智驾过程也成为了众多车企展现自身技术优势的最直接方式。

殊不知，这样卷了半年时间，从今年初开始，由于受到了特斯拉的启发，整个智能驾驶行业的风向快速转变——齐刷刷盯向了端到端技术（End-to-End）。

最近，理想汽车举办了智能驾驶夏季发布会，首次公开展示了其端到端自动驾驶技术架构，该架构主要由端到端模型、VLM视觉语言模型、世界模型三部分共同构成，也就是其CEO李想此前提到的“系统1”和“系统2”，他们也宣布这套系统是部署到车端的智驾方案。

蔚来和小鹏，自然也没有慢下脚步。前者近期在内部单独设立了一个大模型部门，专门负责端到端系统的研发工作，蔚来方面也对飞说智行表示，下半年在智驾方面他们会有很多动作。

小鹏汽车在今年5月也发布了量产上车的端到端大模型——由神经网络XNet+规控大模型XPlanner+大语言模型XBrain构成，其掌门人何小鹏也宣布小鹏汽车到2025年将在国内实现L4级别智驾体验。

除了“蔚小理”之外，长城汽车、比亚迪和广汽等国内自主车企，商汤绝影、华为、腾讯、百度Apollo和元戎启行等科技企业，也在今年纷纷公布了各自在端到端领域的计划和落地进展，端到端技术由此就成为了整个行业竞逐的关键技术标的。

从追求BEV+Transformer，到竞逐端到端技术方案，这属于企业战略层面的变化。但与此同时，由于上一代方案还未很好落地、下一代方案就来了的现实，如何快速变换研发策略，也考验着每一家企业的智驾研发团队们。

以上这些企业之所以会纷纷竞逐端到端技术，也是因为这一技术被行业大多数人视为是突破目前智驾领域天花板的有效方法，谁能抢到这一技术的高地，谁就能取得较大的行业优势。

只不过，也有人认为端到端技术并不是智驾行业未来的唯一路径，那么端到端是智能驾驶行业的终局吗？智能驾驶行业竞逐的终点到底在哪里？在目前还未看清前路的行业背景下，这些问题值得讨论。

01 摸到“天花板”后，行业奔向端到端

技术的变革，往往是由问题推动的。

一般而言，实现高阶智驾，要基于智驾算法为基础。前些年，行业普遍采用的是传统自动驾驶算法方案，即感知-决策-规划-控制的多模块算法，这套算法虽然在面对简单驾驶场景上表现较好，但在处理复杂的高阶智驾场景时，就会出现较多的瓶颈。

首先是在开城速度和体验上，由于多模块智驾算法架构是基于人类编写的代码和规则驱动的，在遇到不熟悉的Corner cases时会出现明显的顿挫感，同时在泛化性方面也有明显不足，导致拓展新城市时效率不足。

另外，虽然很多车企喊出了轻图或者无图的口号，但在智驾系统运行时依旧会或多或少利用到高精地图资源；还有在算法训练方面，模块间都需要人工规控和训练的干预，这些都增加了车企的成本压力。

这样的技术问题，一时间成为了整个智驾行业共同面对的困境。但与此同时，一篇论文的出现，为整个行业带来了启示。

去年6月，一篇名为《Planning-oriented Autonomous Driving》（以路径规划为导向的自动驾驶）的论文出现在行业面前，该论文因为提出了感知决策一体化的端到端自动驾驶通用大模型UniAD，获得了2023全球计算机视觉盛会CVPR最佳论文奖。

UniAD算法架构图，图源《Planning-oriented Autonomous Driving》

这一端到端算法模型，首次将检测、跟踪、建图、轨迹预测，占据栅格预测以及规划整合到一个基于Transformer的端到端网络框架下，把全栈的自动驾驶任务整合到一个网络中，简言之，就可以让算法实现从感知输入直接输出路径决策的过程。

使用端到端技术来构建智能驾驶算法的直接好处，可以减少传统模块化算法信息传递时的噪音和减损，来提升整体算法运行的效率。此外，由于端到端算法无需人工编写冗余的规则和代码，大大降低了人工成本的同时，神经网络算法还具备较强的泛化能力，可以提升智驾系统落地和开城的效率。

学术研究带来启示后，产业落地快速跟进。

特斯拉成为率先吃端到端这只“螃蟹”的车企之一。去年8月，特斯拉FSD V12 版本问世，按照当时其官方的介绍，这一版本可以实现“一端输入摄像头等传感器获得的数据，另一端直接输出车该怎么开。”由此这一版本也被国内一些媒体同行宣传为“端到端技术正式上车”。

这之后，一边是埃隆·马斯克通过社交媒体表示“FSD V12通过神经网络，人工编程的 C++控制代码由30万行缩减到了3000行”来体现端到端技术的优势；另一边，随着今年2月FSD V12在美国开启推送后，其丝滑且流畅的路测视频也让整个智驾行业为之震动。

特斯拉领头后，“蔚小理”等众多车企们迅速开始追赶。

去年12月，理想汽车宣布完成了OTA5.0更新，按照其官方介绍，基于端到端架构，实现了对BEV大模型、MPC模型预测控制以及时空联合规划等能力的整合，同时他们还使用了OCC占用网络和神经先验网络NPN作为架构补充。

再到上周，理想系统化地展示了他们在端到端自动驾驶算法架构，并且提出了端到端“4D One Model”架构，输入传感器信息，输出行驶轨迹。但需要注意的是，这一架构思路类似于上文提到的端到端自动驾驶通用大模型UniAD架构。

以智能化为标签的小鹏汽车，在今年1月全国智驾启动发布会也宣布端到端大模型会在未来全面上车。四个月后，他们就发布了量产上车的端到端大模型——神经网络XNet+规控大模型XPlanner+大语言模型XBrain。

在小鹏汽车智能驾驶技术负责人李力耘看来，“XBrain、XNet、XPlanner，既有联系又有分工，能够非常好地提升AI智驾能力上限。”

对于蔚来来说，在端到端大模型方面采用的是渐进式的路线。在他们看来做端到端大模型的前提是要让智驾各功能模块都已形成模型化，具备足够的性能和工程效率。

简单说就像是先有每块功能化的拼图，然后组装为整张端到端的完整拼图，不然就像蔚来智能驾驶研发副总裁任少卿认为的那样“否则端到端就是个毒药。”

这两天，蔚来推送了Banyan 2.6.5版本，其中包括端到端的AEB功能，可以让AEB避险能力显著增强。随着今年6月蔚来内部智驾团队架构完成调整后，蔚来也成为了率先量产端到端智驾功能的车企。

除了特斯拉，“蔚小理”之外，其他车企也加到这场端到端大模型的竞逐赛中。

比如长城汽车就推出了名为“SEE”的端到端智驾大模型，从前段时间的重庆全场景NOA路测效果来看，实现复杂路段丝滑且流畅通行的同时，还能兼具安全和效率。

同为自主车企的比亚迪，也在最近宣布已完成端到端无图方案的开发，目标要做到智驾第一梯队；长安汽车，也提出了将BAV感知和LLM（大语言模型）端到端融合的构想。

车企之外，诸多自动驾驶企业和科技大厂也在纷纷拥抱端到端技术。商汤绝影就在今年的北京车展上，展示了UniAD架构的实车上路成果，仅靠7颗摄像头组成的视觉感知，让车辆实现在城区乃至乡村道路环境中无图高阶智驾的能力。

作为国内自动驾驶第一梯队企业的小马智行，在去年8月就把感知、预测、规控三大传统模块打通，统一成端到端自动驾驶模型，目前已同步搭载到L4级自动驾驶出租车和L2级辅助驾驶乘用车。

腾讯、百度和华为、也没有慢下来。腾讯在今年4月发布了行业首个汽车行业大模型，并设立了“专云专用”的智能汽车云双专区，为自动驾驶开发创造了一个端到端、全程合规的数据闭环服务。

同在4月，百度Apollo发布了支持L4级自动驾驶的端到端大模型ApolloADFM，以联合训练的方式实现端到端无人驾驶。按照最新的消息，萝卜快跑第六代无人车已经全面应用了ApolloADFM大模型+硬件产品+安全架构的方案。

华为同期也发布了基于端到端大模型的ASD3.0智驾系统。感知部分采用GOD（General Object Detection，通用障碍物识别）的大感知网络，决策规划部分采用PDP（Prediction-DecisionPlanning, 预测决策规控）网络实现预决策和规划一张网。

就在整个智能驾驶行业快速奔向端到端技术的同时，对于端到端技术的能力和边界的思考也在进行着。

02 端到端技术的“冰山问题”

冰山，往往很多人只看到了20%的水面以上部分，而水面之下80%的部分却很容易被忽略。对于端到端技术来说，同样存在这样的“冰山问题”。

就像上文提到的可以降低传统智驾算法的模块间信息损减、提升信息的传输效率，以及降低算法训练成本和提升泛化效果等等，都属于端到端技术对于智能驾驶算法构建的优势，也就是大多数人看到的那20%部分。

但这些端到端的好处，无法做到瑜能掩瑕，毕竟端到端技术的不足和缺陷，也就是藏在“水面”以下的80%，是真实存在的。

众所周知，要训练端到端智能驾驶，算力、算法和数据三大要素缺一不可。其中，获取数据对于拥有大规模量产车型的车企和拥有自动驾驶车队的自动驾驶企业来说，看似并不是什么难事。

而实际情况是，要训练端到端算法，需要海量且质量较高的数据才行。按照马斯克在去年透露的信息，他们在训练FSD时一般会用到上千万个视频素材，假使每个视频以30秒来计算，训练端到端模型的数据起码需要几万小时的视频素材。

全球最大的自动驾驶公开数据集Nuplan此前发布的数据，他们的数据规模达到了1200小时，这些数据还不是为端到端自动驾驶所准备的。

按照小马智行CEO楼天城的话来说：“要训练一个高性能的端到端模型，对数据的要求可能是几个量级的提升，这是自动驾驶行业都会面临的挑战。”

由于端到端自动驾驶模型很少用人工进行规控，从而就让用于训练的数据变成了“指导”端到端算法学习的“老师”，对于数据质量的要求自然会大幅提升。

数据不仅要有场景的全流程演绎，同时还需要是具备人类老司机级别的驾驶行为和多元的案例集合，从而让每个素材都有属于各自的know-how。为此，需要在海量的数据中挖掘真正有用的素材。

就比如前文提到的特斯拉几万小时的视频素材，就是他们从超过20亿英里的FSD里程数据中挖掘出来的。而此前特斯拉FSD V12.4.2版本被推迟推送，其原因也是因为给算法“投喂”太多不合适的素材，以至于需要重新调整权重后重新训练。

数据之外，随着端到端模型的走红，也对算力的需求越来越高。

按照公开数据显示，截至去年8月，特斯拉已经能提供10000 PFLOPS规模的算力。此外特斯拉还在建设Giga Texas数据中心，到今年10月预计其算力可提升至100000 PFLOPS。

国内智驾行业也早早打响了算力的“军备竞赛”。比如在2022年，小鹏汽车就联合阿里云智能计算平台建设了“扶摇”自动驾驶智算中心，算力可达600 PFLOOS；基于他们在年度算力训练费用方面超7亿元的投入，这一算力目前应该也有明显增长。

再到去年，理想汽车也基于火山引擎建立了自己的智算中心，算力至少能达到750 PFLOPS。

与理想和小鹏相似的是，蔚来找来了腾讯做“外援”，合作建立智算中心，虽然截至目前并未公布算力的情况，但就公开的数据显示，蔚来智能驾驶端云算力本月新增20.56 EOPS，目前总算力已达287.1 EOPS。

车企卷起来的同时，华为、商汤绝影和毫末智行等智驾供应商们也不甘示弱。

以华为的云智算中心为例，根据公开数据其算力已经达到了3500 PFLOPS，训练数据量为日行3000万公里；商汤大装置布局的全国一体化智算网络，总算力规模可达到12000 PFLOPS，而到了今年底算力预计可提升至18000 PFLOPS。

毫末智行，也在2023年1月与火山引擎合作建设了名为“雪湖·绿洲”的智算中心，其算力可达到670 PFLOPS。而在这之前的2022年，毫末就开始对端到端模型进行研发和探索，基于雪湖·绿洲，毫末也在加快端到端的研发进度。

只不过，相比于特斯拉的算力规模，“蔚小理”、以及华为、毫末等国内企业的算力还是有较大的差距。

不能否认，算力与数据的制约，也在很大程度上影响算法的迭代，再加上被视为“引路人”的特斯拉，或许意识到了被竞争对手“逐帧研究”智驾算法后，叫停了AI Day的举办，从而让它身后的一众企业没了“摸石头过河”的机会。

以至于，纵观目前的智能驾驶行业，在端到端研发方面，虽然呈现出百花齐放的热闹景象，但行业面对的共同问题，也无法在短期内找到解法，就比如说行业内老生常谈的可解释性问题。

由于端到端模型没有模块间可表达的中间结果，以至于人类算法工程师无法确认各个模块的确定性和安全性，从而增加了整体算法发生错误的风险和参与调试的难度，这也是行业内常说的“黑箱”问题。

看到这一问题后，行业中有些企业也试图解决。就比如英国自动驾驶企业Wayve.AI，就尝试把VLAM（视觉语言动作模型）引入多模态大模型中，让车辆LINGO系列模型与车内乘客文字对话，以便提升整体算法的可解释性。

毫末智行，在面对这一问题时，与Wayve有着相似的思路。他们引入LLM（大语言模型），并与其交互和提建议等措施，来提升算法对世界的理解和可解释性。但毫末智行CEO顾维灏也认为，LLM存在较为严重的幻觉，来指导自动驾驶算法有较大的风险。

除了可解释性问题，测试方法不成熟、车载芯片算力不足和企业组织投入分配等方面，也是构建端到端智驾模型过程中不可忽略的诸多问题。

基于以上这些潜在水面以下的问题，也让目前火热的端到端技术走向了矛盾的处境中，智能驾驶行业对其的认识也有了不同的分歧和思考。

03 智能驾驶行业的终局在哪里？

对于端到端的认知，智驾行业并不像看上去的那样“团结”。

按照辰韬资本发布的《端到端自动驾驶行业研究报告》显示，在他们对智驾行业进行一系列调研后发现，行业对于端到端大模型的态度存在不同的阵营。

比如在对智驾行业技术终局的预判方面，有46%的比例认为是端到端是智驾行业技术的终局方案；还有50%的比例则认为端到端只是未来众多方案中的其中之一，以及4%比例的受访者认为端到端仅是过渡方案。

这一数据的分布，也印证了上文的分析，由于端到端技术的正式发展才刚刚起步，还有诸多的问题缺乏讨论和解决落地，以至于对于智驾行业技术终局的发展方向难以达成共识也在情理之中。

那么，对于智能驾驶行业来说，技术的终局到底在哪里？

对于智能驾驶行业的发展过程，在地平线创始人兼CEO余凯看来主要有三大时代——可用（1.0时代）、好用（2.0时代）和爱用（3.0时代）。会有这三个时代，也是因为智能驾驶功能的核心还是需要回归到消费者的本质，换句话说智能驾驶最终是消费者在使用的。

在飞说智行看来，目前智能驾驶行业已成功迈过可用的1.0时代，正无限接近好用的2.0时代，距离爱用的3.0时代还有较大的距离。

按照盖世汽车研究院统计的数据显示，2024年初国内L2及以上等级智驾系统的渗透率为42.4%，但根据高工智能研究院的数据显示，目前高阶智驾的渗透率还不到10%，这也意味着消费者对于高阶智驾的接受程度还不足。

飞说智行此前向一些智能汽车车主询问“会经常开启使用车上的智能驾驶功能吗？”得到的答复大多数是不经常使用，即便很多主流车型已经具备城市NOA，也有很多车主表示只会在高速和高架上使用，到了城区后还是会自己开，主要原因还是不好用。

“相比于高速和高架，城区道路不确定性的情况会更多，如果开启城市NOA后，不仅要时刻紧盯车辆前方的路况，做好随时接管的准备；同时还得无时无刻去判断车辆算法是否对路况做出正确的判断和处理，真不如自己开的轻松。”智能汽车车主汪涵这样对飞说智行表示。

在城区里开启智能驾驶功能，开100公里、300公里、500公里接管一次，消费者的体验完全不一样。正因这样，目前各家车企和自动驾驶企业对于算法的打磨和迭代，都是为了能迈过好用这一门槛。

而对于爱用的标准，在余凯看来需要系统提供拟人化的驾驶体验，不仅保证行驶的物理安全，还要给驾驶员提供心理的安全感。要做到这一目标，还有较大的距离。

除了消费者这端之外，人工智能和大模型本身的涌现能力，也会成为决定智能驾驶终局走向的重要因素。

2022年，在一篇名为《Emergent Abilities of Large Language Models》的论文中，研究人员们把LLM在一段时间内能力的突然跃升现象称之为“Emergent”（涌现）。

这一术语很快被广泛用于人工智能和大模型经过训练后，出现的出乎意料的新行为和功能，且这些行为可能与初始训练目标无关。从最早的AlphaGo、到之后的ChatGPT和GPT-4，再到如今的Sora，都被行业视为人工智能涌现能力的体现。

“有理由相信，随着人工智能和大模型技术在之后被更多应用到智能驾驶算法的构建中，这样的涌现现象也会继续出现，带领智能驾驶和自动驾驶技术实现进化和迭代。”国内头部智能驾驶企业研发负责人孙涛这样对飞说智行表示。

基于以上这些分析，在飞说智行看来，并不完美的端到端技术属于现阶段智能驾驶行业的最优解，但随着众多车企、自动驾驶企业以及上下游产业链对于技术的探索，未来或许还会诞生更加全面且完善的算法和技术，由此加速整个行业终局的到来。

虽然智能驾驶行业技术终局的到来还很遥远，就像日出前漫长的黑夜一样，但对于该行业的从业者们来说，也许并不为此担忧或者恐惧，因为他们相信这一天总会到来。

正像刘慈欣在《三体—黑暗森林》结尾写的那样：“太阳总会升起来的”。

（应受访者要求，文中汪涵和孙涛为化名）

声明：本文内容仅代表该投稿文章作者观点，不代表蓝鲸号立场。 未经授权不得随意转载，蓝鲸号保留追究相应责任的权利