理想加入“端到端”竞赛：虽只是PPT-新书

“端到端”风正席卷中国智能驾驶产业。

进入 2024 今年下半年，如果有车企在谈智能驾驶时不谈智能驾驶，“端到端”，大概率会被视为落后。

7月5日，理想汽车发布了基于端到端模型、VLM 视觉语言模型和世界模型的新型自动驾驶技术架构。这基本上是理想汽车端到端路径的方法输出，更完整地呈现了理想智能驾驶的下一步发展路径。

在虎嗅汽车看来，这次发布有三个值得关注的焦点——理想的“端到端”和其他玩家有什么区别？理想的智能驾驶研发到什么程度？为什么理想在这个时候强调智能驾驶的技术能力？

理想方案比华为更激进

让我们来看看理想的全新自动驾驶技术架构。诺贝尔奖得主丹尼尔奖得主丹尼尔。·卡尼曼的快慢系统理论启发模拟了人类在自动驾驶领域的思维和决策过程，并采用了卡尼曼的快慢系统理论。“快系统”和“慢系统”进行协同。

快速系统，即系统 1，善于处理简单的任务是人类基于经验和习惯形成的直觉，足以应对驾驶车辆时的直觉 95% 常规场景。

慢系统，即系统 2，是人类通过更深入的理解和学习形成的逻辑推理、复杂的分析和计算能力，用于解决复杂甚至未知的交通场景，占据日常驾驶的范围 5%。

在这种架构原型下，系统 1 通过接收传感器输入，通过端到端模型直接输出行驶轨迹来控制车辆。系统 2 由 VLM 实现视觉语言模型，接收传感器输入后，通过逻辑思维，将决策信息输出到系统中 1.由双系统组成的自动驾驶能力将在云中使用世界模型进行训练和验证。

理想加入“端到端”竞赛：虽只是PPT

根据理想的观点，其系统 1 端到端模型采用端到端模型 One Model 该方案主要由摄像头和激光雷达组成，通过多传感器特性 CNN 主干网络的提取与整合，投影至主干网络的提取与整合 BEV 空间。

此外，理想还在输入端添加了车辆状态信息和导航信息。 Transformer 模型的编码，和 BEV 特征共同解码动态障碍物、道路结构和通用障碍物，规划出行轨迹。

与华为、小鹏等厂商采用分段端到端方案相比，理想采用 One Model 方案更加激进。特斯拉也是如此 One Model 方案，但其“输入图像、输出控制”方案比理想“输入传感器信息，输出行驶轨迹”更进一步。

需要指出的是，目前各厂商在端到端采用不同的路径，只是选择上的差异，没有优缺点。(关于端到端的技术原理，虎嗅汽车团队在《特斯拉，与华为开战》一文中进行了详细分析。)

理想架构的特点其实是系统 2，其基于的 VLM 视觉语言模型的算法架构由统一的 Transformer 模型组成，将 Prompt(提示词)文本进行 Tokenizer(分词器)编码，并对前视相机的图像和导航地图信息进行视觉信息编码，然后通过图文对齐模块进行模态对齐，最后统一自回归推理，输出对环境的理解、驾驶决策和驾驶轨迹，传递给系统 1 辅助控制车辆。

在实际场景中，如果系统二在行驶过程中发现地面路面非常坑洞，会给系统 1 发出降速提醒，告知驾驶员前方坑洼道车辆行驶缓慢，减少颠簸；或者可以识别公交车道的位置和潮汐车道。

用理想的话说，系统 2 相当于副驾驶在驾校的教练时刻监督驾驶行为。值得一提的是，小鹏的大语言模型 XBrain、大型自动驾驶语义感知模型也具有类似的能力。

据悉，理想的 VLM 达到模型参数 22 亿，VLM 车端模型的推理时间也从车端模型的推理时间开始 4.1 秒优化至 0.3秒。

理想加入“端到端”竞赛：虽只是PPT