特斯拉FSD V12试驾平平无奇？-蓝影头条

当前位置：当前位置：首页 >焦点 >特斯拉FSD V12试驾平平无奇？正文

特斯拉FSD V12试驾平平无奇？

[焦点] 时间：2024-04-17 12:51:05 来源：蓝影头条作者：探索点击：72次

作者 | EatElephant

编辑 | 章涟漪

当地时间8月26日，特斯拉CEO马斯克亲自上线，平无开启了一场路测特斯拉FSD V12的驾平直播。试驾过程中，平无马斯克多次表示现在的驾平系统没有一行规则和条件判断代码，不需要高清地图，平无甚至不需要联网就可以完成一切。驾平

直播全程45分钟，平无吸引超1000万人在线围观。驾平其中，平无马斯克只有一次驾驶干预，驾平这发生在一个繁忙的平无十字路口，马斯克所驾驶的驾平特斯拉试图闯红灯，他立即控制了车辆。平无

从技术上看，驾平特斯拉FSD V12版本采用的是端到端的大模型技术，即：一端输入环境图像，一端输出控制指令，中间是一个神经网络大模型，这几乎是接近人类真实驾驶。

针对这一事件，以及特斯拉FSD V12技术背后的逻辑，AI算法工程师EatElephant进行了解读，赛博汽车授权进行编发。

以下为《赛博汽车》依照EatElephant的文章整理改编而成——

其实挺惊讶对这次demo的评价目前看来还是比较负面的，从消费者角度其实这可以理解，毕竟19min就接管一次，还是闯红灯这种极其普遍的驾驶场景中的致命错误，不过要知道这并非发布的用户版本，而是研发内测的Alpha版本，说一个研发版本不够完善稳定我个人感觉是有点吹毛求疵了。

作为技术从业者，我们更应该从更加技术的角度去看待FSD Version 12的这次demo，我个人认为这次demo给我带来的冲击和引起的思考是比较大的，甚至不输于以往的几次AI Day和Autonomous Day。

首先要知道为什么大家对V12如此感兴趣。原因是老马在今年5月份就爆了一剂猛料，FSD V12会彻底转向端到端的自动驾驶技术方案，并且他还说V12会令FSD走出Beta阶段彻底成为一个正式版的产品。

老马5月宣布Version12将转为端到端系统的Twitter（X）

这个消息的噱头有多大呢，我感觉吧其实不输于2020年公布FSD Beta将于当年10月发布，毕竟端到端的自动驾驶长期以来一直局限于学术研究中，Tesla之前唯二的先行者Comma仅仅只能进行高速方面的简单驾驶动作，Wayve则局限于英国少数地区的内部测试，而要知道FSD可是在广大的北美大陆可以任意开启的，这需要端到端系统体现的泛化性可以说和前两者相比要高出一个层级。

业内普遍共识，端到端的自动驾驶系统理论上有比现今模块化的自动驾驶系统更高的能力上限，那么端到端系统为什么并没有成为业界主流呢？

原因是端到端系统在提高模型上限的同时也无限放大了神经网络黑盒的不可解释的问题，而不可解释性会给研发迭代和问题解决造成巨大的负面影响，同时业界也没有端到端系统的成功先例，对于这种处于前沿科技无人区的技术方案绝大多数公司是没有勇气和实力敢为天下先的。

那作为端到端的V12首次公开亮相，我认为这次demo是毫无疑问的成功的，甚至是惊艳的 。我的理由主要有以下三点：

1. 本次Demo展现了FSD V12端到端系统的成熟度

很多国内外的网友质疑这次Demo的路况场景都十分简单，Palo Alto的交通即使在下班高峰看起来也远远比不了国内大城市道路的拥挤繁杂，在这种情况下甚至还有一次严重问题接管，其实算不上优秀，对于这个观点我其实很认同。

然而作为自动驾驶的算法从业者，我对于这次demo的关注点其实不在场景的困难程度，因为理论上端到端的系统自然比基于规则和搜索的现今主流自动驾驶系统上限高很多，其核心问题在于下限可能很低。

端到端系统起步慢但上限高

今年CVPR 小鹏的Patrick有这样一个图表很好的说明了端到端系统的特性，可以看到端到端的系统最大问题在于模型能力起步较慢，同时黑盒不可解释不可控的性质会导致系统虽然能够处理复杂场景，但是简单场景很可能相比目前主流系统会产生退步，甚至是犯很多“弱智”的错误，同时因为业界缺乏端到端系统的工程实践经验，一些看似简单的fix无法通过增加规则代码迅速解决，因此尝试端端到端的方案大多数时候可能会是死在起跑线。

实际上我甚至认为如果哪家公司能够利用端到端的新技术架构来获得一个功能稳定性匹敌现有技术架构的自动驾驶系统，那么基本可以证明端到端系统是未来方向。

因为，理论上端到端系统在达到现有技术水平的那个时间点之后会很快继续提高水平将现有技术栈甩在身后，所以上图红蓝线交叉的点我认为可以称作端到端系统正收益的爆发点，一旦达到这一点基本上主流的技术范式就会被颠覆。

所以，考虑到Tesla V12应该研发时间不长，我对于V12首秀能在随机选取的测试路线上在众多基础的转弯，变道，环岛，与行人交互等场景表现十分稳定平顺其实是非常惊讶的，而FSD V12的这次初次亮相部分说明了Tesla已经比较接近这个爆发点了，而这是我认为本次Demo传递的十分重要的信号。

2. 透露了Tesla端到端自动驾驶的一些重要的思路，理念和实践经验

这次Demo另一个关键意义在于，通过Demo的一些细节以及直播过程中老马和Ashok的聊天透露了很多Tesla对于端到端系统的实操经验和理解，而在端到端系统严重缺乏行业最佳实践的现在，这毫无疑问是对技术从业者具有启发意义的。

比如说，很多人以为端到端是一个中间完全不透明的黑盒，但是实际上目前大多数比较深入的端到端实践都表明保持端到端系统中间结果的可解释性是很重要的。

今年CVPR Best Paper UniAD就设计了一个端到端可导但是保留了中间子网络输出的端到端系统，而从直播中可以发现V12几乎完整的保留了当前FSD的感知结果输出，很显然至少在目前阶段Tesla的端到端技术方案也是保留中间功能子网络的路径。

那这个方案和普通的模块化方案有什么区别呢？

其实重要区别在于各模块都去除了基于规则的代码，使得整个系统端到端可导，这使得整个系统作为一个整体直接对于驾驶动作进行训练优化成为可能 。而传统的自动驾驶架构由于模块化以及并非端到端可导，使得各个功能模块只能通过各自训练优化自己的任务，最终结果是多个局部最优无法实现整个系统的全局最优。

CVPR 2023 Best Paper UniAD保留了整个系统中间的各个功能网络

这样的方案其实比较好理解，保留中间结果相当于通过人类先验知识把人类觉得有用的驾驶概念提取出来，给到端到端下游网络，也给到网络的还有可能包括更加前端基础的输入，由下游决策规划网络自由选择使用哪些信息进行判断，这样的技术方案通过人类先验加快了端到端系统训练时性能起步速度，但是又保留了原始信息直接输入下游，减少了传统模块话系统中间输输出导致的信息损失。

同时，对中间结果进行分析也有助于确定系统犯错时问题的原因，提高解决问题的效率。

V12几乎保留全部FSD感知结果可视化效果，但似乎没有红绿灯可视化

另外马斯克和Ashok在聊天过程中反复强调V12没有显式的把车道线，环岛，减速带等概念的处理办法灌输给系统，对于这点我的理解是V12并不是没有检测这些内容，而是在规控网络中没有显式的添加如何应对这些概念的规则，应对方法是由网络自己通过驾驶员视频学习得到的。

例如，软件没有显示要求自车要在车道线居中，模型自己从人类驾驶视频中学习何时应该居中，何时可以适当偏离中线以达成更加拟人的驾驶决策。

3. 展现了端到端自动驾驶系统相比传统架构优势的一些闪光点

虽然上面说了，我更加关注的是V12相比现有FSD是否在基础功能上存在性能回退，但是在这次Demo中我们也看到了很多V12的闪光点。

这次的一个大家容易忽略的亮点其实就发生在老马第19min红绿灯接管之前。

当时的场景是这样的，直行的绿灯亮起但是前方路口拥堵，这时比较合理的驾驶决策是不要进入路口，等待目标路口空间出现再选择通过路口，而FSD V12也正是这样做（不要纠结国内国情，实际上我国的交规也是这样建议的，虽然很少有人按照执行），不过这也导致了这次绿灯V12没能通行，一直到绿灯变红，再下一次左转绿灯亮起的时候V12出现了误判。

上述情况出行的原因是：V12目前似乎并不直接检测红绿灯的状态（可视化界面中好像不再出现红绿灯检测结果），而是综合参考了红绿灯情况和周围其他这辆行为来判断是否应该通行，所以当有红灯变绿，且周围左转车辆开始移动的时候，V12产生了错误判断，认为直行也已经可以通行，造成接管。

直行绿灯但路口拥堵，V12选择等待，没有进入路口

第二个亮点出现在一次途径点到达过程中，V12可以进行靠边停车的操作，而这也是目前的FSD所不具备的功能 。

而且Ashok在直播过程还透露，未来FSD甚至可以响应用户语音指令输入。例如用户可以告诉FSD向左换道，或者告诉FSD带自己到达前面沃尔玛，FSD就会根据语音指令分析其中语义信息并执行相应动作。这里我的猜测是有可能在V12的模型中也有文字模态的加入，这也是目前自动驾驶系统中很少使用的新技术，随着大语言模型的爆炸式发展，在自动驾驶中融入语言模型这一方向也给人很大的遐想空间。

总之这次FSD V12的Demo可以说是自动驾驶行业内一次具有颠覆性的事件，虽然本次demo依然存在问题，也还无法完全证明端到端系统就是自动驾驶未来的前进方向，但是随着本次demo的展示，我相信端到端的自动驾驶很可能将摆脱空中楼阁的尴尬境地，有潜力成为未来几年内行业争先投入的重点。

作为行业领军的Tesla（也许有人不认同，但是我身边的从业者绝大多数对此是承认或者默认的）再次扮演了敢为天下先的角色，后续自动驾驶技术范式到底如何迭代，这次demo的意义可能比很多人想象的更加深远。

（本文作者： EatElephant为AI算法工程师，原文发表在知乎，https://www.zhihu.com/people/eatelephant）

(责任编辑：娱乐)

美式双标和纵容持续祸乱中东可转债市场发展迎利好弱资质转债有望加速出清