马斯克自驾开播，特斯拉的FSDV12又领先国内了？-看卡车网

关注智能驾驶的小伙伴这个礼拜应该都被马斯克刷屏了！

亿万富翁的单向赴约+FSD V12 Beta版直播实在太有话题性了，就算视频画质差到掉渣，我还是没忍住围观了。

视频中小马哥为了展示FSD V12 Beta版的能力，不惜以身涉险甚至以身试法，双手多次离开方向盘，亲自举着渣画质的“座机”来为网友们做直播展示。虽然没有遇到拦截的警察，但他的这番神操作就算在美国，同样也是违法行为，至少需要缴纳100美元罚款。大家可不要随意模仿哦～

但话说回来，这FSD V12 Beta版到底有什么过人之处？和我们的城区领航辅助又有什么区别呢？

传统的智能驾驶，基本都按照感知、决策、执行分为个3个模块。目前咱们国内的传统的智能驾驶一般都还是CNN 的主干网络来提供最初的感知结果，然后系统会把感知结果给到决策部门，由时候决策部门根据我们已经写好的算法规则来给出控制策略，最后再由执行模块最终输出控制车辆的行为。

就像咱们车上的语音交互，当我们给出指令时，系统会通过抓取关键词，然后从丰富的答案中匹配一个最佳的结果，如果我换一种说法，它就会变成“人工智障”。

而特斯拉的FSD V12的端到端，可能已经完全推翻了我们现有在使用的这套智驾逻辑。神经网络已经吞掉了原本的规则栈，系统不需要纠结识别没识别的问题，只需要把捕捉到的基础画面给到神经网络，系统就会自己根据画面中物体的位置、活动规律等信息与之前学习过的画面进行融合比对按照经验再输出决策。整个过程完全由神经网络自己来完成。

简单来说FSD V12这就相当于一套可以理解语义的语音交互系统，它可以脱离框架，直接给出我们要的最佳答案。

以上内容，听起来或许可能容易理解。下面我们就直接代入场景，来看看FSD V12 Beta版的表现究竟如何？

1.基础能力

马斯克公布的视频中，FSDBeta版在环岛、障碍物、红绿灯识别上，整个直播过程中大部分场景基本都能处理的很好，遇到行人减速甚至停车，这样的基本操作和我们的传统智驾方案基本都能实现，但这次直播马斯克行驶的路段和国内的北京广州等地对比起来，显然在难度上还是差点意思。

2.失误场景

在直播的45分钟里，唯一的一次失误是因为红绿灯的识别导致，当时是车辆需要直行时左转灯变绿了，差一点闯红灯。咱们的辅助驾驶，例如小鹏、华为的方案，目前对于识别红绿灯也都已经是基操了，但偶尔红绿灯识别有误的情况也确实存在。就比如说上次在五城智驾测试中，阿维塔11就曾因为红绿灯的位置做了变更、高精地图鲜度不够而导致了一次识别有误。虽然原因不同，但结果却是一样的，对于用户来说，二者在体验上其实没有太大的差异。

3.彩蛋

这次直播FSD V12最让我惊艳的地方是它多了可以一个靠边停车的操作，这也是目前的FSD、传统智驾方案中我们所没有见过的。Ashok在直播中还透露，将来的FSD可能还会增加语音指令的功能，我们可以指挥它如何开，也可以告诉它我们要去哪里。FSD就可以根据指令分析语义信息并执行操作。

既然短期内体验上并没有显著差异，为什么还要做端到端呢？

传统智驾方案中感知、融合、决策、控制整个过程会有点像流水线，每一步我都要明确输出一个结果。下一步始终只接收上一个模块给到的信息，除了系统需要处理的数据和校验信息量大之外，也需要大量的人力及研发成本，而且传递信息的过程可能存在一定的信息损失。

如果把之前BEV+Transformer的加入比作是我们从数数的阶段，学会了用算盘这样的工具。那么端到端的大模型，就相当于直接用上了计算器。在研发成本、人员、效率、信息的准确性上都能够得到大幅提升。

写在最后

假设现在中国有5万自动驾驶研发的工程师、10万个相关从业者、30万个仿真、数据标注的工作者，差不多50万人在做这件事情。如果端到端真的落地了，AI就可以自己玩了，那这50万人里面，95%的人都得失业。

当然，端到端的落地的难度仅用文字是无法完全呈现出来的。运行这一套大模型，参考的维度会更多，对相关的技术人员的要求会更高，采集的数据样本数量、质量都会有更多更高的要求、那么与此同时计算平台就需要非常强大的硬件配置来支持，此外模型训练所需要的庞大资金也会是一大问题。

而且投入这些成本之后，能达到什么样的预期效果究竟会是什么样的？这就很难评了。但可以预见的结果是，端到端这条路我们一定会走，但当下显然还不是最好的时候。