车圈尽头是 AI,李想先一步到了路口

华尔街见闻06-18 16:08

过去几年,理想贡献了中国汽车行业被模仿最多的一套产品方法论。如今,理想又要去探索未来了。

6月17日,理想办了一场Livis Day的AI与具身智能发布会。这次没有行业熟悉的冰箱、彩电和大沙发。取而代之的是VLA、Agent、世界模型、3D ViT、自研的马赫芯片。

这些内容更像应该出现在OpenAI、Google或者英伟达的开发者大会上,很多人看完Livis Day后的第一反应是:理想怎么突然开始讲一些听不懂的东西了。

对于一家年销量正在冲击第二个百万辆规模的车企来说,这些内容看上去甚至有些“不务正业”。但理想讨论的已经不只是汽车。或者说,汽车已经不再是故事的全部。

要知道,当下国内汽车市场大盘收缩,1-5月的销量同比下滑近两成,玩家们纷纷保销量、保交付的情况下,理想如此激进的行径,反而是想破内卷,逃出价格战的裹挟。

回溯来看,过去几年里,中国汽车行业几乎所有企业都在变得越来越像理想。

理想几乎贡献了行业最成功的一套产品方法论。从增程到家庭SUV,从六座到冰箱彩电大沙发,越来越多的新车开始长成理想的样子。曾经被视作另类的选择,如今已经成为主流。

这是理想最成功的地方,也是理想必须寻找下一个答案的原因,因为所有产品创新都有一个宿命:一旦被验证成功,就会被复制,赖以成功的护城河就开始被消解。

十年前,马斯克已经经历过一次类似的过程。

当越来越多车企开始学习特斯拉如何造电动车的时候,马斯克把注意力转向了自动驾驶;当越来越多公司开始追赶自动驾驶的时候,特斯拉又开始研究机器人;而今天,特斯拉自动驾驶负责人Ashok Elluswamy在CVPR上谈论的已经不再是汽车,而是一个统一的机器人基础模型。

Ashok说,自动驾驶、Optimus机器人和智能体,本质上是同一个基础模型在不同身体上的投影。重要的是那个能够理解世界、进行推理并采取行动的统一模型。

如果把这场演讲与几天前理想的Livis Day放在一起看会发现,当整个行业都在学习理想的时候,理想开始学习特斯拉了。

首先是大脑,发布会后的媒体沟通会上,基座模型负责人詹锟被问到,为什么理想如此强调语言模型能力,他向华尔街见闻揭示了理想的真正目标。

“我们认为越往L3、L4走,解决的问题越来越接近90%、95%、98%之后的问题——那些你从来没见过的问题,需要模型具备像人类一样思考的能力。”

过去十年,自动驾驶行业最主流的逻辑是规模化学习,让模型见更多的数据,走更多的路,覆盖更多的Corner Case,本质上是一种经验主义,但理想正在讨论另一件事。

如果汽车遇到一个从未见过的场景怎么办,如果训练集里没有答案怎么办?为了说明这一点,詹锟举了一个例子。“比如出现一头鸵鸟和一头大象时,应该怎么处理?如果是鸵鸟,碰一下没事;如果碰到大象,碰一下可能就会翻车。”

对于人类来说,这是常识。对于机器来说,却不一定。因为常识背后并不是记忆而是理解。于是理想开始把注意力从感知转向思考。

詹锟表示,“人和动物最大的区别,是人以语言作为符号进行高层次的思考。这些能力来自于语言,而不是来自于视觉。”

这其实已经不是传统智驾公司的表述方式。过去行业讨论自动驾驶,关注的是摄像头、激光雷达和算力。而理想开始讨论语言、推理和思维链,实际上是在重新定义智能。因为在理想看来,未来汽车最重要的能力可能已经不是“看见”。

理想对Agent的定义也指向同一方向。

很多人把Agent理解成一个更聪明的车机助手。但从理想的表述来看,它显然不只是一个聊天机器人。詹锟谈到Agent时提到几个关键词:记忆、规划、推理、执行。这些能力看似属于Agent,实际上也属于自动驾驶,甚至属于未来所有机器人。

因为无论是帮用户规划一天行程,还是帮用户规划一段驾驶路线,本质上都是同一种能力。理解意图、拆解任务、执行任务。

MindGPT、Agent、VLA、世界模型,看起来是几条独立业务线。实际上指向同一个目标,一个能够理解世界并采取行动的统一智能体。

詹锟说,“我们把物理机器人分成三个关键任务。一是具身交互,二是移动,三是操作。”

随后他补充道:“车里面包含了Language语言智能,这直接迁移到机器人的概率是非常大的——交互、思考、长程规划。”理想已经把汽车放进具身智能的坐标系里重新审视。

过去行业认为:汽车是交通工具,机器人是机器人,Agent是Agent。而在理想和特斯拉越来越接近的世界观里,它们正在逐渐融合。

在这个框架里,汽车、Agent和机器人共享同一个大脑,分别负责移动、交互和操作。理想要做的,是同时具备这三种能力的统一系统。

回头看Livis Day上发布的每一项技术,都在给这个统一智能体补拼图——语言智能、交互智能、行动智能、物理世界的理解能力。

如果说詹锟谈的是大脑,那么谢炎谈的则是神经系统。

也有很多人把芯片的问题理解成成本问题。但谢炎对此反复提到一个词:全栈。“从L2往L3走的时候有很多问题,今天没有供应商可以解决。要解决未知问题、想达到更高标准时,领先企业一定会选择一起做。”

在谢炎看来,未来的竞争已经不再是简单采购零部件,而是系统能力竞争。模型需要与芯片协同、芯片需要与系统协同、系统需要与车辆协同,最终形成一个完整闭环。

这其实也是特斯拉过去几年一直在做的事情。Dojo、自研芯片、FSD、Optimus看似分散,背后却是同一种逻辑。把关键能力掌握在自己手里。因为当行业进入无人区时,供应链已经无法提供现成答案。

谢炎后来的一句话点出了理想这次转型的根本原因,“车的内卷就是因为同质化。要摆脱同质化,就是要做别人不好做或做不到的事。”

某种意义上说,理想今天越来越像特斯拉。它们争夺的已经不是下一代汽车,而是下一代智能终端,理想要把汽车公司,变成一家真正的AI公司。

以下是与理想汽车CTO谢炎、理想汽车基座模型负责人詹锟的对话实录:

问:理想汽车这几年经过很多次智能化的体系调整,最终把芯片、基座模型和智能辅助驾驶整合成统一的(团队),您作为CTO视角来看,理想的“三位一体”和特斯拉的FSD、HW、xAI相比,差异化的护城河在哪?是组织效率,还是技术路径的差异?

谢炎:跟特斯拉相比,大家出发点是一样的。如果想围绕AI做出强竞争力有两方面。

一是需要快速迭代。今天的AI发展很快。从芯片领域来说,英伟达也迭代很快,不仅是自己迭代快,还不断收购公司补充自己的技术,说明这个行业竞争非常激烈。迭代快是我们进行组织整合的一个目标,几个团队更紧密地合作,迭代速度会上去。

第二是,需要垂直整合。理想汽车推崇构建垂直整合的竞争力。在这个时代,如果没有自己的芯片,只做自己的模型,那么如果遇到需要芯片和模型联合设计,才能把问题解决得更好的情况下,我们就失去了这样的机会,特别是一些大的创新。

我个人观点是,当技术发展到平台期时,这时分工会很细。比如PC发展到2010年,操作系统归操作系统、应用归应用、芯片归芯片、制造归制造。但是如果技术处于高速发展期,斜率非常高时,你会发现很多公司又回过头来做整合,因为需要在技术边界上把分工打破,重新做整合。

比如英伟达之前只做芯片,现在英伟达连封装和机架都开始收购公司来做。所以英伟达要解决更进一步的问题时,需要上下游一起来做,如果分成多家公司来做,其实效率是非常低的,甚至是不可能的。

英伟达做Vera Rubin(AI超级芯片平台)时,可以看到不仅是多种处理器,而且机架、散热技术、互联技术都是英伟达来做。虽然英伟达是做计算的公司,但现在全拓展开了。我认为技术快速发展的时代,这是有志于领先的公司肯定要走的一条路。

当然这个投入肯定不小,很多公司不具备这种能力。在我们团队,我的背景是做过操作系统、架构、应用层等AI各个方向,所以我们的整合效率相对更高一些。

除此之外,组织规模小一点也是优势。如果需要高密度、高整合度,组织规模不能太大,如果组织规模太大,就会导致很多部门墙。这是为什么我在公司强调要保证比较小的组织规模的原因,就是想让大家合作得更紧密些。

问:数据是这个时代最宝贵的资产。随着理想车队规模的跃升,从理想内部来看,数据的边际效应是不是出现了衰减?我们是怎么定义价值数据的?

詹锟:现在大家对于自动驾驶来说,数据的理解逐渐收敛了。

第一,数据的量要足够大,数据量足够大的本质是希望收集到更多的Corner Case。Normal Case现在供应商都已经可以采集了,但采集Corner Case非常难,必须要足够大的车队才行。

基数大,但不是说把所有数据都传回来,这没意义。现在大家有很多方法在车端做出很好的neural trigger(神经网络触发器),来判断这个场景是难场景还是简单场景,然后把这些关键数据传回来。这也是现在特斯拉很强的重要原因之一。

对我们来说,我们现在规模已经很大了,主要来源于我们很早就做了很好的基建统一。从理想ONE开始就可以回传数据了。从L系列开始是全栈所有数据回传。现在到了Livis具身智能更强了,现在回传的数据可以理解为达到了L4自动驾驶的公司采集车队的数据质量,360°点云和摄像头数据做了精准的对齐,这些数据给了我们长尾收敛、思考问题的机会。

第二点,指行为质量高。因为现在大家逐渐收敛到端到端的范式,无论做VLA、世界模型还是Vision-Action都可以,但是你一定得知道Action的行为,这时候行为质量就非常重要,行为的干净程度、一致性很重要。这对于使用众包车队的公司来说很有挑战。

因为每个人的开车习惯不一样,怎么在这么多的众包用户中找到一致性,是我们努力做的事,而且也看到了很多机会点。这相比于采集车队来说,难度就在这里。采集车队的众包行为没那么好控制,但我通过算法可以迅速把好的行为留下来,坏的行为去掉。

比如你每次过红绿灯时,是不是稳定的加速度;遇到丁字路口时,能否稳定减速;每次超车时是否合理变道,这些都需要清晰的判断。

正因为我们有很大的车队,可以筛选出很多高质量的用户行为和用户数据。我们用后面的方法来筛选,就简单很多。因为他在发起行为时,我不确定他的行为好不好。但他开完以后,通过看他的后车距离、变道幅度和角度,就知道是否合理。所以我通过后面完整的数据来看,就可以知道他的每一个行为是不是合理。这对于我们来说非常重要,也是我们现在投入最大力度做的事。

现在你问数据规模上去以后的边际效应有没有衰减?

首先,只要模型上去了,只要我们能力往100分去够,一定是个“对数曲线”,一定是慢慢衰减,不可能线性增长,哪个公司做AI都不是这样的。但是我们的数据质量,能随着车队规模的增大而增长,其实也在抵抗这个对数,我们有更多的机会采集到我们想要的数据。虽然确实越往后面,数据收敛的作用就没那么快了,但我们也希望通过规模,把它的速度加起来。

问:要达到特斯拉FSD V14的效果,我们还需要做哪些工作?

谢炎:其实我们的整体能力,内部评分比之前高很多,这个模型现在的上限非常高。真正难的问题是我们要扩大模型的感知与认知能力的上限。你看这个版本的模型在很短时间内,已经达到了量产水平。

很多公司都是先发芯片,再花一段时间适配上车。我们不仅提供了高阶的智驾、城市NOA,而且比上一版本能力强很多,在非常窄的3米路况上也可以通行。

詹锟:业界都说要追上FSD的水平,但不一定能追上。我认为追上FSD有两个层面。

第一是基础体验,具体是三方面:安全感、效率、舒适度是否能达到FSD的同等水平。相信大家如果开过FSD,它的安全感非常足,效率很好,舒适度很好,这是它的基本功。我不一定跑很难的路,但这些基本功可以达到这个水平。

第二是能力,这一点也很难追。FSD有哪些能力是别人没有的?比如特斯拉会礼让特殊车辆,有极窄通行时的感知精准度,它会识别交警指挥,这些能力非常强。如果我们能做到这两项,就能追上FSD。

在基础体验上,这需要非常好的评价体系。我们希望从自己的测试团队和产品团队开始,跟用户和媒体一起想,怎么去评价我们的模型——它的安全感、舒适和效率怎么平衡。这里有很多方法,再加上我们芯片性能还没完全释放,我们可以效率更高、反应更快。

第二个关于能力,这里有架构升级的机会。为什么别人没有、只有特斯拉有?这里有我们的一些思考。我们会去做这样的改进,把这些能力提升上来。

大家想想,这些能力是怎么来的?为什么别人没有?可能是以前的范式限制了这些能力,有架构的原因,有数据的原因。它怎么就能找到这么多倒车数据?这是采集的还是合成的?怎么把这些坑坑洼洼的信息传回去?这在架构上有很好的设计。我们在这个层面做了很多尝试,目前也有一些初步的实践结果。

问:五年后或者再往后看两代产品,理想车内的算力中心有没有可能全部使用自研的马赫芯片?

谢炎:我们就是这么思考的。虽然业内有一个说法叫“舱驾一体”,我们认为舱驾一体最核心的是AI算力部分,其他部分是不是一体没那么关键。因为座舱系统跟AI智驾系统可以完全独立,但AI算力可以集中在一起,这样分配效率会高很多。

所以我们路线图的最终形态是车内一个AI计算中心,所有AI任务都可以到这个计算中心去计算。就像笔记本上跑龙虾一样,AI不在笔记本上,而是在云上,车里也类似,有一个Token服务器。

这个Token 服务器的优势:第一,效率非常高。第二,能做到不同任务互相隔离、互不影响。比如智驾任务的确定性——无论是内存还是带宽,能够保证不被其他任务干扰,这是软件和硬件一起设计才能实现的。只靠芯片提供商做不到这一点,需要软件跟硬件一起配合设计。

我们的优势在于,可以把一些计算单元完全隔离给智驾用,另一部分给其他任务用。如果是通用的SRT(安全可靠传输协议)架构,它不能完全做到这一点,因为这些东西藏在硬件里,而硬件并不知道上层应用的语义。它不知道下面跑的线程是智驾任务还是其他任务,或者说它做这些事情的代价非常高。就像我昨天发布会说的,我们走向数据流架构有很多原因,有效率的原因,也有AI场景下多任务需要并行运行、对时延非常敏感、对资源确定性要求很高的原因。

问:之前一直是冯·诺依曼架构指导了整个芯片体系,现在我们第一次看到动态数据流架构用起来了,四年前理想看到了什么?整个链条要从头到尾全部变短才是真正的全栈优化,背后的组织是怎么实现的?

谢炎:四年前,我们给自己立了一个很高的目标就是自研。我们为什么要自研?我和李想有一个非常一致的意见:自研不是为了证明自己有能力做,而是真正去解决问题。

四年前我们看到的问题:一是算力成本非常高,而且会不断变高,因为车内需要越来越多的AI算力。二是我们希望通过自研做得更好。当时我们用英伟达和地平线,我们给自己定的目标是,如果做不到比外购芯片更好,那做的意义不大。当时定的目标是4倍Orin的性能。

如果要达到这个目标,背后有一套逻辑——你要做得比英伟达更好,用英伟达的技术路线是不可行的。因为英伟达比你早启动几十年,积累比你深,资源比你多几个数量级。你唯一的机会就是跑另外一条路径。

在这个思路的指引下,我们开始看其他技术路线。就是扔掉所有以前的架构依赖,回到本质,从第一性原理看AI计算本身还有什么机会。

我在读研究生时,我导师高光荣教授是数据流架构的奠基人之一,他在MIT时就做这个事。当然在通用计算时代并不成功。我们发现他的思想本质是:你要做的是计算,冯·诺依曼架构相当于帮人类做一个中介去实现计算,中间有翻译层,这个翻译帮助人类更好地去编程,但这个中介和翻译会降低效率。

如果回到计算的本质,可以把中间的翻译拿掉。当然的确很少有企业做过实践,中国也是如此。所以大家看到的机会都是一样的,关键是如何极致地解决这个问题,从第一性原理来倒推。我们四年前定了这样的目标,并且觉得是可行的。

关于组织协作。为什么垂直整合比较重要?因为要做到这一点,只有硬件团队不够,还必须有模型团队。我们设计芯片时,软件团队、模型团队坐在一起分析。而且大家比较兴奋——之前很多做软件的人根本没有机会直接对硬件团队提需求。

在组织上,我们希望以某一个核心的、有挑战的目标为中心,围绕它构建项目团队。实际团队是分开的,但像一团篝火一样,有硬件的人、有软件的人、有模型的人,大家在大目标下一起共创、一起实现。我们内部越来越多的项目会往这个方向走。

问:马赫M100为何没设计PCIe接口,是否因为M100是数据流架构的AI推理芯片,所以相较其他友商的自动驾驶芯片,对带宽需求没那么高?

谢炎:我认为未来智驾需要更多的算力。回到2022年我们设计芯片时的目标,它的性能是当时最好芯片的4倍,我们觉得够了。PCIe控制器本身也占一些面积和成本,所以就没有加,觉得四年以后怎么也够了。

某种程度来说,我认为加上会更好,因为有可能未来智驾需要更多的算力。你可以想象当未来的智驾能力更强时,也许不是几年,也许是两年后,需求就不一样了,这也是我们设计未来芯片时会考虑到的点。

你看昨天发布的场景,今天有一些云端的大模型最终要落到本地,特别是跟舱内视觉相关的。很多人会敏感,觉得舱内摄像头把车内信息都上传到云端不安全,所以这些信息应该在本地处理。比如你在地库跟一辆车像跟机器人一样交流,而地库没有信号,所以你需要很强的本地大模型,几B到几十B的模型。所以会有另外一颗芯片,更好地承担这部分工作。

关于第二个问题,我们对带宽的要求会低,现在HBM很火,很多人觉得带宽越高越好。计算,带宽,SRAM等等都是需要晶体管代价来实现,最终的设计都是成本/综合性能等多方面的综合设计考量后的一种选择。

不同的架构设计,仅仅靠一两个指标来做简单对比,既不合理也不专业。这就像打拳击比赛,高有高的优势,体重大有体重大的优势,但不是由单一指标决定了胜负,最终比的是拳击这个运动的结果。泰森,既不是最高也不是最重的,却是拳击最强的那一个。

M100 通过编译器显式编排数据搬运与计算时序,绝大多数张量数据在片上流动完成算子运算与中间结果传递,大幅减少了对于直接进出 DDR 的访存次数,因此对外部 DDR 带宽依赖更低。

问:为什么现在的大算力芯片方案,比如英伟达、小鹏、理想自研的这些,都没有做芯片级的舱驾融合,反倒是高通在低算力的骁龙8650上做了这件事?

谢炎:从本质上讲,舱和驾是两个独立系统。特别是对高端的L3往L4走,智驾需要一个更高确定性的系统,内存是专属、计算资源是专属,这时融合的意义就小了很多。因为资源不能实时切换,实时切换会降低确定性。如果变成越来越独占的方向,融合的价值就不大了——你只是把芯片拼在一起,但资源还是两份,并不会带来成本的降低,甚至会影响效率。

对低端来说,L2对切换的实时性要求不高,有一部分确实可以有限地共享,但我认为也不多,未来会证明这一点,因为今天只是个概念。

我认为真正的舱驾融合,是舱需要的资源和驾需要的资源在物理上完全是一块,可以动态共享。不是形式上放在一起,但实际切成两半。融合就像你的笔记本跑浏览器和其他应用程序,笔记本的内存完全可以共用。

你看现在那些舱驾融合系统,它肯定还是分开的,今天做不到一会儿跑这个一会儿跑那个。如果做到的话,融合的价值确实很大,但做不到的话,只是减少一定的成本,只是省了一次封装的成本。对中低端芯片来说这部分钱可以省,但也省不了太多。

我的观点是,越往后走智驾越来越高端,舱驾融合这件事可能意义并不大。如果把这些芯片做得更近一点,在一块板上做成很小体积的集成化方案,这是可以的,并不一定要做成一块芯片,也可以多块芯片放在一起。

问:现在的智能驾驶模型中还有“L”的部分吗?

詹锟:现在自动驾驶的架构,大家都会有一个共同的趋势,就是把VLA和World Model整合在一起。无论做VLA还是World Model,里面的Prompt都要用Language。

我觉得更本质的问题是马赫VLA到底是Language Based Model还是Vision Based Model?昨天说的机器智能和语言智能,我觉得这可能正好是两个不同方向的base。

机器智能来说,我觉得Vision Based是更合理的,它是对空间理解、对3D空间的感知、对环境服务是更合理的。Language肯定有用,对理解环境、理解交通、理解指导、理解复杂的思考决策都是有价值的。

马斯克一直在说要把Reasoning(推理)上车,虽然还没上,但大家都在往这方向做,而且Language一直是我们很重要的一个中间监督项。

但对于语言智能来说,Language Based永远是最好的,没有哪个语言智能是用Vision Based的。但Vision必须要,否则怎么能看到车内你拿了手机、拿了电脑呢?这个问题就是你以哪个为base。从长远来看,基于Vision和Language原生的基础模型,可能是长远的未来趋势。

谢炎:如果要走向L3、L4,要解决更泛化的问题时,你的模型需要具备像人类一样的思考能力。

如果它只有Vision和Action,它有很多数据,碰到分布以外的情况就会不知道怎么办。比如出现一头鸵鸟和一头大象时,应该怎么处理?如果是鸵鸟,碰一下没事;如果碰到大象,碰一下可能就会翻车。这只能通过大量的数据,给它几十亿公里的数据。

而一个动物,哪怕学会了所有常见情况,碰到这种从未见过的情况完全不会处理,它不知道做什么选择是对的。

我们认为越往L3、L4走,解决的问题越来越接近90%、95%、98%之后的问题——那些你从来没见过的问题,需要模型具备像人类一样思考的能力。而得到像人一样推理和思考能力的来源是语言模型。

人和动物的最大区别,是人以语言作为符号进行高层次的思考,这些能力来自于语言,而不是来自于视觉。我们认为越往后走,语言的重要性会越突出,这也是未来需要很大算力的原因。因为如果只有Vision-Action,算力到了一定程度就够了。

但如果要往后走,模型需要理解各种场景,比如有个警察在做手势,你要理解他是让你走还是不让你走,这不是靠收集数据或生成数据就能解决的问题。

问:基座模型怎么从车扩展到其他终端?

詹锟:你说车的自动驾驶怎么迁移到机器人上?我认为这个gap很大。切换到机器人的导航没问题,但如果切换到操作上,模型不是那么一样。或者说基座只是一个非常基本的,它后面一定是千差万别,这一点要确认。

车里面包含了语言智能,这直接迁移到机器人的概率是非常大的——交互、思考、长程规划。DeepMind Robotics团队有个ER模型,就是来自Gemini的,把语言思考上的能力从通用场景迁移到机器人上。

我们把物理机器人分成三个关键任务。一是具身交互,我们跟它沟通、交流、思考,让它做任务规划。二是移动,自动驾驶能不能从A点到B点,无碰撞、安全、高效地到达目的地。三是操作,狭义的具身,是一个独立任务,是开放性场景,业界很多人都在探索,包括硬件、数据都是不完善的。这三个任务任意的组合,都会形成非常有价值的商业模式与价值形态。

我们的车有机会把这三点都涵盖。涵盖以后,我们想长成任何一个物理的具身本体都有非常大的机会。你说我们有没有共同基座?我们肯定有云端的共同基座。但这个基座是不是放在任何任务上就能直接用?我觉得比较难。

但它作为基座,提供海量的数据支持、训练环境,能提供基模的baseline,帮助你快速做下个任务的收敛,这是很有帮助的。所以这也是我们成立基座模型团队的原因,我们会有基座来支撑各个业务,但每个业务有自己的特点。

问:自研芯片背后需要什么条件?目前自动驾驶迭代速度很快,芯片要持续迭代的话,需要什么样的条件?

谢炎:芯片,先期投入的确不小,可能一年要好几亿。第一个条件是达到一定的营收规模。对车企来说,营收规模一年1000亿以上,研发投入至少10%,就有大几十亿到上百亿,每年投钱研发芯片是可以的。第二个条件是,你研发芯片解决的问题,要能让你的产品能力更强。

这里有个误区,很多人说芯片要有很大的出货规模才行。其实芯片的成本和面积相关。一辆车上的芯片,比如Livis是2颗马赫M100,加起来800平方毫米。而一部高端手机芯片大概100平方毫米,所以一辆车的智驾芯片相当于8台手机的芯片面积。

这样算下来,大几十万辆车需要的晶圆面积非常大,完全可以摊薄成本。所以成本不能仅用颗数来衡量。有的IT公司说一年出货好几亿颗,但其实每颗面积非常小。不能脱离背景只谈量,这是不完整的。

我们在马赫M100立项时算过,做这个芯片不会让公司的效益变差,而是会变好。我们不是为了证明自己能做而做,不仅性能要做到最好,在成本上也要帮助公司省钱。

问:自动驾驶的Scaling Law似乎没有起来。接下来理想要拉大差距的话会做什么?

詹锟:一年前到现在,智驾格局确实发生了变化,感觉差距变小了。但从另一个角度看,从一年前到现在,很多玩家已经不在了,现在至少智驾的玩家收敛了。

有几个原因。一是智驾是重投入,它不是把一个公司的算法带到另一个公司就能转起来,它是一个系统,涉及到系统、人、技术、算力、平台,这是很大的壁垒,无法在短期内建起来。

为什么你感觉第一梯队差距没拉大?这里要思考,我们如何建立护城河,靠什么能让别人无法快速追上。我认为要参考特斯拉。

第一,全栈才能建立真正的护城河。你的算力、芯片、基础设施能不能完全统一在自己的可控范围内,这很重要。如果你只是算法,中美之间的人才流动很快,很容易被迁移。但如果你是全栈的,迁移成本很高,也很难。

第二,你愿不愿意把精力投入到苦功夫上,比如精细地洗数据。这里有很多细节,这些细节并不高大上,但这些一点一滴的细节才能形成护城河。我们也会在这方面持续加大投入,逐步把护城河建起来。现在已经有全栈自研的机会了,我们会加大投入,把这些苦功夫做下来。

虽然第一梯队之间的差距感觉变小了,但大家跟特斯拉的距离并没有缩小,特斯拉还是很强。如果我们完成年底追上特斯拉的计划,是有机会脱颖而出的,也是我们一直想做的事情。

问:未来有多少车企会真正做成自研芯片?在当下芯片产业链快速发展的情况下,哪些环节是被加速的,哪些过程是必须要经历的?

谢炎:你的问题分两部分。第一,为什么这么多车企都发布芯片,是不是这件事很容易?我想说其实挺不容易。

我们自己做这颗芯片花了4年,在新势力里我们启动最晚。大家要看发布芯片后,最终结果是最领先的模型什么时候真正落到车上。从这个时间来看,除了我们以外,其他家一般要5年时间甚至更长,我们是最快的。

做一颗芯片和做一颗领先的芯片,难度又是不一样的。我跟李想说过,我最担心的事不是做不出来,最糟糕的事情是做出来了但它不领先,那公司这个钱就白花了。

我们看业界,并不是每一家公司都能做到。现在很多公司宣布做了,但并没有真正落到车上。要看它什么时候落到车上,什么时候把最高端的智驾用自研芯片跑起来,并且还能做好用户体验。

再者,看是不是所有车都能用。有的公司为了证明自己能用,只用了一款车型,出货量只有几千辆,其他车还是用外购芯片,说明它也知道这件事并没有帮它解决真正的问题。

另外一个指标是能不能持续迭代。做一代芯片不说明问题,最终要做出第二代、第三代。很多公司只做了第一代,第二代就不做了。有些公司也可能买个IP就做了,也可以宣传自己自研。

但我们不是,因为我们连论文都可以看到,这个世界上没有第二个芯片跟我们做的一样,完全没有,甚至连这个思路都是我们提出来的,没有任何已有的IP可以follow。

问:在芯片产业链里,哪些环节是可以被加速的,哪些环节是必须要自己踩坑的?

谢炎: 有些技术是成熟的,比如偏后端的部分,有点像造房子,你找工程队,比如垒砖,是可以找到供应链帮你加速的。但是真正要做到量产、做到最领先,设计肯定要自己做,软件要自己做。如果你连软件都外包给别人的话,你不可能迭代芯片性能。当然生产一般都是fabless,大家不会自己再去造工厂,这是另外一回事,生产今天是成熟的。

回到国内,我们会越做越深。如果做芯片要持续领先的话,仅仅做芯片设计,做成GDS2(版图数据库),交给晶圆厂去做流片,这也不够。很多部分要跟封装厂联合设计,要垂直整合。有些技术不仅仅是货架商品,由别人提供就可以,你要深入到封装制造领域才能领先。我们不会停留于此,会越做越深。

问:这套架构能不能很好地应对Agent爆发式的流量?模型的通用性是一方面,带宽和并行能力能不能应对Agent的爆发?

谢炎: 您可能想问它的通用性问题。我们芯片第一个重要的业务毫无疑问是自动驾驶,但我们没有做成只能跑一个模型。它的数据流可以跑任何模型算子,不仅可以跑自动驾驶,也可以跑语言模型,昨天我介绍了我们能跑Qwen 35B。

我们是个端侧芯片。作为端侧芯片,它的服务请求不会很多。如果我们设计一个云端芯片,是同时服务1000个用户。但端侧芯片的要求不一样,它服务的对象往往只有一两个任务,它要求的是更短的延时,而不是服务更多的对象。如果是云端芯片,架构还是数据流,但设计和端侧芯片就不一样了。

问:马赫M100芯片对编译器的要求非常高,编译任务非常重。跟传统编译器相比,有什么不一样?

谢炎:如果你学计算机会知道编译器是计算机里最难的课,比操作系统还难。

数据流和传统的冯诺伊曼架构不同。冯诺伊曼架构是为了适应人类的思考,把计算抽象成顺序的指令,这样人可以一步步做推理。而数据流是大规模的并发,多条数据流同时在进行,它不仅在时间上往前推,在空间上也要布局,叫时间空间编译。再加上我们没有指令顺序,基本上是用消费者-生产者的模式,大量的消费者和生产者在同步进行,这需要完全不一样的编译框架。我们做这个事花了大量的时间。

我们对人才的要求是,不仅要懂编译,也要懂架构。反过来讲,做硬件的人也要懂软件编译器怎么用。所以我们的编译团队也是架构团队,这个芯片是软件、硬件、架构团队一起设计的。

我非常同意Jack B.Dennis教授的一句话,他说现在计算机分工太细了,硬件的人不懂软件,芯片的人不懂编译器,软件的人不知道硬件怎么work。

大家没有意识到,当你同时看到硬件与软件,本质就是计算机完整的图景,当你看到所有东西时,你可以创造更大的创新。看计算机理论的话,它本身不分硬件软件,本质就是如何让一个计算任务完成。为什么后面分出了硬件与软件?因为有一部分用软件来抽象效率更高,有一部分用硬件来抽象效率更高。但当你需要更大的创新时,应该打破这个边界,重新看计算机是怎么设计的。

今天美国非常创新的公司,他们思考的东西是从根本上打破软硬件的边界——把传统认为是软件的东西放到硬件上,把传统认为是硬件的东西放到软件上,这样才能得到划时代的创新。如果原来怎么做,今天还是怎么做,性能的提升速度远远赶不上需求。今天摩尔定律越来越弱了,缩放定律已经失效了很多年,会拖慢整个AI发展的速度。

问:马赫M100芯片在理想的定义里是一款AI推理芯片,而不是AI训练芯片,这两者的边界是什么?在AI训练领域英伟达已经很垄断了,跟它做竞争是不是很难追上?

谢炎: 我认为AI计算的算力市场,最终会出现99%的推理,训练只占很小的部分。从这个角度来讲,今天中国和美国大量的公司在为了更高的效率专门做推理芯片,也是这个原因,因为最终推理市场更大。如果推理市场没起来,说明AI没有真正落地。

从我们的角度而言,我们公司先要解决推理问题。训练的话,用市场上好的训练芯片,目前够我们用了。

从经济模型角度来讲,训练要的是效率,它对成本不太敏感。训练要的是在足够短的时间内迭代。至于成本高了50%,甚至高了100%,也没关系。英伟达最高端的芯片,很多公司以翻倍的价格也愿意买。

但是推理芯片不一样,它要同时考虑成本与效率,而且考虑成本的比重非常高。从解决公司和业务问题来讲,推理问题更大,它跟我们想要达到目标的gap更大。如果我们做一件事的话,我们就解决机会最大的问题。

问:跟友商相比理想的领先性体现在哪些方面?

谢炎:我们为什么敢说自己是世界第一呢?因为我们跟市面上标准可以获得的芯片做对比,它是英伟达Thor-U三倍的性能,对于上车时间我们已经做得很快了。做芯片基本要5年时间,而我们基本快4年时间就上车,而且把所有模型都跑起来,这已经很快了。

问:去年年中,为什么还要重新做编译器开发?去年年中迭代的那一版主要是解决什么问题?

谢炎:编译器工作不是做完就结束了。从流片前、回片后、部署上车后,一直会持续迭代,因为编译器的核心任务是把硬件效率发挥出来,需要一版一版不断优化。去年年中那一版主要是把性能优势充分发挥出来。

我在20多年前学编译课时,老师第一课就讲:编译问题是个NP-Complete(NP完全)问题,是计算机理论里最难的问题之一。这种问题你并不知道最佳性能点在哪,但可以不断逼近。所以“跑通”跟“跑到最好”距离非常大,而且最好永远不可及,只能不断逼近。

我们在跑马赫VLA模型时,性能已经是ThorU的三倍了,但我们觉得依然有潜力可挖,依然在继续迭代编译器。

问:3DViT我们大概是什么时候开始研发这个技术路径的?

詹锟:3DViT证明了2D视觉也能学会完整的3D空间结构,证明了Scaling Law在3D空间的全新可行性。

第二,之前团队一直在往这方面探索和尝试,中间做了很多方案的取舍和权衡。最后因为我们看到3D ViT对空间深度的理解、物体精细度的理解能达到激光雷达级别的效果,我们去年才正式从研究探索阶段转入产品开发阶段。

在这个过程中,我们把它变成一个真实项目,放到最新的马赫VLA里面来。原来马赫VLA不一定使用3D ViT,但有了会更好。3D ViT后续还有更大的改进与优化空间,这也是追上FSD V14很重要的一环,中间的视觉信息能不能表征清楚,这是非常关键的。

3D ViT是一个纯视觉方案,它不依赖于激光雷达。它基于视觉,把空间建模成带有色彩信息的全彩点云,基于更强的视觉编码器和空间视觉表征,做到更丰富的3D理解。

能不能达到激光雷达的效果?我们是有信心的。因为我们最新所有的车都标配了激光雷达,激光雷达对纯视觉方案有非常强的监督和校验作用。一定要达到跟激光雷达完全一样的精度吗?不一定。特别是看远处时,人也分不清大货车是20.8米还是19.8米。

但在极近处,人对深度的感知非常敏感,我们也是如此,在极近处能达到激光雷达的水平,这是上线的标准。另外,理解空间以后更重要的是做出更拟人的行为决策。

问:之前的CNN(卷积神经网络)模型映射到数据流架构会比较好,但现在模型进化到了Transformer和MoE(混合专家)结构,芯片是否还适合模型架构的进化?

谢炎:我认为数据流架构比冯·诺依曼架构更贴近计算的本质。冯·诺依曼做的事情是为了人类编程方便,抽象了数据的顺序指令流,GPGPU也是多个指令流,做SIMT。为了人类编程方便,用指令流顺序表达,又要有高并行度,所以需要做很多硬件额外开销,把并行度重新挖出来。

我认为数据流最重要的一个思想是:假设对人类编程的方便性降低,我靠很强的编译器,甚至靠AI编译器,能不能拿掉这部分额外开销?CPU和GPU架构里有大量的晶体管开销用在缓存一致性,比如指令重排序、分支预测。你看一个CPU,30%的晶体管开销在这上面。如果不用冯·诺依曼架构,这些都可以拿掉。

缓存一致性也是同样的道理,不仅缓存一致性本身会占用晶体管规模,更大的问题是,你为了做到缓存一致性,并行规模不会特别大。如果把可扩展性拉起来的话,缓存一致性就是个灾难,这是不可行的。早期有研究表明,8到16核做缓存一致性就非常困难了,时间开销很大,效率开销也很大。

讲到本质,就是这些额外开销能不能拿掉。这样做的代价就是编译难度会变大,调度难度会变大。在过去这不可行,首先并行度没那么高,除了高性能计算,就是所谓的超级计算机,模拟核爆炸或预测天气,这种场景并行度非常高,这种场景下用编程模型是有意义的。

AI有大量的并行,需要分配到不同的计算单元时,这个架构就有优势了。我昨天讲了,帮把晶体管利用率提升。

你刚刚想问的是,MoE和Transformer的计算密度没那么高,特别是decode阶段可能计算密度没那么高,带宽瓶颈会更大,这的确是需要解决的问题。在计算密度不高的工作负载里,斯坦福去年有一篇论文讲Mega kernel,它把kernel做大,就是为了避免数据频繁进出。

Groq和Cerebras为什么要做那么大的片上内存?就是因为数据全放在片上的效率更高,可以不进出DDR,因为DDR的瓶颈很高,而且成本也很高。今天大家都要用HBM,但都不想用HBM,因为太贵了。回到车上更是如此,我们用不了HBM。我们通过架构的方式把进出DDR变少,让效率进一步提升,不仅是晶体管利用率提升,计算效率也提升。

问:理想做全栈自研的底层思考是什么?

谢炎:全域到底解决什么问题?假设我们停留在L2、L2+,以自动驾驶为例,不做垂直整合也可以,无非是从供应商采买。车还是人类监督,人类随时准备接管,开得慢一点、效率低一点也没关系,要求不高。

但昨天发布会上理想希望它像机器人一样独立地完成任务,那对它的智能要求就非常高了。不仅是脑子,对手脚的掌握、对加速、轮子、纵向横向的控制,要求都很高。

从L2往L3走的时候有很多问题,今天没有供应商可以解决。你分开采买,可以给你系统、给你线控,但加在一起,有大量的冗余,成本又高,延迟又高,出了问题还很难定位。所以要解决未知问题、想达到更高标准时,领先企业一定会选择一起做。当然我不排除20年后技术进入平台期时,会拆分出各种供应商。但在技术还没收敛的阶段,要达到这个目标,必须自己整合。

就是因为一些问题不好解决,我们才要自己出手,而且这些问题是长期性、重要性的问题。比如L3、L4,今天没有人完全做到,特斯拉也没完全做到,这是无人区,你需要解决这些问题,需要投入巨大的资源。

车的内卷就是因为同质化。要摆脱同质化,就是要做别人不好做或做不到的事。这些事如果供应商能做到,那又同质化了。这就是基本逻辑。

问:3D ViT对智驾行为的改善,具体体现在哪些方面?

詹锟:人眼有两个非常重要的特性:第一是实时双目,双目天然就带了3D结构,这一点很厉害;第二是前额叶很强,能抽取非常高维特征的表征。做深度学习本质上是在做表征学习,就是把信息映射到高维空间的特征,这个特征长什么样子我们没法直观描述,但它要包含所有下游想要的信息,这是大脑在做的事。

人的双眼时刻去观察3D物理空间以后,大脑中整个物理空间会有很强烈的3D感。但是摄像头,特别是单目摄像头,天然是没有3D感的。人眼如果遮住一只,当习惯了双眼训练以后,单目也能看到3D结构,因为前额叶已经把这种能力固化下来了。

对机器来说也是这个思路:用很高维的3D空间数据去训练它。即便摄像头在移动中,也能构建出三维空间,这就是典型的3D建模思路。任何一段视频进来,通过三维建模构建出三维空间,任何一个单目摄像头就可以知道三维空间是什么样,跟人的思路一模一样。通过这种方式,3D ViT就可以深刻理解3D环境。

补充一点,激光雷达也能理解3D环境,它是主动光。但3D ViT的特点是,除了理解环境的3D结构外,还能理解3D物体的属性、纹理、类型,因为它有RGB,保留了所有信息。甚至还能做tracking,就是对移动物体做动静分离,在3D环境中很容易判断目标是动还是不动,这就是光流的作用。把这些能力结合以后,高维的视觉表征就非常丰富,不会有遗漏。比如地面有个坑和沟,你很容易识别出来。

如果我拿BEV来表达的话,我没有定义什么是沟和坑,对下游决策来说就缺少了这个信息,这就叫高维表征的缺失。所以只有解决了这个问题,才能给下游提供更完整的信息,下游才能根据这些表征做出正确的动作。

以前大家熟知的“The Bitter Lesson”(苦涩的教训),是指机器不要加任何人为先验,用数据训练,一定做得比人更好。现在最新的理念是“Vision Bitter Lesson”(视觉苦涩教训),就是怎么判断你的视觉表征好不好?看你有没有做出对应的动作——你绕过了这个沟,才能证明你理解了这个沟。我们通过构建一个非常好的三维空间表征标准,让下游把动作真正理解好,这样视觉能力就得到了充分的展现。

问:在马赫M100平台上,强化学习数据提升了15倍,具体会在哪些场景去做强化学习?

詹锟:强化学习最重要的是决策和行为的联合优化。现在所有训练范式中,强化学习都是post-training阶段的一部分,主要针对训练中的弱势场景、数据分布不好的场景、或者混淆度高的场景。这需要有很精细的拆分方法,把这些场景识别出来后,让模型在里面自主探索,通过reward给它反馈探索的结果对不对,对决策和行为做联合强化。具体场景非常多,比如绕行、变道等,都是通过这套方法论,找到post-training中的弱势场景来做强化,不是一概而论的。

问:做基座模型是不是汽车公司想站在AI前沿的必要基础能力?

詹锟:关于基座模型,我认为答案是肯定的。只要想走具身智能和AI方向,基座模型一定是必争之地。基座模型不太可能像OS(操作系统)一样有一个标准件,因为每个人的场景任务不一样,需求也不一样,所以基座模型需要自己建。特别是语言模型的基座,做汽车有汽车的基座,我们对视觉语言的重视更多,参数量的分配比例也跟通用模型不同。

核心有两种类型的任务——语言智能和机器智能,这两个对基座模型的需求是不一样的。可以共用一个云端大模型做基础,但实际使用中一定是有区分、有差异化的,我们也是在往这个方向做。我们已经有非常强大的统一基座模型,可以构建物理环境,我们对它有很多反馈和评价机制。但真正落到车上时,需要有裁剪、有取舍、有参数量的适配、芯片能否承载,我们要做不同的改造。

至于将来会不会有一个技术收敛的外部模型给所有厂商直接用?如果说有开源的pre-training(预训练)模型,这是有可能的。但你想让一个pre-training模型就直接给大家当基座用,我觉很难。大概率大家还是要做很强的post-training(后训练),才能变成真正能用的基座模型。

问:Mind-Pro在Agent能力上表现出行业领先的水平,未来有没有考虑过开源?

詹锟:Mind-Pro是一个性能不错的主流模型。模型架构采用了MHA(多头注意力)、GQA(分组查询注意力)之类的架构设计。要不要对外输出?这是一个商业选择问题。我们自己车的本体有强烈的优化倾向性,没有必要对外去卷coding(代码能力)这个赛道。现在大家卖token主要还是往coding方向走,我们没必要卷这个方向。

但我们为什么在这些benchmark(基准测试)上取得了不错的成绩?因为我们对自己的硬件本体有非常深刻的理解。我们车上有很多硬件资源需要调度,如果用其他第三方大模型去试,效果不会比我们好,反应还很慢,常识错误也很多。我们通过强化学习以后,模型对车身运动有很强的理解——知道车身如何晃动,里面有很多tools(工具接口)可以调用。只有基于自己的本体做了强化以后,才会有非常深刻的优势。我们不一定要跟别人去卷coding,因为那是另一个赛道了,不符合理想汽车的主路径。

如果有机会往具身应用方向做开源的话,从长远来看可能有这个机会,但目前各家硬件差异较大,并不一定完全能通用。这是我们想做的方向——把我们的模型跟Agent和物理世界结合得更好,这就是马赫Mind要解决的问题。

问:李想想基于下一代马赫芯片做一个家庭算力中心,类似英伟达DGX Spark的理念。这个项目现在是否在推进中?

谢炎:我们做的M100本质上是一个通用AI推理芯片,理论上讲,它能很好地推理自动驾驶模型,也可以推理语言模型。有同事说这个芯片这么好,能不能装到家里面,因为他需要一个私人的家庭算力。出发点是从这里开始的。下一代芯片毫无疑问会更强,经过一定的改造,我相信放在家里非常有竞争力。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Comments

We need your insight to fill this gap
Leave a comment