英伟达、阿里重估AI,把FLOPS“扔进垃圾堆”

华尔街见闻03-18

317黄仁勋在 英伟达GTC 2026 的舞台上穿着标志性皮夹克讲了两个多小时,会后几乎全网都在英伟达要做Token之王

但如果仔细听这场演讲,会发现黄仁勋真正反复锤打的,不是Token本身,而是 Tokens per Watt(每瓦Token数)。他在展示推理性能图表时明确说出了这个概念,并直言:每一座数据中心、每一座AI工厂,本质上都受限于电力一座1GW的工厂永远不会变成2GW,这是物理定律决定的。在固定功率下,谁的每瓦Token产出最高,谁的生产成本就最低,谁的收入曲线就最陡。

这句话才是整场 GTC 2026 真正的题眼。

舆论热衷讨论的是 Vera Rubin 比 Blackwell 强多少倍、Groq LPX 能把推理速度拉高35倍、英伟达要把数据中心搬上太空。这些当然重要,但它们本质上都是同一个逻辑的不同表达:在能源约束下,最大化每一瓦电力的智能产出。

当黄仁勋把Tokens/W作为衡量AI工厂产出的核心度量衡时,其实背后还有一层重要产业深意算力竞争的度量体系,正在从芯片走向系统,从峰值参数走向端到端能效,谁的芯片更快走向谁可以能源转化成智能的效率更高。

当下产品技术矩阵之下英伟达和黄仁勋都还受困于token/w,距离真正的token之王,还需要迈出很多步。

这是一次智能度量语言的迁移而这次迁移所打开的产业视角,远比任何一颗新芯片都更值得深入讨论。

就在GTC正式开幕前一天阿里巴巴宣布成立Alibaba Token Hub亲自挂帅阿里AI核心不是AI命名而是Token命名Token升级阿里AI战略高度

同样体现出系统的视角看AI已经逐步成为行业认知这正是希望能通过这篇文章强调的理念,也是本篇文章的意义所在。

01 GTC2026最值得重视的变化,不在芯片本身

GTC 2026,大家关注焦点依然是Vera Rubin、Rubin POD、LPX、DSX AI Factory 这些新产品和新名词。但如果把这些发布放在一起看,会发现它把算力竞争的叙事边界,从单颗芯片,推进到了算力基础设施级别,也就是一整套由计算、网络、存储、电力、冷却、控制系统和软件共同构成的 AI factory。

Rubin 被描述为 POD-scale platform,多个机架共同组成一个大规模、相干的系统;DSX则被定义为面向AI factory 的参考设计,目标是最大化每瓦Token数。

这说明,行业真正竞争的,会从某颗芯片算力有多高,转化到整个计算系统有多强,更细节一点,也就是整套系统能不能把有限的电力、冷却和网络资源,高效地组织成稳定的 AI 产出。

具体到度量单位,就是每瓦Token数(Token/W)。

本文希望从Tokens/W这个度量单位,来洞悉这场发布会所传达出的意义,以及对我们发展AI基础设施产业时所带来的机会。

02 既然竞争对象变成系统,度量体系就不能还停在芯片层

芯片时代的度量体系,大家都很熟。峰值算力Flops、显存带宽、FLOPS/W、TOPS/W、bit/J,这些指标都很重要,因为它们能描述一个部件的能力边界。

这就导致在实践中出现一个尴尬的状况:智算中心中没有一个客观、统一、且通用的度量单位。

一般来讲,衡量数据中心的单位会用到MW这个电力单位,而在国内建设智算中心时,用的是PFlops(基于FP16)这个算力单位。但是,同样的算力或电力单位的集群,如果内部的芯片、网络、散热不同,效能也会大不同。

原因并不复杂,之前的度量单位只能衡量某个维度,峰值算力描述的是一颗芯片理论上能做多少计算,bit/J描述的是局部数据搬运的能效,带宽描述的是单个子系统的信息通路能力,这些都是芯片在某个维度上的度量。

可是一整套AI系统最终要回答的问题是:在固定功率预算、固定散热条件、固定机房约束下,到底能跑出多少有效的AI结果。这个问题,单靠芯片层指标回答不了。

从NVIDIA这次的话语体系里可以看到,token cost(成本)、每瓦吞吐量、每瓦token性能、以及每瓦Token数。

度量语言体系正在从部件语言,转到系统语言。

所以,如果说芯片层常用的度量是峰值算力、带宽和 bit/J,那么系统层更合理的度量,就应该是 Token/W。前者衡量部件能力,后者衡量整体产出。前者对应局部最优,后者对应系统最优。

03 Token/W 把能源到智能产出的链条接起来

NVIDIA在GTC 2026 现场文字稿里,把token称为现代 AI 的 basic unit。这个提法其实很到位。对大语言模型、推理服务、Agent 系统而言,用户最终买单的对象,本质上就是系统生成和处理 token 的能力。

从业务运营角度看,token 有三个优点:1)它和模型推理过程直接耦合。2)它和收入模型直接耦合。3)它适合覆盖推理时代的新负载。

Agent、多轮对话、长上下文、检索增强、工具调用、推理链,这些新负载很难用单一 FLOPS 描述,却都能在 token、latency、goodput维度上留下痕迹。

更重要的是,今天 AI 基础设施的底层约束,正在越来越直接地体现为能源约束。IEA 的《Energy and AI》报告预计,到 2030 年,全球数据中心用电将增长到约 945TWh,较当前水平大幅上升;AI 是其中最重要的驱动因素之一,美国更将占到这轮增长中的很大份额。换句话说,AI 产业接下来的很多问题,表面看像芯片问题,实质上是电力问题、散热问题和基础设施组织问题。

Token/W 这个概念有价值,是因为它把 AI 产业最核心的那条链条接起来了:电力输入,经过计算、网络、存储、调度和冷却,最后变成 token 产出。

从这个意义上说,Token/W 并不是简单替代 FLOPS/W 或 bit/J。它补上的是一层过去还关注不到的视角:

AI 系统到底把多少能源,转化成了多少智能产出。

我认为,这次 GTC 最值得讨论的地方,恰恰在这里不能再孤立地看芯片,必须把芯片放进系统,把系统放进产业约束里去看。

这也是作者一直倡导的角度。看AI芯片,不能只看算力峰值、内存带宽与大小、接口参数,还要看它在网络中怎样协同,在机架里怎样部署,在园区里怎样拿电,在客户那里怎样形成成本结构,最终在业务端怎样变成真实产出。

GTC 2026某种程度上,公开验证了这种系统视角。因为当 NVIDIA 自己都开始把叙事中心放到 AI factory上时,行业就已经在从AI计算芯片中心主义走向计算系统中心主义。

这一点其实非常关键。很多产业会在早期沉迷于部件参数,因为部件参数最容易测,也最容易宣传。可一旦产业进入大规模部署阶段,真正决定胜负的,往往是系统组织能力。今天的 AI 基础设施,已经到了这个阶段。

04 从 Token/W 往下推,光互连的重要性会明显上升

一旦度量体系迁移到系统层,很多过去被视作配套的环节,地位都会提高。

光互连就是其中最典型的一类。

过去讲光互连,行业常用的是光模块视角、通信视角、器件视角:更高带宽、更远传输、更低 pJ/bit、更好的带宽密度、更低插损。这些都对,但这些语言仍然停留在组件、芯片这些子系统层。到了Token/W 的框架里,光互连的价值会变得更直观:它在降低数据搬运的能量代价,提升大规模AI计算系统把电力转化为 token 的能力。

在讲述NVIDIA的光网络产品时,基于光子的CPO相比光模块可实现最高 5 倍能效,同时降低延迟,并支撑更大规模的 AI factories 扩展。

这个说法的重点,就不只是链路更先进,而是系统规模更大、系统能效更高。

从产业逻辑看,这件事很好理解。随着模型越来越大、上下文越来越长、集群越来越大,系统中的很多能耗,并不发生在算术单元上,而发生在数据搬运上,发生在跨芯片、跨板卡、跨机柜、跨POD的通信上。

到了这个阶段,提高 Token/W,已经不能只靠更强 GPU,还需要更高效的互连。

所以,从Token/W的角度看,发展光互连并不是因为它很前沿,而是因为它正在变成大规模AI系统的必要节能手段。

05 光计算比光互连更前沿,但逻辑也开始成立

光计算要比光互连更早期,这一点要实事求是。

通用性、精度、编译器、制造一致性、系统集成,这些问题都还在演进中。可如果把观察边界放到系统层,它的产业意义已经比过去更容易讲清楚。

原因在于,Token/W 关心的是端到端能效。谁能在某一类高频、高密度、可重复映射的计算路径上,把能量消耗明显压下去,谁就有机会在系统层提高 token 产出效率。这个逻辑不要求光计算替代整个 GPU,也不要求它一步到位成为通用计算底座。

它只要求一件事:在某些关键工作负载里,让整套系统的J/token降下来,让固定功率预算下的token产出提上去。

这也是为什么光计算的叙事,需要从单点器件效率转向系统层节能贡献。如果行业只看TOPS/W、MAC/J,它更像实验室故事;但如果行业开始看Token/W,它就有机会进入基础设施讨论。

这个变化,对光计算尤其重要。因为它终于有了一个能和客户、园区、电力、资本开支对话的上层语言。

06 当算力的度量从芯片走向系统光互连与光计算就被推向产业主线

当算力竞争还主要停留在芯片层时,光互连更像 I/O 技术,光计算更像前沿器件探索。

当算力竞争迁移到AI大规模系统级基础设施时,事情就变了。系统效率越来越取决于密集计算能耗、数据搬运、上下文管理、跨节点协同、供电与热管理组织,而这些环节,恰恰是光学最有机会发挥作用的地方。

从 Token/W 的角度看,光互连解决的是每token生成背后的搬运电费;光计算尝试改写的是每个token背后的部分计算电费。二者共同影响的,是整套系统的token产出效率。

这就是它们进入产业主线的根本原因。

更现实一点说,除了芯片产能与供给,未来数据中心和 AI factory 面临的约束,还会包括电网接入、机房散热、园区能耗、机柜功率密度和投产速度。之前国际能源署对AI对能源侧消耗的判断,以及这次NVIDIA对AI factory 的表达,都在指向同一个方向:AI 基础设施正在变成一个用能源来衡量的系统工程。

从这把新的方向往前看,光互连与光计算所解决的,是 AI 时代越来越昂贵、越来越难继续沿用传统电学路径去优化的那部分问题:数据搬运的能量代价,以及高密度计算的单位能耗。

这背后体现的,是一种更完整的系统思维。而这,也是这次 GTC 2026为何会再次着重提到光子与硅光技术产品的原因:

当算力的度量从芯片走向系统,光学就会从先进技术选项,逐步走向值得建设的产业基础设施。

从这个角度讲,CPO与光计算系统,未来非常可期!

写在最后AGI的推进主轴

作者在日常工作中,一直在倡议设立客观可衡量的算力度量标准,也一直在使用Tokens/W的方法来对不同算力芯片的测试进行度量。

回看科技史当内燃机的输出能量与自身重量比重越来越高时,汽车才得以诞生,飞机才可以起飞,火箭才可以升空。

而在AI时代,当AI系统的产出结果(现在是Token)与消耗能量比重越来越高时,智能才会越来越很聪明,AGI才有可能在其中诞生。

这次GTC2026上真正值得记住的,不是英伟达一家公司荣辱黄仁勋是否成为Token之王AI时代新的度量衡明确

更进一步地英伟达、阿里,也许还有很多行业内的巨头,都已经开始意识到,要从系统思维的视角来看待AI产业的发展。

这其实人类文明发展的主轴相一致那就是用更低的能量,采集、传输和处理更多的信息

AGI,也不会例外!

本文来源:腾讯科技

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Comments

We need your insight to fill this gap
Leave a comment