SemiAnalysis GTC深度解读:三款新系统背后,英伟达正在重新定义AI基础设施的边界

华尔街见闻03-24

在GTC 2026大会上,英伟达一口气推出三款全新系统——Groq LPX推理机架、Vera ETL256 CPU机架与STX存储参考架构,将其产品版图从GPU算力核心向低延迟推理、CPU编排与存储层全面延伸,标志着英伟达正系统性地重构AI基础设施的定义边界。

其中最受市场关注的是Groq LPX系统。这是英伟达以200亿美元完成对Groq知识产权授权与核心团队引进后,不到四个月内推出的首款产品化成果。

LPX机架将Groq的LP30芯片与英伟达GPU深度整合,并引入"注意力与前馈网络解耦"(Attention FFN Disaggregation,下称AFD)技术,在高交互推理场景中针对性地压缩解码延迟,为大规模推理系统开辟了此前不存在的优化路径。

与此同时,Vera ETL256将256颗CPU塞入单一液冷机架,以铜缆拓扑实现机架内全互联,直接瞄准随AI规模扩张而日益凸显的CPU供给瓶颈;STX则通过标准化存储参考架构,将英伟达的掌控范围从算力层和网络层正式延伸至存储基础设施层。

SemiAnalysis认为,三款系统共同指向同一个战略信号:英伟达不再仅仅是GPU供应商,而是在向全栈AI基础设施平台商演进,其触角已覆盖推理优化、CPU密度、存储编排等此前由其他厂商主导的领域,这将深刻影响整个AI硬件供应链的竞争格局。

LPX与LP30:Groq架构正式融入英伟达推理栈

英伟达与Groq之间的交易在结构上被设计为知识产权授权与人才引进,而非传统并购。英伟达由此几乎即时获得了Groq的全部IP和核心团队,并在不到四个月内推出基于Groq第三代LPU架构的LP30芯片与LPX机架系统。

LP30采用三星SF4工艺,配备500MB片上SRAM,FP8精度下算力为1.2 PFLOPS,相较于Groq第一代LPU(230MB SRAM,750 TFLOPS INT8)实现了大幅提升,性能增长主要由制程节点从GF16迁移至SF4驱动。

LP30以单一整体裸片形式存在,无需先进封装。值得关注的是,SF4工艺不挤占英伟达在台积电N3上的稀缺产能配额,也不消耗同样紧张的HBM资源,因此LPX系统代表的是真正意义上的增量产能与增量收入,据SemiAnalysis指出,这是竞争对手无法复制的差异化优势。

LPU的核心价值与天然局限

LPU架构的竞争优势在于高带宽SRAM与确定性流水线执行机制,这使其在单用户低延迟场景下具备GPU难以企及的首token生成速度。然而,高密度SRAM的代价是容量受限——权重加载后所剩空间极为有限,随批量增大KV Cache迅速饱和,整体吞吐量显著弱于GPU。

据SemiAnalysis分析,独立部署的LPU系统在大规模token服务上并不经济,但在对延迟极度敏感的场景中可获取可观的溢价,这正是LPU在解耦解码系统中的定位基础。

AFD技术:GPU与LPU的角色分工

AFD技术将大模型推理中的注意力计算(Attention)与前馈网络计算(FFN)拆分至不同硬件。注意力计算因涉及动态KV Cache加载,天然适合GPU处理;FFN计算因其无状态、可静态调度的特性,与LPU确定性架构高度契合。

在这一框架下,GPU专注处理注意力计算,HBM容量得以充分释放用于KV Cache,提升系统可并发处理的token总量;LPU则承担FFN计算,发挥其低延迟优势。GPU与LPU之间通过All-to-All集合通信完成token的分发与汇聚,并以乒乓流水线方式隐藏通信延迟。

此外,LPU也可在投机解码(Speculative Decoding)框架中发挥作用,将草稿模型或多token预测(MTP)层部署至LPU,进一步降低单次解码步骤的延迟开销,通常可将每次解码步骤的输出token数提升至1.5至2倍。

LPX机架架构

LPX机架由32个1U LPU计算托盘与2台Spectrum-X交换机构成。每个计算托盘搭载16块LP30、2块Altera FPGA(英伟达称之为"Fabric Expansion Logic")、1颗Intel Granite Rapids主机CPU及1块BlueField-4前端模块。

FPGA在系统中承担多重关键职能:将LPU的C2C协议转换为以太网以接入Spectrum-X规模扩展网络,提供LPU与主机CPU之间的PCIe桥接,并为系统提供每块最高256GB的DDR5扩展内存用于KV Cache存储。整个机架的规模扩展带宽总计约640TB/s。

LPU模块以"腹对腹"方式安装于PCB板两侧,上下各8块,旨在缩短全互联网格所需的X和Y方向走线长度。节点内16块LPU以全互联Mesh拓扑相连,节点间通过铜缆背板互联,跨机架连接则通过前面板OSFP接口实现。

Vera ETL256:256颗CPU的密度极限

随着AI工作负载对数据预处理、调度编排和强化学习验证的需求持续攀升,CPU正成为制约GPU利用率的新瓶颈。强化学习场景尤为突出——CPU需要并行运行仿真环境、执行代码并对输出进行验证。GPU规模的扩张速度远超CPU,使得维持GPU满载所需的CPU集群规模不断扩大。

英伟达的应对方案是Vera ETL256,将256颗Vera CPU集成于单一机架,依赖液冷实现这一密度目标。

该系统的设计逻辑与NVL计算机架一脉相承:将算力密度提升至铜缆可覆盖机架内全部连接的临界点,从而在主干网络层面完全消除光收发器的需求。铜缆带来的成本节约,足以抵消液冷引入的额外开销。

具体而言,Vera ETL机架由32个计算托盘构成,上下各16个,以4个1U MGX ETL交换托盘(基于Spectrum-6)为中轴对称排列。这种对称布局刻意压缩各计算托盘与主干交换托盘之间的线缆长度差异,确保全部连接均处于铜缆可达范围内。

每个交换托盘的后向端口负责机架内铜缆主干通信,32个前向OSFP接口则提供与POD其余节点的光纤连接。机架内网络采用Spectrum-X多平面拓扑,将200 Gb/s通道分布至四台交换机,在单一网络层内实现256颗CPU的全互联以太网连接,每个计算托盘承载8颗Vera CPU。

STX:英伟达向存储层的系统性延伸

STX是英伟达在GTC 2026发布的存储参考机架架构,与此前推出的CMX上下文存储平台配套,共同构成英伟达向存储基础设施层渗透的完整布局。

STX在CMX基础上进一步建立参考架构,精确规定一个集群中需要配置多少磁盘驱动器、Vera CPU、BF-4 DPU、CX-9网卡和Spectrum-X交换机。

每个STX机箱内含2个BF-4单元,合计2颗Vera CPU、4块CX-9网卡和4个SOCAMM模块;整个STX机架共16个机箱,对应32颗Vera CPU、64块CX-9网卡和64个SOCAMM。

英伟达在发布STX的同时罕见地点名一批主要存储厂商——包括DDN、Dell Technologies、HPE、IBM、NetApp、Supermicro及VAST Data等——表示上述厂商均将支持STX标准,延续了英伟达以行业背书强化参考架构话语权的一贯做法。

据SemiAnalysis分析,BlueField-4、CMX与STX的组合,代表英伟达在完成算力层(GPU)与网络层(Spectrum-X及NVLink)的主导地位之后,正在系统性地向存储层、软件层和基础设施运营层推进。

三款新系统合力拓宽了英伟达的产品护城河,也意味着AI基础设施供应链中更大比例的市场份额将持续向英伟达集中。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Comments

We need your insight to fill this gap
Leave a comment