AI推理如何创造新的内存需求

华尔街见闻06-15

AI推理时代的到来,正在从根本上重塑半导体存储行业的需求格局。随着每个问题的平均输出Token数量以每年超过5倍的速度激增,KV缓存管理与智能体AI部署所带来的内存需求,已成为AI基础设施中最具挑战性、也最具市场潜力的新兴领域。

在2026年6月举行的GTC台北大会上,英伟达创始人兼首席执行官黄仁勋明确指出,"AI的内存系统将彻底变革存储系统",并将内存系统列为AI基础设施中最具挑战性的部分之一。这一判断直接指向两个结构性需求驱动力:一是推理工作负载催生的KV缓存卸载需求,二是智能体AI(Agentic AI)兴起带来的CPU内存需求扩张。

上述趋势对存储产业链的影响已开始显现。英伟达相继推出Dynamo软件平台与CMX上下文内存存储平台,Arm、Intel、AMD等主要芯片厂商亦在2026年密集发布面向智能体AI的新一代CPU产品,行业正加速从以吞吐量为导向的架构向以低延迟为导向的架构转型。

推理侧扩展:Token爆炸式增长重塑硬件需求

AI推理阶段对硬件的要求与训练阶段存在本质差异。

根据英伟达公开数据,自2024年下半年以来,每个问题的平均输出Token数量以每年超过5倍的速度激增,目前已达约30,000至40,000个Token。这一趋势表明,行业已进入英伟达"三大缩放定律"中的推理侧扩展"思考"阶段(Test-time Scaling)。

据TrendForce分析,AI推理对硬件提出三项核心需求:更高的每秒查询率(QPS)、更长的上下文窗口,以及更多的推理步骤和智能体循环。这三项需求分别从不同维度驱动内存需求的结构性变化,具体体现在模型权重、KV缓存与智能体AI三个层面。

模型权重属于静态内存分配,其占用量与模型参数规模直接挂钩,计算公式为:模型权重总大小 = 参数量 × 每个参数的字节数。随着模型规模持续扩大,这一静态占用构成了推理系统内存需求的基础底座。

KV缓存:动态膨胀催生卸载技术与SSD POD新市场

KV缓存是推理阶段内存压力的核心来源。

KV缓存存储推理预填充阶段生成的键值向量,以避免解码阶段的冗余计算,属于动态内存分配。其总大小由层数、KV头数、每个头的维度、序列长度、批处理大小及精度共同决定,随对话长度和批处理规模的增长呈非线性膨胀。

在长上下文、高批处理的推理场景下,当GPU的HBM容量不足时,系统将被迫丢弃KV缓存并重新执行预填充计算,导致延迟上升、总拥有成本(TCO)增加。

为解决这一瓶颈,英伟达于2025年3月发布KV缓存卸载软件Dynamo,将访问频率较低的KV缓存卸载至CPU内存和SSD等容量更大、成本更低的存储层级,确保数据在解码阶段保持可重用性。

与Dynamo配套,英伟达于2026年1月推出CMX上下文内存存储平台(CMX Context Memory Storage Platform),由BlueField-4 DPU管理,基于BlueField-4 STX机架构建,采用64颗BlueField-4 DPU管理每机架约9,600 TB的容量,在本地SSD(G3层)与共享存储(G4层)之间新增G3.5层级的Pod级上下文存储层。

值得关注的是,在COMPUTEX 2026上展示的BlueField-4 DPU结构模型中,已配备SK海力士的PEB210 E1.S和PE9010 M.2 SSD样品。随着英伟达、谷歌等厂商相继推出SSD POD平台,这一细分市场的需求预计将持续攀升。

智能体AI:CPU与GPU比例向1:1重构,LPDRAM需求随之扩张

智能体AI的规模化部署,正在引发AI服务器架构的另一场深层变革。

在AI智能体工作流中,模型需主动执行规划、工具调用、决策及代理操作,所有编排、数据路由与子智能体评估任务均由CPU承担。黄仁勋指出,智能体生活在纳秒级的世界中,超低延迟是首要需求,这使得CPU架构的重要性大幅提升。

TrendForce预计,随着智能体AI部署规模扩大,CPU与GPU的工作负载比例将从传统的1:4或1:8向约1:1转变,为CPU市场创造显著增量空间,并同步带动CPU内存需求的结构性增长。

英伟达于2026年推出专为智能体AI工作负载设计的Vera CPU,根据原始规格,Vera支持高达1.5 TB的LPDDR5X内存容量,是上一代Grace CPU的三倍。

不过,TrendForce最新调查显示,英伟达已决定将下一代Vera Rubin超级芯片模块的SOCAMM内存容量减半,原因在于供应商2027年初步生产计划中分配给英伟达的LPDRAM产能不足,这一调整并不反映英伟达整体内存需求的下降。

在更广泛的CPU市场,2026年正成为面向智能体AI的全面产品换代之年。Intel推出Xeon 6+(Clearwater Forest),AMD发布EPYC Venice,Arm推出Arm AGI CPU,Ampere的AmpereOne MX亦预计于年内进入量产。多路竞争格局的形成,将进一步加速CPU内存需求的释放。

两大驱动力共振,存储产业链迎来结构性机遇

综合来看,AI推理正在从两个相互独立却协同共振的维度重塑内存需求版图。

其一,推理工作负载驱动KV缓存消耗迅速扩大,KV缓存卸载技术将大量数据引流至CPU内存和SSD POD,随着相关平台加速落地,这一细分市场的需求可见度持续提升。

其二,智能体AI正将CPU与GPU的工作负载比例推向1:1,为CPU及其配套LPDRAM创造了此前不曾有过的增量市场空间。

对于存储产业链的投资者而言,上述趋势意味着HBM之外,企业级SSD、LPDRAM及相关DPU配套存储产品正在成为AI基础设施投资的新焦点

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Comments

We need your insight to fill this gap
Leave a comment