DeepSeek V4深度：一次注意力机制的结构性颠覆

华尔街见闻04-24

今天上午10:56，DeepSeek发布V4预览版，同步开源。公告里有一句话：

"从现在开始，1M（一百万）上下文将是DeepSeek所有官方服务的标配。"

OpenAI和Google早就支持超长上下文了。问题是成本。Transformer注意力机制的计算量随序列长度平方增长——序列翻倍，算力变四倍——处理100万token在传统架构下几乎无法商业化。

技术报告给出了这次架构改动的幅度：在1M token场景下，V4-Pro的单token推理FLOPs只有V3.2的27%，KV缓存用量只有10%。

两把刀

标准Transformer的自注意力，要让每个token跟序列里所有其他token算相关性权重。这是平方复杂度，结构性的，不是工程调优能解决的。

过去的应对方式大体分两类：要么切掉计算范围（滑动窗口只看局部邻居，全局感知随之消失），要么绕开长文本本身（RAG先检索再喂给模型，检索质量成为新的上限）。还有固定稀疏注意力，人工设计稀疏模式来跳过部分计算，但模式是死的，不同任务的信息分布差异大，泛化能力有限。

V4的方案是CSA + HCA混合注意力架构。

CSA（Compressed Sparse Attention）解决的是"算什么"。用轻量级索引器先对所有token对做粗筛，快速估算相关性排序，再精选出需要完整计算的token集合。关键在于这套稀疏结构是可训练的——模型在训练过程中自己学出哪里需要高密度注意力，哪里可以稀疏。V3.2时代的DSA是雏形，V4在此基础上做了进一步演化。

HCA（Heavily Compressed Attention）解决的是"存什么"。在V3时代MLA（Multi-head Latent Attention）的基础上继续推进，把KV向量映射到低维潜空间，推理时解压。叠上FP4+FP8混合精度——MoE专家参数用FP4，其余用FP8——KV缓存的显存占用再砍一半。

两者叠加的效果，直接体现在那两个数字：27%的FLOPs，10%的KV缓存。换算过来，同等算力下能服务的长上下文并发量大约是原来的3到4倍。

技术报告里还有两个细节值得记一下。mHC（Manifold-Constrained Hyper-Connections）对残差连接做了流形约束强化，针对的是1.6T参数超深度模型训练时跨层信号衰减的问题。Muon优化器替代了Adam系列，基于矩阵正交化更新，在超大规模训练里收敛更快，更稳定——Adam在大模型训练里几乎是默认配置，DeepSeek这次换掉了它。

数字

官方给出了与Claude Opus 4.6、GPT-5.4 xHigh、Gemini 3.1 Pro High的全维度横评。

数学和竞赛推理是V4-Pro表现最突出的维度。Codeforces评分3206，四家最高（GPT-5.4是3168，Gemini和V4-Flash都是3052）。Apex Shortlist 90.2，超过Opus 4.6（85.9）、GPT-5.4（78.1）、Gemini（89.1）。IMOAnswerBench 89.8，仅次于GPT-5.4（91.4）。

Agent能力上，SWE Verified 80.6，Opus 4.6是80.8。Toolathlon 51.8，Opus 4.6是47.2，GPT-5.4是54.6。公告里有一句内部评价：V4已成为员工Agentic Coding的主力模型，"使用体验优于Sonnet 4.5，交付质量接近Opus 4.6非思考模式"。

长上下文测评有两个数字要对比着看：MRCR 1M（长文本关键信息检索）83.5，Gemini是76.3，Opus 4.6是92.9。CorpusQA 1M（长文档精准问答）62.0，Opus 4.6是71.7。MRCR侧重检测关键信息是否存在，CorpusQA要在百万token里精准定位并综合分析——两个测评的分化放在一起，说明的东西自然清楚。

综合知识和科学前沿推理：SimpleQA-Verified 57.9，Gemini是75.6。HLE（前沿科学推理超难题集）37.7，四家里最低。

V4-Flash：284B总参数，13B激活，约为Pro版18%的体量，同样支持1M上下文和Think/Think Max推理模式。官方说简单Agent任务上与Pro"旗鼓相当"。

DeepSeek把这次发布叫"预览版"，技术报告标题里写的是"Towards"——朝向，还在路上。CSA和HCA的设计逻辑今天已经公开，稀疏训练机制在不同任务分布下怎么表现，是接下来开源社区会告诉我们的事。

数据来源：DeepSeek官方公告《DeepSeek-V4 预览版：迈入百万上下文普惠时代》（2026年4月24日）；技术报告 DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

DeepSeek V4深度：一次注意力机制的结构性颠覆

两把刀

数字

Comments