梁文锋，这一次要掀桌

Source

梁文锋，这一次要掀桌

今天，中国深度求索的DeepSeek-V4人工智能模型“千呼万唤始出来”，一点没让人失望。

所谓“冤家路窄”。几个小时前，OpenAI的GPT5.5刚刚发布，没什么水花——好比开演唱会的汪峰，总是帮忙预告“别的大事发生”。

DeepSeek-V4（上）和OpenAI的GPT5.5（下）

要知道，DeepSeek的两大撒手锏模型，2024年底发布的V3和2025年初发布的R1，以极高推理效率和极低成本，直接掀翻了大模型Scaling Law的桌子，证明“堆算力”绝不是人工智能发展的唯一路径，导致GPU霸主英伟达一天之内市值蒸发6000亿美元，创下美股史上最大单日市值损失纪录。

如果不是后来推理需求替代了训练需求，全球AI算力的“叙事”都得重写，多赚钱的GPU厂商都得迎接寒冬。

一年多后的今天，DeepSeek-V4又来“掀桌”了。

这一次被“掀翻”的，又是谁呢？

掀了“模型性能桌”

今天发布的DeepSeek-V4，两个版本。一个叫Flash，参数少点，是多快好省的日常版，没什么大活儿就用它；一个叫Pro，专家版，参数1.6T，主打专业高性能“服务”。

毕竟其他AI模型的更新“日新月异”，而经历了145天，DeepSeek才发布新模型V4，它到底厉害在哪里？

什么数学推理能力增强、代码输出能力增强、多模态短板补齐、上下文窗口百万词元起步、API价格更低等等，其实都不是关注的重点，它们属于AI模型“正常”的迭代升级。

DeepSeek-V4的两个版本，Flash版和Pro版/图源：DeepSeek

根据官网信息，V4有3大“厉害”的技术要点，真正值得注意。

一是Engram记忆模块。今年1月深度求索发表过创始人梁文锋的署名论文，专门谈这个技术要点。简单说，Engram是一种条件记忆，可以区分静态知识和主动知识，即只要能“查”的就不去“算”，节约算力。

它是要解决传统Transformer架构里，记忆和推理混在一起的问题。以前大模型累得要死，既要用“注意力”去“检索”知识，又得用“注意力”去推理。

而Engrame可以把那些固定的、静态的知识存入到一个类似“字典”的查找表里，使模型能够快速调用，就不用消耗大量算力在那“现算”了。

实际效果是相当不错的，模型的宝贵“注意力”资源释放了，可以专心做组合推理任务。在实验阶段，一个集成270亿参数的Engram的模型，在参数和浮点运算次数同等的条件下，性能超过MoE（混合专家）模型。

DeepSeek表示，DeepSeek-V4-Pro性能比肩顶级闭源模型/图源：DeepSeek

二是mHC，也叫流形约束超连接。梁文锋也在署名论文里介绍过，主要是想解决极深网络训练不稳定的问题。

Transfomer模型就像金字塔，一层摞一层，堆叠得很深的时候，很容易出现梯度爆炸、指令消失、训练崩溃。

这模型就好比一座500层摩天大楼，信号是一层一层传上去的，但如果每层都漏一点信息，等到顶楼时，指令跟噪音差不多了，传得越多错得越多；而且地基容易坏，楼太高，下面支撑不稳定，稍微一点摇晃楼就要塌了。

mHC等于在摩天大楼里装了一个自动稳定电梯。它有数学上的硬约束，“每一层”都有一个阀门，不管传进来是什么信号，一律精准控制在一个固定范围内：既不能让信号太强给电梯增加负担，也不会让信号太弱以至于传丢了。

DeepSeek-V4 和 DeepSeek-V3.2 的计算量和显存容量随上下文长度的变化/图源：DeepSeek

三是CSA和HCA注意力机制创新。CSA是压缩稀疏注意力，可以看摘要找重点；HCA是高度压缩注意力，看大纲抓主旨。

V4把这两种方法交错使用，一层CSA，一层HCA，就像一个人读书，既粗看目录大纲，又细看了一下各章内容摘要。这两种创新解决了大模型处理长文本的两个短板：卡顿、爆显存。

靠这三个集中的创新点，深度求索掀了“模型性能桌”。据深度求索公司内部评测，V4的编程体验，比Anthropic的Claude Sonnet 4.5强，交付质量接近Opus 4.6非思考模式，比起Opus 4.6思考模式还有些差距。

前几天Opus 4.7也上线了，编程能力是强于4.6思考模式，综合性能全球第一。这样看，V4的性能逼近Opus4.6，也就和“全球第一”差两个月左右。

掀了“GPU垄断桌”

V4还有一个突出的本领——精打细算地榨干了GPU的性能。

4月23日，也就是V4发布的前一天，深度求索发布了开源Tile Kernels模块，使用的是TileLang语言。

TileLang是一个兼具计算机语言和编译器前端/中端的AI算子编程语言，属于领域特定语言（DSL），由北京大学计算机学院团队主导开发，深度求索联合开发，2025年在GitHub上开源。去年9月，DeepSeek的V3.2-Exp模型就使用了这个语言。

开发GPU内核，之前只能靠C++和CUDA。

CUDA是和英伟达绑定的计算平台加编程模型，允许软件开发者利用计算机语言，直接调用GPU中的通用计算资源。目前全球90%以上的AI算力都跑在CUDA架构上。

现在，TileLang抛开CUDA，用Python表达计算逻辑，再交给编译器自动优化，直接改变了GPU优化的方式。

而且，TileLang可以跑在任意一种芯片上。英伟达的可以，寒武纪的可以，华为昇腾也可以——同一套逻辑能够跨硬件执行。

TileLang-Ascend开源社区

深度求索昨天发布的Tile Kernels模块，是利用TileLang的Python接口编写逻辑，然后通过TileLang的编译器，自动生成针对特定硬件优化的底层代码。

其优化GPU的主要办法包括：“瓷片”(Tile）式管理，把计算任务切成固定大小的矩阵，数据搬运整块进、整块出；还可以一边算“这块”，一边搬“下一块”，磨刀不误砍柴工，让GPU的计算状态永远满载，利用率极大拉高。

AI芯片使用的现实情况是，很多国产芯片的纸面算力很高，但实测的有效利用率只有3到4成，而英伟达芯片有CUDA的加持，利用率轻松达到6至7成。

现在，有了处于软件抽象层的Tile Kernels，通过Tile级的微操，国产芯片的有效算力可以真正实现与英伟达同代产品的1比1对齐。

在使用层面，中国顶级AI芯片与英伟达顶级AI芯片的差距会越来越小。

说到底，英伟达的GPU不是唯一选择了，连英伟达的CUDA也不是非用不可了。英伟达的股价，恐怕又得往下走一走了。

掀了“美国AI牌桌”

美国放行英伟达H200已经4个月，而美国商务部长卢特尼克在4月22日表示，中国一块也没买。

核心原因当然有“自力更生”的因素，也因为深度求索等中国公司已经可以挑战英伟达几款更先进的芯片，没有必要买它的“限定版”旧款。

美国本来的算盘是，偶尔小规模放行一下英伟达的旧款芯片，其他芯片禁售、模型禁用，对中国实行一波紧似一波的围追堵截。

而中国芯适配中国模型，已经不算新闻了。

2025年8月DeepSeek-V3.1发布，模型推理端已经稳定支持华为昇腾910系列。今年2月，V4轻量版内测时，业内传出其训练和推理优先向昇腾芯片开放，暂时未向英伟达芯片开放测试权限。

DeepSeek-V4-Flash上线华为云/图源：华为

很可能，从训练到推理，V4全栈使用昇腾芯片。在这一过程中，深度求索和华为共同解决了一系列技术难题，如稳定性问题、片间互联问题、软件工具问题，因此V4花的时间也比较长。

未来，V4模型明确支持华为昇腾950。昇腾950将于今年下半年推出，面向大模型训练和推理，是昇腾910C的升级版，据悉采用全新架构，将是当下国内唯一商用、明确支持FP4低精度推理的AI加速卡，搭载华为自研国产HBM芯片。

其次，深度求索的创新，几乎是逆潮流而行的，和美国的路数不一样。主流的创新，都是不断优化模型架构，如MoE、长上下文等等；而深度求索琢磨的是GPU内核。

而越往GPU内核走，对工程能力的要求越高。特别是Tile Kernels的意义，绝不能仅视其为算子集合，它是一套性能工程。

深度求索这样的世界顶级团队，可以通过这一做法获得数倍的效率提升，但其他团队只能依赖框架优化等办法、甚至无法判断硬件性能瓶颈在哪里。

芯片的真正瓶颈在于人，而不是代码。V4露了一手“能力上限”，这不是“平均能力”所能达到的。

2025年5月4日，人们在浙江省杭州市文三数字生活街区的AI黑科技市集上体验DeepSeek的人工智能大模型/新华社发（龙巍摄）

最后，看定价，V4依然极具市场竞争力。其中，高性能版的Pro输入价格1元/百万Tokens，输出价格24元/百万Tokens。轻量版的Flash输入价格0.2元/百万Tokens，输出价格2元/百万Tokens。

看看美国竞品“高耸入云”的价格：Claude Opus 4.7，输入价格36.25元/百万Tokens，输出价格181.25元/百万Tokens。今天发布的GPT5.5，输入价格36.25元/百万Tokens，输出价格217.5元/百万Tokens。

靠V3和R1，DeepSeek将训练成本极大拉低；到了V4，推理的成本也被极大拉低。

所以，往深处说，V4的一系列创新，掀了“现有模型性能”“GPU垄断”和“美国AI封堵”这三张牌桌，并改变了全球AI领域的竞争态势：过去总是担心中国AI芯片不够“顶尖”，“落后”的压力随处可见。

从今而后，中国AI模型，可以毫不焦虑地跑在中国AI芯片上了。