DeepSeek V4参数量有望达到1.6万亿比预期高60%

Source

距离4月下旬没有几天了，DeepSeek V4大模型的发布牵动人心，昨天该公司研究人员突然更新了DeepGEMM算子库，被视为V4发布的前兆。然而他们显然也预料到了外界的反应，更新之后还额外添加了一个说明，强调这次更新只与DeepGEMM开发相关，跟内部模型发布无关，就是说大家不要多想，这不代表着V4要发了。

不过越是这样声明，越让大家对DeepSeek V4感兴趣了，因为DeepGEMM这波更新的亮点挺多，不可能跟V4大模型没关系。

这次的更新除了支持了FP8_FP4混合算子及优化了对NVIDIA Blackwell的支持之外，架构上升级主要是Mega MoE及HyperConnection，其中Mega MoE有可能会带来MoE架构的一次重磅升级。

Mega MoE的好处很多，网上有不少解释了，Gemini的解析暗示V4的激活专家数量会比V3的256个大幅提升，可能是数千个，如此一来显然会极大地提升V4的性能，同时又维持灵活性，不会对算力和显存有夸张的需求。

更重要的一点，DeepGEMM这次的更新还暗示了V4大模型的参数量，网友表示单层MoE大约是25.37B，如果还是60层，那V4大概率是1.6T的大模型，再不济也是48层1.25T的大模型。

对比之前V4是个1T万亿参数的传闻，1.6T参数量意味着比之前的预期还要高60%，那性能表现就非常值得期待了。

万一1.6T没实现，1.25T参数量也会比当前V3的6700亿参数量翻倍，依然可以期待下表现，毕竟Mega MoE技术再做到数千个激活专家，那绝对是一次蜕变，改变MoE架构大模型发展的里程碑事件。