DeepSeek联合北大提出Engram架构,突破Transformer记忆瓶颈

Source

品玩1月13日讯,据 36氪报道,DeepSeek与北京大学合作发布新论文,由Liang Wenfeng等作者提出“Engram”模块,旨在解决Transformer缺乏原生知识检索能力的核心缺陷。该方法引入“条件记忆”稀疏轴,通过现代化哈希N-gram嵌入,实现近似O(1)时间复杂度的确定性知识查找。

Engram将语言建模中的静态模式(如固定搭配、实体名称)交由可扩展查表模块处理,使主干网络专注组合推理任务。在27B参数规模下,其在等参数、等计算量条件下优于MoE基线。

研究团队发现MoE与Engram之间存在“U型缩放律”,需平衡计算与静态记忆资源配比。该技术有望集成至下一代V4模型,为稀疏大模型开辟新路径。