📰 资讯2026年5月5日

DeepSeek V4最大遗憾：Engram记忆模块缺席，但后续研究已铺开

V4技术报告未纳入Engram条件记忆模块，但三项后续工作正从系统优化、哈希改进和多模态扩展三个方向推进

DeepSeek V4的技术报告中有mHC、CSA、HCA、Muon、FP4等创新，唯独没有年初与北大联合开源的Engram。Engram是一种条件记忆模块，核心思路是将Transformer中"用昂贵运行时计算重建静态查找表"的苦力活卸载——通过N-gram哈希查找直接取出对应向量，门控机制保证不匹配时自动屏蔽。实验表明，将20%-25%稀疏参数分给Engram时模型loss最低，知识密集型任务提升显著（MMLU+3.4、CMMLU+4.0），推理也意外受益（BBH+5.0），因为早期网络深度被腾出来做更复杂推理。工程上，1000亿参数Engram表可完全卸载到host DRAM，8B-Dense吞吐损失仅2.8%。虽V4未采用，但三个月内已有三个后续工作：北大/阿里云等用CXL内存池化将Engram做成27B和40B规模的真实测试；单作者TaoLin证伪了无冲突哈希优化方向；AutoArk团队将Engram从文本扩展到Stable Diffusion视觉生成，同等效果额外参数仅需LoRA的15%-30%。Engram的理念和后续应用已悄然铺开，为下一代模型打下基础。

发布于 2026年5月5日 · 更新于 2026年5月5日