📰 资讯2026年5月5日
DeepSeek V4最大遗憾:Engram记忆模块缺席,但后续研究已铺开
V4技术报告未纳入Engram条件记忆模块,但三项后续工作正从系统优化、哈希改进和多模态扩展三个方向推进
来源:量子位 · 查看原文 →
DeepSeek V4的技术报告中有mHC、CSA、HCA、Muon、FP4等创新,唯独没有年初与北大联合开源的Engram。Engram是一种条件记忆模块,核心思路是将Transformer中"用昂贵运行时计算重建静态查找表"的苦力活卸载——通过N-gram哈希查找直接取出对应向量,门控机制保证不匹配时自动屏蔽。实验表明,将20%-25%稀疏参数分给Engram时模型loss最低,知识密集型任务提升显著(MMLU+3.4、CMMLU+4.0),推理也意外受益(BBH+5.0),因为早期网络深度被腾出来做更复杂推理。工程上,1000亿参数Engram表可完全卸载到host DRAM,8B-Dense吞吐损失仅2.8%。虽V4未采用,但三个月内已有三个后续工作:北大/阿里云等用CXL内存池化将Engram做成27B和40B规模的真实测试;单作者TaoLin证伪了无冲突哈希优化方向;AutoArk团队将Engram从文本扩展到Stable Diffusion视觉生成,同等效果额外参数仅需LoRA的15%-30%。Engram的理念和后续应用已悄然铺开,为下一代模型打下基础。
发布于 2026年5月5日 · 更新于 2026年5月5日