M+: Extending MemoryLLM with Scalable Long-Term Memory

M+通过引入长期记忆机制和协同训练的检索器，显著扩展了MemoryLLM的知识保留能力至超过160k token，并在长上下文任务中优于基线，同时保持较低GPU内存消耗。

Large Language Model, Long Context, Representation Learning, Efficiency, Multimodality

Yu Wang, Dmitry Krotov, Yuanzhe Hu, Yifan Gao, Wangchunshu Zhou, Julian McAuley, Dan Gutfreund, Rogerio Feris, Zexue He

UC San Diego, MIT-IBM Watson Lab, IBM Research, Amazon, OPPO

Generated by grok-3

Background Problem

大型语言模型（LLMs）在处理长上下文时面临知识保留的挑战，尤其是现有方法如MemoryLLM在超过20k token后表现下降。M+旨在通过引入长期记忆机制解决这一问题，显著扩展知识保留能力至超过160k token，同时在GPU内存预算内保持高效。

Method

M+基于MemoryLLM构建，通过以下核心方法增强长期记忆能力：

长期记忆机制（LTM）：将MemoryLLM的短期记忆池（θ）与长期记忆池（Θ）结合。更新过程中，被丢弃的短期记忆token被存储到长期记忆中（最大容量150k token），并按年龄排序以保持时序性；生成过程中，通过检索机制从长期记忆中提取相关token，与短期记忆结合供查询使用。
协同训练的检索器：设计了两个投影器（query projector和key projector），通过双层感知机将隐藏状态映射到低维空间（d/20），并基于点积计算查询与记忆token的相关性。训练目标是最小化查询与无关记忆的距离，同时最大化与相关记忆的距离。
多LoRA设计：在更新和生成过程中分别使用两组LoRA权重，模拟读写分离以提升学习效率。
数据课程设计：训练分为三个阶段，逐步从短文档训练到长上下文建模（4k-64k token），最后引入长期记忆机制，确保模型适应长上下文任务。

批判性思考：虽然长期记忆机制理论上合理，但随机丢弃token可能导致关键信息丢失，尤其在较短上下文任务中表现不佳。此外，检索器的训练目标基于简单距离度量，可能无法充分捕捉复杂语义关系，导致检索质量有限（实验中仅30% ground-truth token被检索）。

Experiment

M+在多个基准测试上进行了评估，包括长书问答（LongBook-QA）、事件问答（LongBook Event QA）、知识保留任务（SQuAD和NaturalQA）以及较短文档任务（LongBench）。

数据集与设置：LongBook-QA和LongBook Event QA测试长上下文理解，平均输入长度达192k token；知识保留任务通过插入干扰上下文测试模型对远距离信息的回忆能力；LongBench用于评估较短上下文（8k-16k token）表现。基线包括Llama-3.1-8B-16k、Llama-3.1-3B-128k、SnapKV等。
结果：M+在长上下文任务上显著优于基线，例如在LongBook-QA中取得最高QA-F1分数，在知识保留任务中将保留能力从MemoryLLM的20k token扩展至超过160k token。然而，在较短上下文任务中，M+在部分数据集（如hotpotqa和musique）表现略逊于Llama-3.1-8B，可能是由于随机丢弃机制导致信息丢失。
GPU成本与延迟：M+通过CPU卸载技术实现了较低的GPU内存消耗（最低17,973.34 MB），但检索过程引入了额外延迟，尤其在较短输入时（128k输入时延迟增加3%）。
消融研究：证明了长期记忆机制对知识保留的显著贡献，且未影响较短文档任务表现；协同训练的检索器优于基于注意力的检索方法。

批判性思考：实验设置较为全面，覆盖了长短上下文任务，但对较短上下文任务表现下降的解释（随机丢弃和有限跨块注意力）缺乏深入分析和改进方案。此外，检索质量（30% ground-truth token被检索）与性能提升之间的因果关系未充分探讨，可能高估了方法的实际效果。延迟问题在实际应用中可能更显著，尤其是在高吞吐量场景下，作者未提供足够解决方案。

Further Thoughts

M+的工作为长上下文建模提供了一个有前景的方向，但其检索机制和随机丢弃策略可能限制了性能的进一步提升。未来的研究可以探索更智能的丢弃策略，例如基于内容重要性或语义相关性的选择，而非随机丢弃，以减少信息丢失。此外，检索器的训练目标可以结合更复杂的语义匹配方法，如基于对比学习的损失函数，以提高检索质量。另一个值得思考的点是，M+的CPU-GPU通信延迟问题可能在分布式系统中进一步放大，特别是在多设备推理场景下，优化这一瓶颈可能需要结合硬件加速或更高效的内存管理技术。跨领域应用也是一个有趣的方向，例如将M+的长期记忆机制应用于多模态任务（如视频理解或长序列时间数据分析），可能需要调整记忆结构以适应不同模态数据的特性。总之，M+提供了一个值得进一步探索的框架，但需要在实际应用场景中验证其鲁棒性和可扩展性。