Skip to content
Go back 2502.00592 arXiv logo

M+: Extending MemoryLLM with Scalable Long-Term Memory

Published:  at  11:27 AM
90.20 🤔

M+通过引入长期记忆机制和协同训练的检索器,显著扩展了MemoryLLM的知识保留能力至超过160k token,并在长上下文任务中优于基线,同时保持较低GPU内存消耗。

Large Language Model, Long Context, Representation Learning, Efficiency, Multimodality

Yu Wang, Dmitry Krotov, Yuanzhe Hu, Yifan Gao, Wangchunshu Zhou, Julian McAuley, Dan Gutfreund, Rogerio Feris, Zexue He

UC San Diego, MIT-IBM Watson Lab, IBM Research, Amazon, OPPO

Generated by grok-3

Background Problem

大型语言模型(LLMs)在处理长上下文时面临知识保留的挑战,尤其是现有方法如MemoryLLM在超过20k token后表现下降。M+旨在通过引入长期记忆机制解决这一问题,显著扩展知识保留能力至超过160k token,同时在GPU内存预算内保持高效。

Method

M+基于MemoryLLM构建,通过以下核心方法增强长期记忆能力:

批判性思考:虽然长期记忆机制理论上合理,但随机丢弃token可能导致关键信息丢失,尤其在较短上下文任务中表现不佳。此外,检索器的训练目标基于简单距离度量,可能无法充分捕捉复杂语义关系,导致检索质量有限(实验中仅30% ground-truth token被检索)。

Experiment

M+在多个基准测试上进行了评估,包括长书问答(LongBook-QA)、事件问答(LongBook Event QA)、知识保留任务(SQuAD和NaturalQA)以及较短文档任务(LongBench)。

批判性思考:实验设置较为全面,覆盖了长短上下文任务,但对较短上下文任务表现下降的解释(随机丢弃和有限跨块注意力)缺乏深入分析和改进方案。此外,检索质量(30% ground-truth token被检索)与性能提升之间的因果关系未充分探讨,可能高估了方法的实际效果。延迟问题在实际应用中可能更显著,尤其是在高吞吐量场景下,作者未提供足够解决方案。

Further Thoughts

M+的工作为长上下文建模提供了一个有前景的方向,但其检索机制和随机丢弃策略可能限制了性能的进一步提升。未来的研究可以探索更智能的丢弃策略,例如基于内容重要性或语义相关性的选择,而非随机丢弃,以减少信息丢失。此外,检索器的训练目标可以结合更复杂的语义匹配方法,如基于对比学习的损失函数,以提高检索质量。另一个值得思考的点是,M+的CPU-GPU通信延迟问题可能在分布式系统中进一步放大,特别是在多设备推理场景下,优化这一瓶颈可能需要结合硬件加速或更高效的内存管理技术。跨领域应用也是一个有趣的方向,例如将M+的长期记忆机制应用于多模态任务(如视频理解或长序列时间数据分析),可能需要调整记忆结构以适应不同模态数据的特性。总之,M+提供了一个值得进一步探索的框架,但需要在实际应用场景中验证其鲁棒性和可扩展性。



Previous Post
Recurrent Knowledge Identification and Fusion for Language Model Continual Learning
Next Post
Scalable Fine-tuning from Multiple Data Sources: A First-Order Approximation Approach