Skip to content
Go back 2505.20643 arXiv logo

Can Past Experience Accelerate LLM Reasoning?

Published:  at  11:16 AM
90.72 🤔

本文提出SpeedupLLM框架,通过自适应计算分配和记忆机制实现LLM推理加速,实验表明计算成本最高可减少56%,尤其在高相似度问题上效果显著。

Large Language Model, Reasoning, Efficiency, Test Time, In-Context Learning

Bo Pan, Liang Zhao

Emory University

Generated by grok-3

Background Problem

大型语言模型(LLMs)在推理任务中表现出色,但增加计算资源以提升性能会导致推理时间显著延长,限制了其在实时应用中的实用性。受人类通过重复经验提高任务效率的启发,本文提出并探索了一个新问题:LLM是否也能通过过去经验加速推理?论文旨在解决两个关键限制:1)现有LLM系统独立处理每个查询,未能利用相似问题间的关联性减少冗余计算;2)测试时计算资源分配静态,无法根据模型对问题的熟悉程度动态调整。

Method

本文提出了SpeedupLLM,一个统一的框架,通过自适应计算分配和记忆机制实现并基准测试LLM推理加速行为。

Experiment

实验围绕三个维度展开:问题相似度(S1至S4,相似度从高到低)、记忆方法(包括无记忆、SFT、上下文学习、多种反思方法)和测试时扩展方法(Best-of-N、Tree-of-Thoughts、Self-Refine、Long CoT)。

Further Thoughts

本文提出的推理加速概念和SpeedupLLM框架为LLM的高效应用开辟了新方向,但其局限性也启发了一些深入思考。首先,记忆机制在低相似度问题上的负面影响提示我们需要探索更智能的记忆选择策略,例如基于语义相似度的动态记忆过滤,以避免无关经验的干扰。其次,上下文窗口限制对文本记忆方法的长期影响值得进一步研究,或许可以结合压缩技术或外部数据库(如RAG系统)来扩展记忆容量。此外,推理速度与准确性的正相关性是一个有趣的现象,可能与心理学中的人类认知自动化理论相关,未来可以探索LLM是否在重复任务中形成了类似人类的‘自动化’机制。最后,本文未涉及多模态任务,而多模态LLM(如处理图像和文本的模型)可能面临更复杂的记忆和计算分配问题,值得后续研究。



Previous Post
Don't Think Longer, Think Wisely: Optimizing Thinking Dynamics for Large Reasoning Models
Next Post
Shallow Preference Signals: Large Language Model Aligns Even Better with Truncated Data?