Skip to content
Go back 2505.13326 arXiv logo

Thinking Short and Right Over Thinking Long: Serving LLM Reasoning Efficiently and Accurately

Published:  at  11:10 AM
90.81 🤔

本文提出SART框架,通过冗余采样与早期停止以及两阶段动态修剪方法,显著提升了大型语言模型推理服务的效率(最高28.2倍),同时保持了与基线相近的准确性。

Large Language Model, Reasoning, Efficiency, Test Time, Human-AI Interaction

Yuhang Wang, Youhe Jiang, Bin Cui, Fangcheng Fu

未知机构

Generated by grok-3

Background Problem

大型语言模型(LLM)在推理任务中通过测试时扩展(test-time scaling)技术显著提升了能力,主要包括链式思维(Chain-of-Thought, CoT)推理的顺序扩展和分支采样的并行扩展。然而,这两种扩展方式的结合导致了系统效率的显著下降,具体表现为:1)单个请求的推理延迟因最长分支而延长,许多分支陷入过度思考(over-thinking)困境,生成冗长响应;2)多请求服务时,分支采样增加了内存和计算资源消耗,导致批处理请求数量受限,排队延迟增加。因此,本文旨在解决LLM推理服务中的效率问题,同时保持响应准确性。

Method

本文提出了SART(Short and Right Thinking)框架,旨在通过管理LLM推理过程使其‘短而正确’来提升效率和准确性。具体方法包括:

Experiment

实验基于vLLM框架实现SART,使用Qwen2.5-Math-PRM-7B作为奖励模型,在配备8个NVIDIA H100 GPU的服务器上进行。测试模型包括DeepSeek-R1-Distill-Qwen-14B和DeepSeek-R1-Distill-Llama-70B,数据集为GPQA和GAOKAO(STEM领域推理任务),请求到达率设为1和4请求/秒。基线方法包括Vanilla(无分支采样)、Self-Consistency和Rebase。结果显示:

Further Thoughts

SART框架在效率提升上的表现令人印象深刻,但其对准确性的轻微妥协可能限制其在高风险领域(如医疗或法律推理)的应用。未来可以探索结合其他优化技术,如模型量化和混合精度推理,进一步降低资源消耗。此外,SART的两阶段修剪依赖于PRM的评估能力,若能引入多模型协同评估或自适应调整阈值机制,可能提高修剪的准确性。另一个有趣的方向是与联邦学习结合,探讨如何在分布式环境中优化推理服务效率,尤其是在边缘设备上服务LLM推理时,SART的资源优化策略可能有更大潜力。最后,论文未讨论方法在多语言或多模态任务中的表现,这可能是未来研究的一个重要方向,特别是在多模态推理任务中,分支质量评估可能需要更复杂的奖励模型。



Previous Post
The Effect of Language Diversity When Fine-Tuning Large Language Models for Translation
Next Post
AdaptThink: Reasoning Models Can Learn When to Think