Thinking Short and Right Over Thinking Long: Serving LLM Reasoning Efficiently and Accurately

本文提出SART框架，通过冗余采样与早期停止以及两阶段动态修剪方法，显著提升了大型语言模型推理服务的效率（最高28.2倍），同时保持了与基线相近的准确性。

Large Language Model, Reasoning, Efficiency, Test Time, Human-AI Interaction

Yuhang Wang, Youhe Jiang, Bin Cui, Fangcheng Fu

未知机构

Generated by grok-3

Background Problem

大型语言模型（LLM）在推理任务中通过测试时扩展（test-time scaling）技术显著提升了能力，主要包括链式思维（Chain-of-Thought, CoT）推理的顺序扩展和分支采样的并行扩展。然而，这两种扩展方式的结合导致了系统效率的显著下降，具体表现为：1）单个请求的推理延迟因最长分支而延长，许多分支陷入过度思考（over-thinking）困境，生成冗长响应；2）多请求服务时，分支采样增加了内存和计算资源消耗，导致批处理请求数量受限，排队延迟增加。因此，本文旨在解决LLM推理服务中的效率问题，同时保持响应准确性。

Method

本文提出了SART（Short and Right Thinking）框架，旨在通过管理LLM推理过程使其‘短而正确’来提升效率和准确性。具体方法包括：

冗余采样与早期停止：基于响应长度与质量弱相关的观察，SART采样比所需更多的分支（N > M），并在M个分支完成时终止剩余分支，以避免被最长分支拖延推理延迟。理论分析基于顺序统计理论，证明增加N可以减少完成M个响应所需的解码步数。
两阶段动态修剪：为解决分支采样中资源利用率低的问题，SART使用过程奖励模型（PRM）评估分支质量，并通过两阶段方法修剪低质量分支。第一阶段以低阈值α进行探索，仅修剪极低质量分支，并限制最大修剪数量β；第二阶段在首个分支完成后提高阈值至首个完成分支的奖励值α’，加速修剪以释放资源。
调度策略与持续批处理：SART将上述技术与持续批处理结合，通过算法调度分支和请求，优化KV缓存利用，并在分支完成或修剪时立即释放资源。 批判性思考：虽然冗余采样与早期停止的思路直观，但其理论分析依赖于响应长度分布的假设，可能在实际复杂任务中不成立，导致质量下降。两阶段修剪依赖PRM的准确性，若PRM评估偏差，可能错误修剪潜在高质量分支。此外，方法未充分讨论如何适应不同任务难度，可能在某些场景下过于激进地修剪分支。

Experiment

实验基于vLLM框架实现SART，使用Qwen2.5-Math-PRM-7B作为奖励模型，在配备8个NVIDIA H100 GPU的服务器上进行。测试模型包括DeepSeek-R1-Distill-Qwen-14B和DeepSeek-R1-Distill-Llama-70B，数据集为GPQA和GAOKAO（STEM领域推理任务），请求到达率设为1和4请求/秒。基线方法包括Vanilla（无分支采样）、Self-Consistency和Rebase。结果显示：

效率：SART在保持相似准确性时，效率最高提升28.2倍，平均提升15.7倍，尤其在尾部延迟（P97, P99）上表现优于基线，归因于短响应和减少排队时间。
准确性：SART准确性略低于Self-Consistency（差距在1.6%以内），但显著优于Vanilla和Rebase，尤其在N增加时准确性提升明显。
消融研究：冗余采样与早期停止有效缩短响应长度，但增加排队时间；两阶段修剪显著降低排队延迟，整体效率提升，且准确性未受明显影响。
敏感性分析：SART对分支数N（4到8）的选择表现出鲁棒性，但N过大（如8）会导致排队延迟增加，影响整体效率。 批判性思考：实验设置覆盖了不同模型和数据集，较为全面，但请求到达率仅测试了两种场景，未充分模拟高负载情况，可能低估排队延迟问题。此外，准确性提升有限，且低于Self-Consistency，表明方法在质量-效率权衡中偏向效率，可能不适用于对准确性要求极高的任务。PRM的选择和参数设置（如α, β, T）对结果影响较大，但论文未深入探讨其鲁棒性。

Further Thoughts

SART框架在效率提升上的表现令人印象深刻，但其对准确性的轻微妥协可能限制其在高风险领域（如医疗或法律推理）的应用。未来可以探索结合其他优化技术，如模型量化和混合精度推理，进一步降低资源消耗。此外，SART的两阶段修剪依赖于PRM的评估能力，若能引入多模型协同评估或自适应调整阈值机制，可能提高修剪的准确性。另一个有趣的方向是与联邦学习结合，探讨如何在分布式环境中优化推理服务效率，尤其是在边缘设备上服务LLM推理时，SART的资源优化策略可能有更大潜力。最后，论文未讨论方法在多语言或多模态任务中的表现，这可能是未来研究的一个重要方向，特别是在多模态推理任务中，分支质量评估可能需要更复杂的奖励模型。