Skip to content
Go back 2505.18149 arXiv logo

First Finish Search: Efficient Test-Time Scaling in Large Language Models

Published:  at  11:52 AM
87.92 🤔

本文提出First Finish Search (FFS),一种无需训练的测试时扩展策略,通过并行解码并选择最先完成的推理轨迹,在推理任务上显著提升大型语言模型准确率(如DeepSeek-R1在AIME数据集达82.23%),同时减少高达45%的令牌使用量。

Large Language Model, Reasoning, Efficiency, Test Time, Multimodality

Aradhye Agarwal, Ayan Sengupta, Tanmoy Chakraborty

Indian Institute of Technology Delhi

Generated by grok-3

Background Problem

大型语言模型(LLMs)在复杂推理任务上表现出色,但随着模型规模的增加,进一步提升性能变得困难且成本高昂。测试时扩展(TTS)作为一种在推理时动态分配计算资源的方法,成为提升模型准确性和一致性的有效途径,尤其在推理密集型任务中。然而,现有的TTS方法(如束搜索、多数投票、预算强制等)往往需要较长的解码路径或大量样本生成,导致令牌使用量和推理延迟增加。论文提出并解决的关键问题是:如何在不增加额外训练的情况下,通过更高效的TTS策略减少计算成本并提升推理任务的准确性。

Method

论文提出了First Finish Search (FFS),一种无需训练的测试时扩展策略,其核心思想是并行启动n个独立的解码样本,并选择最先完成(即最先生成结束符EOS)的推理轨迹作为最终答案。FFS基于一个经验观察:对于推理任务,较短的推理轨迹更可能是正确的。具体实现分为两种变体:

Experiment

实验在四个推理模型(DeepSeek-R1, R1-Distill-Qwen-32B, QwQ-32B, Phi-4-Reasoning-Plus)和一个非推理模型(DeepSeek-V3)上进行,覆盖四个数据集(AIME24, AIME25-I, AIME25-II, GPQA Diamond),这些数据集包含高中数学竞赛问题和研究生级科学问题,任务难度较高。实验对比了FFS与多种基线方法(包括简单解码、束搜索、多数投票、预算强制和Last Finish Search)。

Further Thoughts

FFS的简单性和高效性令人印象深刻,尤其是在推理任务中通过选择最短轨迹实现性能提升和计算成本降低的思路,启发我们思考如何在其他领域(如多模态任务或实时交互系统)中应用类似的’早停’策略。然而,其核心假设(较短轨迹更正确)在非推理模型上的失效提示我们需要进一步研究这一现象背后的机制,例如是否与模型的训练目标(如链式推理的监督)或任务特性(如开放性 vs 确定性答案)相关。未来可以探索结合FFS与动态调整样本数或深度解码的混合策略,以适应不同任务难度和模型能力。此外,FFS的并行解码特性与分布式计算环境高度契合,是否能在边缘设备或联邦学习场景中进一步优化其延迟和资源使用,也是一个值得探索的方向。总之,FFS揭示了测试时策略的巨大潜力,但其局限性也提醒我们在追求简单高效的同时,需要更全面地验证方法的普适性和鲁棒性。



Previous Post
Scalable Parameter and Memory Efficient Pretraining for LLM: Recent Algorithmic Advances and Benchmarking
Next Post
MELoRA: Mini-Ensemble Low-Rank Adapters for Parameter-Efficient Fine-Tuning