First Finish Search: Efficient Test-Time Scaling in Large Language Models

本文提出First Finish Search (FFS)，一种无需训练的测试时扩展策略，通过并行解码并选择最先完成的推理轨迹，在推理任务上显著提升大型语言模型准确率（如DeepSeek-R1在AIME数据集达82.23%），同时减少高达45%的令牌使用量。

Large Language Model, Reasoning, Efficiency, Test Time, Multimodality

Aradhye Agarwal, Ayan Sengupta, Tanmoy Chakraborty

Indian Institute of Technology Delhi

Generated by grok-3

Background Problem

大型语言模型（LLMs）在复杂推理任务上表现出色，但随着模型规模的增加，进一步提升性能变得困难且成本高昂。测试时扩展（TTS）作为一种在推理时动态分配计算资源的方法，成为提升模型准确性和一致性的有效途径，尤其在推理密集型任务中。然而，现有的TTS方法（如束搜索、多数投票、预算强制等）往往需要较长的解码路径或大量样本生成，导致令牌使用量和推理延迟增加。论文提出并解决的关键问题是：如何在不增加额外训练的情况下，通过更高效的TTS策略减少计算成本并提升推理任务的准确性。

Method

论文提出了First Finish Search (FFS)，一种无需训练的测试时扩展策略，其核心思想是并行启动n个独立的解码样本，并选择最先完成（即最先生成结束符EOS）的推理轨迹作为最终答案。FFS基于一个经验观察：对于推理任务，较短的推理轨迹更可能是正确的。具体实现分为两种变体：

Sync-FFS（同步FFS）：在单个模型实例上批量处理n个部分序列，每一步为每个序列采样一个令牌，若某个序列生成EOS，则立即返回该序列作为结果，适合集中式服务器或GPU环境。
Async-FFS（异步FFS）：在多个进程或机器上并行启动n个独立解码任务，当任一任务完成时中断其他任务并返回结果，适合分布式环境。 FFS使用束大小为1的随机解码以确保样本多样性，并通过选择最短轨迹来过滤重复或退化的输出。理论分析通过正态分布假设和极值理论进一步支持了较短轨迹更可能正确以及FFS计算成本随样本数增加而降低的结论。 批判性思考：虽然方法设计简洁，但其核心假设（较短轨迹更正确）可能不适用于所有模型或任务，尤其在非推理模型上表现不佳。此外，理论分析依赖正态分布假设，而实际轨迹长度分布可能具有长尾特性，这可能导致理论结果与实际表现存在偏差。

Experiment

实验在四个推理模型（DeepSeek-R1, R1-Distill-Qwen-32B, QwQ-32B, Phi-4-Reasoning-Plus）和一个非推理模型（DeepSeek-V3）上进行，覆盖四个数据集（AIME24, AIME25-I, AIME25-II, GPQA Diamond），这些数据集包含高中数学竞赛问题和研究生级科学问题，任务难度较高。实验对比了FFS与多种基线方法（包括简单解码、束搜索、多数投票、预算强制和Last Finish Search）。

结果：在DeepSeek-R1上，FFS在AIME数据集的平均准确率达到82.23%，比单独模型提升15%，接近OpenAI o4-mini的表现（83.7%），同时令牌使用量减少高达45%（例如在DeepSeek-R1上，FFS总令牌使用量为31.1K，顺序令牌为7.8K，而多数投票为42.2K）。在其他模型上，FFS也通常匹配或优于基线方法，同时保持较低的计算成本。然而，在非推理模型DeepSeek-V3上，FFS表现较差，准确率低于多数投票，表明其适用性依赖于模型的推理能力。
实验设置合理性：实验覆盖了多种模型和数据集，任务选择（数学和科学推理）与研究目标一致，评估指标（准确率、总令牌数、顺序令牌数）也较为全面。然而，样本数n固定为4，缺乏对不同n值影响的系统性分析；此外，数据集规模较小（例如AIME总计60个问题），可能影响结果的统计显著性。
批判性思考：虽然结果显示FFS在推理模型上效果显著，但其在非推理模型上的表现不佳表明方法适用范围有限。此外，实验未充分探讨任务难度或模型规模对’较短轨迹更正确’假设的影响，缺乏对失败案例的深入分析，可能存在选择性报告结果的风险。

Further Thoughts

FFS的简单性和高效性令人印象深刻，尤其是在推理任务中通过选择最短轨迹实现性能提升和计算成本降低的思路，启发我们思考如何在其他领域（如多模态任务或实时交互系统）中应用类似的’早停’策略。然而，其核心假设（较短轨迹更正确）在非推理模型上的失效提示我们需要进一步研究这一现象背后的机制，例如是否与模型的训练目标（如链式推理的监督）或任务特性（如开放性 vs 确定性答案）相关。未来可以探索结合FFS与动态调整样本数或深度解码的混合策略，以适应不同任务难度和模型能力。此外，FFS的并行解码特性与分布式计算环境高度契合，是否能在边缘设备或联邦学习场景中进一步优化其延迟和资源使用，也是一个值得探索的方向。总之，FFS揭示了测试时策略的巨大潜力，但其局限性也提醒我们在追求简单高效的同时，需要更全面地验证方法的普适性和鲁棒性。