本文提出Fractured Sampling方法,通过在推理轨迹数量、解决方案多样性和推理深度三个维度上进行采样优化,显著提升大型语言模型在长链式推理任务中的成本-性能权衡。
Large Language Model, Reasoning, Efficiency, Inference-Time Scaling, Chain-of-Thought
Baohao Liao, Hanze Dong, Yuhui Xu, Doyen Sahoo, Christof Monz, Junnan Li, Caiming Xiong
University of Amsterdam, Salesforce AI Research
Generated by grok-3
Background Problem
大型语言模型(LLMs)在复杂推理任务中表现出色,尤其是在采用链式推理(Chain-of-Thought, CoT)和长链式推理(Long-CoT)提示方法时,通过生成详细的中间推理步骤显著提升了准确性和鲁棒性。然而,这些方法带来了高昂的计算成本(以token使用量计),特别是在延迟敏感或资源受限的场景中,限制了其实际部署。论文提出了一个核心问题:是否可以在保留长CoT推理优势的同时大幅降低成本?通过观察到截断的CoT轨迹(即在推理完成前停止并直接生成答案)往往能以更少的token达到与完整CoT相当的准确性,作者试图解决推理效率与性能之间的权衡问题。
Method
论文提出了Fractured Sampling,一种统一的推理时策略,通过在以下三个正交维度上进行采样,平衡完整CoT和仅生成解决方案的采样方式:
- 推理轨迹多样性(n):采样多个独立的推理轨迹,使用不同的随机种子。
- 解决方案多样性(m):对每个推理轨迹生成多个最终答案。
- 推理深度多样性(H):在推理轨迹的中间阶段(不同深度)进行采样,截断推理过程并生成答案。
核心思想:通过在推理过程中分解和聚合中间推理步骤,捕捉推理轨迹的时序演变,实现在较低计算成本下的高性能。方法的关键在于利用中间推理状态的多样性,避免过度推理(overthinking),并通过多阶段聚合提高最终预测的一致性和鲁棒性。
具体实现:对于输入提示x和随机种子ε,模型首先生成部分推理轨迹(截至步骤t),然后在每个中间步骤生成候选答案,最终通过聚合所有阶段的预测结果得到最终答案。论文还提出了早期停止(Early Stopping)策略,当某一预测在多个H位置上频繁出现时终止生成,以进一步节省计算资源。
批判性思考:虽然方法在理论上通过多样性下界分析(Diversity Lower Bound)解释了为何中间步骤采样能提高成功率,但其假设(如不同深度失败模式的负相关性)可能在某些任务中不成立。此外,方法对基础模型的CoT能力依赖较大,若模型本身推理能力不足,截断推理可能导致质量下降。
Experiment
实验在五个具有挑战性的数学和科学推理基准数据集(MATH500 Level 5、AIME24、AIME25、AIMO2、GPQA)上进行,使用了多个模型(如DeepSeek-R1系列、Qwen3、Skywork-OR1),并在NVIDIA A100-80GB GPU上基于vLLM框架实现。实验设置包括温度0.6、top p=0.95、最大token数32768,默认采样参数为n=16、H=16、m=4。
实验设计与结果:
- 单维度扩展:在固定token预算下,Fractured Sampling在H维度(推理深度)上的Pass@k指标表现出最陡的log-linear增长,优于n维度(轨迹多样性)和m维度(解决方案多样性),表明分配计算资源到中间步骤采样能带来更高的每token收益。
- 多维度扩展:联合调整H和m维度(n从1到16变化)时,H=16、m=4的配置在大多数任务和模型上表现最佳,显示出多维度协同优化的潜力。
- Best-of-N准确性:使用过程奖励模型(PRM)选择最佳答案时,H=16、m=4配置在去噪后(仅保留最后4个H位置)准确性提升显著(如DS-R1-Qwen-7B从60.4%提升至70.8%),甚至超越更大参数模型。
- 早期停止效率:通过在预测一致性达到阈值时终止生成,节省约20%的token,同时保持或略提升准确性(如DeepScaleR-1.5B-Preview提升2.9%)。
评价与批判:实验设置较为全面,覆盖了多个模型和数据集,验证了方法在推理任务中的有效性。然而,部分数据集样本量较小(如AIMO2仅10个问题),可能影响结果的统计可靠性。此外,PRM在处理长CoT数据时的局限性导致Best-of-N策略效果不稳定,作者虽提出去噪策略(仅保留后期H位置),但未解决根本问题。早期停止策略的准确性提升也不一致,可能是因为早期推理阶段预测质量较低,实验设计未充分优化初始H位置和间隔设置。
Further Thoughts
Fractured Sampling提供了一个有趣的多维度计算资源分配框架,但其实际应用可能需要根据任务特性进行调整。例如,在非数学推理任务(如自然语言推理或情感分析)中,推理轨迹的中间步骤可能不具备类似的负相关失败模式,H维度的优势可能不明显。未来研究可以探索自适应策略,根据任务类型动态调整n、m、H的分配比例。此外,论文中PRM对长CoT数据的适应性问题提示我们,奖励模型的设计可能需要与推理轨迹的长度和复杂性相匹配,或许可以结合分层奖励机制或专门针对长CoT的训练数据进行改进。
另一个值得思考的方向是Fractured Sampling与其他高效推理技术的结合。例如,与推测解码(Speculative Decoding)或KV缓存剪枝(KV Cache Pruning)结合,可能进一步降低推理成本。此外,方法对模型规模的依赖性也值得关注:在较小模型上,截断推理可能导致信息丢失,而在更大模型上效果可能更显著,这提示我们需要在不同规模模型上进一步测试其鲁棒性。总之,Fractured Sampling为推理时计算优化开辟了新思路,但其理论假设和应用范围仍需更广泛验证。