Skip to content
Go back 2505.12992 arXiv logo

Fractured Chain-of-Thought Reasoning

Published:  at  11:11 AM
86.28 🤔

本文提出Fractured Sampling方法,通过在推理轨迹数量、解决方案多样性和推理深度三个维度上进行采样优化,显著提升大型语言模型在长链式推理任务中的成本-性能权衡。

Large Language Model, Reasoning, Efficiency, Inference-Time Scaling, Chain-of-Thought

Baohao Liao, Hanze Dong, Yuhui Xu, Doyen Sahoo, Christof Monz, Junnan Li, Caiming Xiong

University of Amsterdam, Salesforce AI Research

Generated by grok-3

Background Problem

大型语言模型(LLMs)在复杂推理任务中表现出色,尤其是在采用链式推理(Chain-of-Thought, CoT)和长链式推理(Long-CoT)提示方法时,通过生成详细的中间推理步骤显著提升了准确性和鲁棒性。然而,这些方法带来了高昂的计算成本(以token使用量计),特别是在延迟敏感或资源受限的场景中,限制了其实际部署。论文提出了一个核心问题:是否可以在保留长CoT推理优势的同时大幅降低成本?通过观察到截断的CoT轨迹(即在推理完成前停止并直接生成答案)往往能以更少的token达到与完整CoT相当的准确性,作者试图解决推理效率与性能之间的权衡问题。

Method

论文提出了Fractured Sampling,一种统一的推理时策略,通过在以下三个正交维度上进行采样,平衡完整CoT和仅生成解决方案的采样方式:

核心思想:通过在推理过程中分解和聚合中间推理步骤,捕捉推理轨迹的时序演变,实现在较低计算成本下的高性能。方法的关键在于利用中间推理状态的多样性,避免过度推理(overthinking),并通过多阶段聚合提高最终预测的一致性和鲁棒性。

具体实现:对于输入提示x和随机种子ε,模型首先生成部分推理轨迹h1:tεh_{1:t}^ε(截至步骤t),然后在每个中间步骤生成候选答案,最终通过聚合所有阶段的预测结果得到最终答案。论文还提出了早期停止(Early Stopping)策略,当某一预测在多个H位置上频繁出现时终止生成,以进一步节省计算资源。

批判性思考:虽然方法在理论上通过多样性下界分析(Diversity Lower Bound)解释了为何中间步骤采样能提高成功率,但其假设(如不同深度失败模式的负相关性)可能在某些任务中不成立。此外,方法对基础模型的CoT能力依赖较大,若模型本身推理能力不足,截断推理可能导致质量下降。

Experiment

实验在五个具有挑战性的数学和科学推理基准数据集(MATH500 Level 5、AIME24、AIME25、AIMO2、GPQA)上进行,使用了多个模型(如DeepSeek-R1系列、Qwen3、Skywork-OR1),并在NVIDIA A100-80GB GPU上基于vLLM框架实现。实验设置包括温度0.6、top p=0.95、最大token数32768,默认采样参数为n=16、H=16、m=4。

实验设计与结果

评价与批判:实验设置较为全面,覆盖了多个模型和数据集,验证了方法在推理任务中的有效性。然而,部分数据集样本量较小(如AIMO2仅10个问题),可能影响结果的统计可靠性。此外,PRM在处理长CoT数据时的局限性导致Best-of-N策略效果不稳定,作者虽提出去噪策略(仅保留后期H位置),但未解决根本问题。早期停止策略的准确性提升也不一致,可能是因为早期推理阶段预测质量较低,实验设计未充分优化初始H位置和间隔设置。

Further Thoughts

Fractured Sampling提供了一个有趣的多维度计算资源分配框架,但其实际应用可能需要根据任务特性进行调整。例如,在非数学推理任务(如自然语言推理或情感分析)中,推理轨迹的中间步骤可能不具备类似的负相关失败模式,H维度的优势可能不明显。未来研究可以探索自适应策略,根据任务类型动态调整n、m、H的分配比例。此外,论文中PRM对长CoT数据的适应性问题提示我们,奖励模型的设计可能需要与推理轨迹的长度和复杂性相匹配,或许可以结合分层奖励机制或专门针对长CoT的训练数据进行改进。

另一个值得思考的方向是Fractured Sampling与其他高效推理技术的结合。例如,与推测解码(Speculative Decoding)或KV缓存剪枝(KV Cache Pruning)结合,可能进一步降低推理成本。此外,方法对模型规模的依赖性也值得关注:在较小模型上,截断推理可能导致信息丢失,而在更大模型上效果可能更显著,这提示我们需要在不同规模模型上进一步测试其鲁棒性。总之,Fractured Sampling为推理时计算优化开辟了新思路,但其理论假设和应用范围仍需更广泛验证。



Previous Post
Divide-Fuse-Conquer: Eliciting "Aha Moments" in Multi-Scenario Games
Next Post
Toward Evaluative Thinking: Meta Policy Optimization with Evolving Reward Models