Fractured Chain-of-Thought Reasoning

本文提出Fractured Sampling方法，通过在推理轨迹数量、解决方案多样性和推理深度三个维度上进行采样优化，显著提升大型语言模型在长链式推理任务中的成本-性能权衡。

Large Language Model, Reasoning, Efficiency, Inference-Time Scaling, Chain-of-Thought

Baohao Liao, Hanze Dong, Yuhui Xu, Doyen Sahoo, Christof Monz, Junnan Li, Caiming Xiong

University of Amsterdam, Salesforce AI Research

Generated by grok-3

Background Problem

大型语言模型（LLMs）在复杂推理任务中表现出色，尤其是在采用链式推理（Chain-of-Thought, CoT）和长链式推理（Long-CoT）提示方法时，通过生成详细的中间推理步骤显著提升了准确性和鲁棒性。然而，这些方法带来了高昂的计算成本（以token使用量计），特别是在延迟敏感或资源受限的场景中，限制了其实际部署。论文提出了一个核心问题：是否可以在保留长CoT推理优势的同时大幅降低成本？通过观察到截断的CoT轨迹（即在推理完成前停止并直接生成答案）往往能以更少的token达到与完整CoT相当的准确性，作者试图解决推理效率与性能之间的权衡问题。

Method

论文提出了Fractured Sampling，一种统一的推理时策略，通过在以下三个正交维度上进行采样，平衡完整CoT和仅生成解决方案的采样方式：

推理轨迹多样性（n）：采样多个独立的推理轨迹，使用不同的随机种子。
解决方案多样性（m）：对每个推理轨迹生成多个最终答案。
推理深度多样性（H）：在推理轨迹的中间阶段（不同深度）进行采样，截断推理过程并生成答案。

核心思想：通过在推理过程中分解和聚合中间推理步骤，捕捉推理轨迹的时序演变，实现在较低计算成本下的高性能。方法的关键在于利用中间推理状态的多样性，避免过度推理（overthinking），并通过多阶段聚合提高最终预测的一致性和鲁棒性。

具体实现：对于输入提示x和随机种子ε，模型首先生成部分推理轨迹 $h_{1:t}^ε$ （截至步骤t），然后在每个中间步骤生成候选答案，最终通过聚合所有阶段的预测结果得到最终答案。论文还提出了早期停止（Early Stopping）策略，当某一预测在多个H位置上频繁出现时终止生成，以进一步节省计算资源。

批判性思考：虽然方法在理论上通过多样性下界分析（Diversity Lower Bound）解释了为何中间步骤采样能提高成功率，但其假设（如不同深度失败模式的负相关性）可能在某些任务中不成立。此外，方法对基础模型的CoT能力依赖较大，若模型本身推理能力不足，截断推理可能导致质量下降。

Experiment

实验在五个具有挑战性的数学和科学推理基准数据集（MATH500 Level 5、AIME24、AIME25、AIMO2、GPQA）上进行，使用了多个模型（如DeepSeek-R1系列、Qwen3、Skywork-OR1），并在NVIDIA A100-80GB GPU上基于vLLM框架实现。实验设置包括温度0.6、top p=0.95、最大token数32768，默认采样参数为n=16、H=16、m=4。

实验设计与结果：

单维度扩展：在固定token预算下，Fractured Sampling在H维度（推理深度）上的Pass@k指标表现出最陡的log-linear增长，优于n维度（轨迹多样性）和m维度（解决方案多样性），表明分配计算资源到中间步骤采样能带来更高的每token收益。
多维度扩展：联合调整H和m维度（n从1到16变化）时，H=16、m=4的配置在大多数任务和模型上表现最佳，显示出多维度协同优化的潜力。
Best-of-N准确性：使用过程奖励模型（PRM）选择最佳答案时，H=16、m=4配置在去噪后（仅保留最后4个H位置）准确性提升显著（如DS-R1-Qwen-7B从60.4%提升至70.8%），甚至超越更大参数模型。
早期停止效率：通过在预测一致性达到阈值时终止生成，节省约20%的token，同时保持或略提升准确性（如DeepScaleR-1.5B-Preview提升2.9%）。

评价与批判：实验设置较为全面，覆盖了多个模型和数据集，验证了方法在推理任务中的有效性。然而，部分数据集样本量较小（如AIMO2仅10个问题），可能影响结果的统计可靠性。此外，PRM在处理长CoT数据时的局限性导致Best-of-N策略效果不稳定，作者虽提出去噪策略（仅保留后期H位置），但未解决根本问题。早期停止策略的准确性提升也不一致，可能是因为早期推理阶段预测质量较低，实验设计未充分优化初始H位置和间隔设置。

Further Thoughts

Fractured Sampling提供了一个有趣的多维度计算资源分配框架，但其实际应用可能需要根据任务特性进行调整。例如，在非数学推理任务（如自然语言推理或情感分析）中，推理轨迹的中间步骤可能不具备类似的负相关失败模式，H维度的优势可能不明显。未来研究可以探索自适应策略，根据任务类型动态调整n、m、H的分配比例。此外，论文中PRM对长CoT数据的适应性问题提示我们，奖励模型的设计可能需要与推理轨迹的长度和复杂性相匹配，或许可以结合分层奖励机制或专门针对长CoT的训练数据进行改进。

另一个值得思考的方向是Fractured Sampling与其他高效推理技术的结合。例如，与推测解码（Speculative Decoding）或KV缓存剪枝（KV Cache Pruning）结合，可能进一步降低推理成本。此外，方法对模型规模的依赖性也值得关注：在较小模型上，截断推理可能导致信息丢失，而在更大模型上效果可能更显著，这提示我们需要在不同规模模型上进一步测试其鲁棒性。总之，Fractured Sampling为推理时计算优化开辟了新思路，但其理论假设和应用范围仍需更广泛验证。