Simple and Provable Scaling Laws for the Test-Time Compute of Large Language Models

本文提出两种测试时计算扩展算法（淘汰赛式和联赛式），通过生成多个候选解决方案并进行成对比较，在理论上证明其失败概率随计算资源增加呈指数或幂律下降，并在多个数据集和模型上验证了性能提升。

Large Language Model, Efficiency, Test Time, Reasoning, Prediction

Yanxi Chen, Xuchen Pan, Yaliang Li, Bolin Ding, Jingren Zhou

Alibaba Group

Generated by grok-3

Background Problem

大型语言模型（LLMs）尽管在过去几年取得了惊人的进步，但在可靠性和稳定性方面仍面临挑战，尤其是在高风险场景或需要极高成功概率（如99.9%）的任务中，以及在涉及多个子问题的代理工作流中。本文旨在通过增加测试时计算资源，提出实用算法和理论洞察，解决如何提升LLM推理成功概率的问题，特别是在不需要外部验证器或奖励模型的情况下，针对单个输入问题实现接近100%的成功概率。

Method

本文提出了两种两阶段算法来提升LLM的测试时性能：

淘汰赛式算法（Knockout-Style Algorithm）：
- 第一阶段（生成）：并行生成N个候选解决方案，每个解决方案包含推理过程（如通过链式思维提示）。
- 第二阶段（聚合）：通过淘汰赛锦标赛形式进行成对比较，每次比较K次，选择多数胜出的候选者进入下一轮，最终选出胜者作为输出。
- 理论基础：假设LLM生成正确解的概率p_gen>0，且在成对比较中选择正确胜者的概率p_comp>0.5，证明失败概率随N和K增加呈指数或幂律下降。
联赛式算法（League-Style Algorithm）：
- 第一阶段（生成）：同样生成N个候选解决方案。
- 第二阶段（聚合）：每个候选者与随机选择的K个对手进行比较，计算平均胜率，选择胜率最高的候选者作为输出。
- 理论基础：假设存在正确且强的解决方案（概率p_cs>0），其平均胜率与任何错误解决方案的胜率差值Δ>0，证明失败概率随N和K增加呈指数下降。
关键特点与批评：两种算法均仅依赖黑盒LLM，无需外部验证器，实施简洁。然而，假设条件（p_comp>0.5和Δ>0）可能过于理想化，在现实复杂任务中未必成立，尤其当LLM在某些领域知识不足或比较能力有限时。此外，论文未充分探讨如何在实践中估计这些参数（p_gen, p_comp, Δ），这可能限制算法的实际应用。

Experiment

实验在多个数据集（GPQA, MMLU-Pro-S, MATH-500）和模型（Llama3.1-70B, Qwen2.5-72B, Mixed, QwQ-32B, GPT-4o）上验证了两种算法的效果：

设置：使用零-shot链式思维提示生成和比较候选解决方案，温度参数分别为0.5（生成）和0.1（比较），并通过AgentScope框架实现并行计算。评估指标为准确率（正确解决问题的比例）。
结果：
- 淘汰赛式算法：准确率随候选数量N增加而提升，例如Mixed模型在GPQA上的准确率从45%提升至55%（N=64），QwQ-32B从60%提升至72%（N=16）。与多数投票基线相比，淘汰赛式算法在相同N下通常表现更好，尽管计算成本更高。
- 联赛式算法：准确率同样随N增加而提升，Mixed模型在GPQA上从45%提升至53%（N=16），与淘汰赛式算法性能相当，部分情况下略优或略逊。
分析与批评：实验结果验证了理论预测，即在满足假设条件的问题子集上，准确率随计算资源增加显著提升（例如Mixed模型在特定子集上提升25%）。然而，整体提升幅度有限，且在不同数据集和模型上的表现不一致，例如在MMLU-Pro-S的某些类别（如哲学）上，部分模型未见显著提升，可能是因为知识密集型任务中p_comp接近或低于0.5。此外，实验未充分探讨计算成本（例如N和K增加导致的LLM调用次数激增）与性能提升的权衡，未提供在资源受限场景下的优化策略。实验设计合理，覆盖了多样化的模型和数据集，但对假设条件不满足的情况缺乏深入分析，可能高估了方法的普适性。

Further Thoughts

尽管本文提出的两种算法在理论和实验上展示了测试时计算扩展的可行性，但其依赖的假设条件（p_comp>0.5和Δ>0）可能在现实复杂任务中难以满足，尤其是在LLM能力边界或跨领域任务中。进一步思考，是否可以通过结合自精炼或迭代推理等其他测试时策略，进一步降低对假设条件的依赖？此外，论文未探讨的计算成本与性能提升的权衡问题值得深入研究，例如在资源受限的边缘设备上，如何动态调整N和K以实现最优性能？另一个有趣的方向是将这些算法应用于多代理系统或代理工作流中，结合RAG（检索增强生成）技术，通过外部知识库增强LLM的比较能力（p_comp），从而扩展其适用范围。这可能与近期的一些工作相关，例如在多代理协作中利用外部工具提升子任务解决概率的研究，值得进一步探索其协同效应。