Skip to content
Go back 2411.19477 arXiv logo

Simple and Provable Scaling Laws for the Test-Time Compute of Large Language Models

Published:  at  11:29 AM
86.09 🤔

本文提出两种测试时计算扩展算法(淘汰赛式和联赛式),通过生成多个候选解决方案并进行成对比较,在理论上证明其失败概率随计算资源增加呈指数或幂律下降,并在多个数据集和模型上验证了性能提升。

Large Language Model, Efficiency, Test Time, Reasoning, Prediction

Yanxi Chen, Xuchen Pan, Yaliang Li, Bolin Ding, Jingren Zhou

Alibaba Group

Generated by grok-3

Background Problem

大型语言模型(LLMs)尽管在过去几年取得了惊人的进步,但在可靠性和稳定性方面仍面临挑战,尤其是在高风险场景或需要极高成功概率(如99.9%)的任务中,以及在涉及多个子问题的代理工作流中。本文旨在通过增加测试时计算资源,提出实用算法和理论洞察,解决如何提升LLM推理成功概率的问题,特别是在不需要外部验证器或奖励模型的情况下,针对单个输入问题实现接近100%的成功概率。

Method

本文提出了两种两阶段算法来提升LLM的测试时性能:

Experiment

实验在多个数据集(GPQA, MMLU-Pro-S, MATH-500)和模型(Llama3.1-70B, Qwen2.5-72B, Mixed, QwQ-32B, GPT-4o)上验证了两种算法的效果:

Further Thoughts

尽管本文提出的两种算法在理论和实验上展示了测试时计算扩展的可行性,但其依赖的假设条件(p_comp>0.5和Δ>0)可能在现实复杂任务中难以满足,尤其是在LLM能力边界或跨领域任务中。进一步思考,是否可以通过结合自精炼或迭代推理等其他测试时策略,进一步降低对假设条件的依赖?此外,论文未探讨的计算成本与性能提升的权衡问题值得深入研究,例如在资源受限的边缘设备上,如何动态调整N和K以实现最优性能?另一个有趣的方向是将这些算法应用于多代理系统或代理工作流中,结合RAG(检索增强生成)技术,通过外部知识库增强LLM的比较能力(p_comp),从而扩展其适用范围。这可能与近期的一些工作相关,例如在多代理协作中利用外部工具提升子任务解决概率的研究,值得进一步探索其协同效应。



Previous Post
ZeroSearch: Incentivize the Search Capability of LLMs without Searching
Next Post
Investigating Task Arithmetic for Zero-Shot Information Retrieval