The Unreasonable Effectiveness of Entropy Minimization in LLM Reasoning

本文通过熵最小化提出三种无监督方法（EM-FT, EM-RL, EM-INF），显著提升了大型语言模型在数学、物理和编码推理任务上的表现，无需标注数据且在某些情况下超越了传统监督方法和前沿模型。

Large Language Model, Reinforcement Learning, Reasoning, Efficiency, Pre-training

Shivam Agarwal, Zimin Zhang, Lifan Yuan, Jiawei Han, Hao Peng

University of Illinois Urbana-Champaign

Generated by grok-3

Background Problem

大型语言模型（LLMs）在预训练阶段已通过海量数据获得了强大的潜在推理能力，但如何在无需标注数据的情况下进一步提升其在数学、物理和编码等复杂推理任务上的表现仍是一个挑战。本文从熵最小化（Entropy Minimization, EM）的视角出发，基于模型高置信度输出更可能正确的假设，探索了通过减少模型输出分布的不确定性来增强推理能力的方法，旨在解决传统后训练方法对标注数据的依赖问题。

Method

本文提出了三种基于熵最小化的方法来提升LLMs的推理能力：

EM-FT（无监督微调）：通过直接最小化模型在无标注输出上的token级熵（即减少每个生成步骤的概率分布不确定性），类似于监督微调但无需标签数据，目标是强化模型对高置信度输出的倾向。
EM-RL（强化学习）：使用负熵作为唯一的奖励信号，通过强化学习优化模型策略，分为序列级（EM-RL-sequence）和token级（EM-RL-token）两种熵估计方式，前者关注整体轨迹概率，后者关注每步的确定性，旨在通过奖励机制减少不确定性。
EM-INF（推理时逻辑调整）：在推理时通过梯度下降优化模型输出的logits以最小化熵，不更新模型参数，仅调整输出分布，并设置最小熵阈值以避免过度优化，适用于在线适应复杂任务。 批判性思考：虽然方法设计新颖，但其核心假设（模型置信度与正确性相关）可能在某些任务或模型上不成立，尤其是在预训练能力不足的情况下。此外，EM-INF的logit优化步骤虽然计算开销较小，但其对复杂任务的适应性可能受限于简单的熵阈值设计，缺乏对不同任务动态调整的机制。

Experiment

实验在数学（Math-500, AMC, AIME, Minerva, Olympiad Bench）、编码（LeetCode, LiveCodeBench-v2）和科学任务（SciCode, UGPhysics）上展开，使用Qwen-2.5-7B/32B和Llama-3.1-8B作为基础模型，训练数据包括35K数学和25K编码无标注提示词，基线方法包括监督微调（SFT）、RLOO、GRPO和自一致性（Self-Consistency）。

结果：EM-FT在无标注数据上平均提升了8%的性能，在Minerva和LeetCode上甚至优于需要标注数据的GRPO和RLOO；EM-RL在数学和编码任务上与RLOO和GRPO表现相当，在某些任务（如AMC, LeetCode）上平均提升4.5%；EM-INF在推理时提升了约3%的性能，在SciCode上使Qwen-2.5-32B超越了GPT-4o等前沿模型，同时计算效率比自一致性高3倍。
分析与批判：实验设置较为全面，覆盖了多种任务和模型，但结果高度依赖于Qwen系列模型的预训练能力，在Llama-3.1-8B上的提升有限，表明方法对基础模型能力敏感。此外，任务分布与预训练数据的匹配性未被充分探讨，可能导致结果偏向于某些特定领域（如数学和编码），对其他任务（如价值观对齐）的适用性较差。SciCode上的优异表现令人印象深刻，但是否具有普适性仍需在更多复杂任务上验证。

Further Thoughts

熵最小化作为一种无监督方法，为挖掘预训练模型的潜在推理能力提供了一个新颖视角，但其对基础模型能力和任务分布的依赖性提示我们需要在更广泛的模型和任务上测试其鲁棒性。未来研究可以探索如何结合自适应熵阈值或任务特定调整机制来增强EM-INF的普适性。此外，熵最小化是否能与其他无监督方法（如自训练或对比学习）结合，以进一步减少对预训练能力的依赖，也是一个值得探索的方向。另一个有趣的联系是与领域适应（Domain Adaptation）的研究，熵最小化在领域适应中已被用作正则化手段，是否能借鉴其思想来解决LLMs在新任务上的分布偏移问题，或许能为跨领域推理提供新的解决方案。