One-shot Entropy Minimization

本文提出一-shot熵最小化（EM）方法，通过仅使用单个无标签数据和10步优化即可显著提升大型语言模型在数学推理任务上的性能，媲美或超越传统强化学习方法。

Large Language Model, Unsupervised Learning, Reasoning, Efficiency, Pre-training

Zitian Gao, Lynx Chen, Joey Zhou, Bryan Dai

Ubiquant

Generated by grok-3

Background Problem

大型语言模型（LLM）的后训练阶段（如强化学习RL）通常需要大量高质量标注数据和精心设计的奖励机制来提升推理能力，这带来了高昂的成本和复杂性。论文提出了一种名为‘一-shot熵最小化（One-shot Entropy Minimization, EM）’的无监督方法，旨在通过极简的数据和训练步骤（仅1个无标签数据和10步优化）实现与RL相当或更优的性能提升，试图解决传统后训练方法在数据和计算资源上的高依赖问题。

Method

论文提出了一种名为‘一-shot熵最小化（EM）’的无监督后训练方法，其核心思想是通过最小化模型在生成过程中的条件熵来增强模型对自身预测的自信度。具体步骤如下：

熵计算：针对输入提示x，计算模型在生成序列y的每个时间步t的条件熵 $H_t = -\sum_{v \in \mathcal{V}} p_{\theta}(v \mid y_{< t}, x) \log p_{\theta}(v \mid y_{< t}, x)$ ，仅对生成的非提示部分进行熵计算。
损失函数：定义EM损失为生成部分熵的平均值 $\mathcal{L}_{\text{EM}}(x;\theta) = \frac{1}{|\mathcal{I}|} \sum_{t \in \mathcal{I}} H_t$ ，通过梯度下降优化模型参数。
数据选择：采用基于方差的数据选择策略，优先选择模型在pass@k准确率上表现出高行为方差的提示，认为这些提示具有最大的熵敏感性，能提供有效的优化信号。

批判性思考：虽然EM方法在理论上通过减少模型不确定性来提升性能，但其假设‘正确答案通常具有较低熵’可能过于简化，未考虑复杂任务中正确答案可能具有高不确定性的情况。此外，论文未充分讨论过度优化熵可能导致的模型过度自信问题，这可能损害模型对未见过数据的泛化能力。

Experiment

实验基于多个数学推理基准（如MATH500、Minerva Math、Olympiad Bench、AMC23）进行，具体设置如下：

数据集与模型：从NuminaMath数据集中选择单个无标签数据作为提示，使用Qwen2.5-Math-7B等多个基础模型进行测试。
训练设置：训练仅10步，学习率为 $2 \times 10^{-5}$ ，温度参数为0.5，批大小为64。
结果：在Qwen2.5-Math-7B模型上，1-shot EM方法在所有基准上均取得显著提升，例如MATH500从53.0提升至78.8（+25.8），平均提升24.7个百分点，接近或超越依赖大规模数据的RL方法。
其他分析：论文还探讨了温度参数、学习率对性能的影响，发现温度0.5和学习率 $2 \times 10^{-5}$ 表现最佳；此外，EM训练后模型的logits分布右偏，被认为是性能提升的关键。

批判性评价：实验结果看似令人印象深刻，但存在几个问题：1）仅使用单个数据点进行训练可能导致结果的高方差和不可靠性，尽管论文提到重复实验16次以减少随机性，但未提供详细的方差数据或置信区间；2）实验未充分对比多数据场景下EM与RL的性能差异，1-shot的成功可能仅适用于特定任务或数据；3）模型性能在10步后下降的现象表明EM可能导致过度自信，论文虽提到这一点，但未提供解决方案或深入分析；4）实验设置缺乏对不同任务类型的广泛验证，数学推理任务可能特别适合EM，但其他领域（如对话、代码生成）可能不适用。总体而言，实验设计不够全面，结果的普适性存疑。

Further Thoughts

尽管论文提出了一种极简且高效的后训练方法，但其对单个数据和极少训练步骤的依赖引发了关于方法稳定性和泛化能力的深刻思考。EM方法通过增强模型自信度来提升性能，但这种自信度是否会演变为过度自信，尤其是在多样化任务或分布外数据上，可能是一个关键问题。未来的研究可以探索EM与监督微调（SFT）或RL的结合方式，例如在SFT后使用EM作为分布整形工具，或者在RL前应用EM以提升初始分布质量。此外，论文中提到的logits右偏现象与模型性能提升的关系值得进一步研究，是否可以通过控制logits分布的偏度来平衡性能与泛化能力？另外，EM方法在数学推理任务上的成功可能与其任务特性（答案通常具有确定性）有关，是否能在开放性任务（如文本生成或对话）中取得类似效果，仍需验证。结合其他领域的研究，例如自监督学习中的对比学习方法，或许可以为EM提供更稳健的优化目标，减少其对单点数据的敏感性。