Skip to content
Go back 2505.20282 arXiv logo

One-shot Entropy Minimization

Published:  at  11:33 AM
89.83 🤔

本文提出一-shot熵最小化(EM)方法,通过仅使用单个无标签数据和10步优化即可显著提升大型语言模型在数学推理任务上的性能,媲美或超越传统强化学习方法。

Large Language Model, Unsupervised Learning, Reasoning, Efficiency, Pre-training

Zitian Gao, Lynx Chen, Joey Zhou, Bryan Dai

Ubiquant

Generated by grok-3

Background Problem

大型语言模型(LLM)的后训练阶段(如强化学习RL)通常需要大量高质量标注数据和精心设计的奖励机制来提升推理能力,这带来了高昂的成本和复杂性。论文提出了一种名为‘一-shot熵最小化(One-shot Entropy Minimization, EM)’的无监督方法,旨在通过极简的数据和训练步骤(仅1个无标签数据和10步优化)实现与RL相当或更优的性能提升,试图解决传统后训练方法在数据和计算资源上的高依赖问题。

Method

论文提出了一种名为‘一-shot熵最小化(EM)’的无监督后训练方法,其核心思想是通过最小化模型在生成过程中的条件熵来增强模型对自身预测的自信度。具体步骤如下:

批判性思考:虽然EM方法在理论上通过减少模型不确定性来提升性能,但其假设‘正确答案通常具有较低熵’可能过于简化,未考虑复杂任务中正确答案可能具有高不确定性的情况。此外,论文未充分讨论过度优化熵可能导致的模型过度自信问题,这可能损害模型对未见过数据的泛化能力。

Experiment

实验基于多个数学推理基准(如MATH500、Minerva Math、Olympiad Bench、AMC23)进行,具体设置如下:

批判性评价:实验结果看似令人印象深刻,但存在几个问题:1)仅使用单个数据点进行训练可能导致结果的高方差和不可靠性,尽管论文提到重复实验16次以减少随机性,但未提供详细的方差数据或置信区间;2)实验未充分对比多数据场景下EM与RL的性能差异,1-shot的成功可能仅适用于特定任务或数据;3)模型性能在10步后下降的现象表明EM可能导致过度自信,论文虽提到这一点,但未提供解决方案或深入分析;4)实验设置缺乏对不同任务类型的广泛验证,数学推理任务可能特别适合EM,但其他领域(如对话、代码生成)可能不适用。总体而言,实验设计不够全面,结果的普适性存疑。

Further Thoughts

尽管论文提出了一种极简且高效的后训练方法,但其对单个数据和极少训练步骤的依赖引发了关于方法稳定性和泛化能力的深刻思考。EM方法通过增强模型自信度来提升性能,但这种自信度是否会演变为过度自信,尤其是在多样化任务或分布外数据上,可能是一个关键问题。未来的研究可以探索EM与监督微调(SFT)或RL的结合方式,例如在SFT后使用EM作为分布整形工具,或者在RL前应用EM以提升初始分布质量。此外,论文中提到的logits右偏现象与模型性能提升的关系值得进一步研究,是否可以通过控制logits分布的偏度来平衡性能与泛化能力?另外,EM方法在数学推理任务上的成功可能与其任务特性(答案通常具有确定性)有关,是否能在开放性任务(如文本生成或对话)中取得类似效果,仍需验证。结合其他领域的研究,例如自监督学习中的对比学习方法,或许可以为EM提供更稳健的优化目标,减少其对单点数据的敏感性。



Previous Post
How much do language models memorize?
Next Post
Harnessing Negative Signals: Reinforcement Distillation from Teacher Data for LLM Reasoning