LZ Penalty: An information-theoretic repetition penalty for autoregressive language models

本文提出LZ惩罚方法，基于LZ77压缩算法的码长变化动态调整自回归语言模型的采样分布，在贪婪解码下有效消除退化重复，同时保持推理基准性能。

Large Language Model, Reasoning, Generative AI, Efficiency, Pre-training

Antonio A. Ginart, Naveen Kodali, Jason Lee, Caiming Xiong, Silvio Savarese, John R. Emmons

Salesforce AI Research

Generated by grok-3

Background Problem

近年来，推理模型（Reasoning Models）作为一种大型自回归基础模型，通过在推理时扩展思维链（Chain-of-Thought）序列，在特定领域取得了显著的能力提升。然而，开源推理模型在低温度采样（尤其是贪婪解码，temperature=0）时，采样分布模式容易坍缩为退化重复（Degenerate Repetition），这对下游应用开发者造成了问题，因为缺乏对推理轨迹的确定性控制。现有工业标准惩罚方法（如重复惩罚和频率惩罚）无法有效解决这一问题，甚至可能导致生成质量下降或新的退化循环模式。论文提出了一种新的LZ惩罚方法，旨在在不损失模型能力的前提下，通过基于信息论的压缩技术减少退化重复，并实现确定性生成。

Method

LZ惩罚的核心思想基于预测-压缩对偶性（Prediction-Compression Duality），即语言模型的logits与数据压缩算法的码长（Codelength）存在等价关系。具体方法如下：

基础原理：利用LZ77（特别是LZSS变体）无损压缩算法的滑动窗口匹配技术，计算当前上下文在模拟滑动窗口和缓冲区下的码长变化，作为对语言模型logits的惩罚项。
实现步骤：
1. 对当前上下文序列模拟LZ滑动窗口压缩，计算当前缓冲区和回溯窗口下的码长。
2. 对词汇表中的每个可能的下一个token，计算其加入后引起的码长变化（即边际压缩量 $\Delta|C_{LZ}|$ ）。
3. 将码长变化作为惩罚项，调整语言模型的logits： $\ell_{LM} \gets \ell_{LM} + \alpha \Delta|C_{LZ}|$ ，其中 $\alpha$ 为惩罚强度。
关键特点：LZ惩罚基于n-gram统计而非单token统计，能够根据匹配长度和距离动态调整惩罚强度，对近期重复施加较强惩罚，而对较远重复逐渐减弱，直至超出窗口范围后忽略。这种方法在理论上提取了模型中不易压缩的残余信息，从而避免退化重复。

Experiment

实验主要针对两个开源推理模型（QwQ-32B 和 R1-Distill-14B）在GPQA和AIME推理基准上的表现进行评估，具体设置如下：

数据集与设置：使用GPQA和AIME数据集，最大token限制为24k，top-p设为0.95，top-k设为40。LZ惩罚的超参数固定为惩罚强度 $\alpha=0.15$ ，窗口大小512，缓冲区大小32。实验通过5次运行计算平均准确率和标准差，并使用GPT-4o评判和简单搜索检测退化重复。
基线对比：与工业标准重复惩罚（Repetition Penalty，强度范围1到1.5）和频率惩罚（Frequency Penalty，强度范围0到1.0）进行对比，测试不同温度下的表现。
结果分析：
- LZ惩罚在贪婪解码（temperature=0）下实现了接近零的退化重复率，同时在基准测试中保持了模型准确率，未出现性能损失。
- 相比之下，频率惩罚即使在低强度（如0.1）下也显著失败，特别是在长推理轨迹中，因常见token被过度惩罚导致退化循环；重复惩罚虽略有改善，但低温度下仍有高达4%的退化重复率。
- LZ惩罚的优势在于其基于n-gram的动态惩罚机制，能根据匹配长度和距离自适应调整，而传统方法仅在单token级别操作且无法遗忘历史token。
性能开销：在SGLang参考实现中，LZ惩罚的计算开销极低，在8×H100节点上测试显示，对于32B模型，吞吐量仅下降0.03%，延迟无明显增加。
评价：实验结果与预期一致，证明了LZ惩罚在减少重复和保持性能方面的有效性。然而，超参数选择（例如 $\alpha=0.15$ ）基于有限测试，可能未充分探索最优配置；此外，实验仅限于两个模型和两个数据集，泛化性有待进一步验证。

Further Thoughts

LZ惩罚方法通过引入信息论中的压缩视角，为解决语言模型中的退化重复问题提供了一个新颖的思路，特别是在推理模型的长序列生成中表现出色。然而，我认为其依赖固定大小滑动窗口的机制可能限制了对更长距离依赖关系的捕捉能力，未来可以探索动态窗口大小或结合其他压缩算法（如LZ78的树形字典）来进一步优化。此外，LZ惩罚的计算复杂度虽然在当前实验中表现为低开销，但在更大规模模型或更高并发场景下可能成为瓶颈，值得进一步研究其优化潜力。

从更广泛的视角看，基于压缩的惩罚机制或许不仅适用于语言模型，也可能迁移到其他生成模型领域，例如图像生成中的重复模式抑制或音乐生成中的旋律重复控制，关键在于如何设计适合特定模态的‘压缩’定义。这种跨领域迁移可能需要结合领域特定的信息论框架，但LZ惩罚的成功为这一方向提供了启发。

另外，我联想到近期一些关于模型蒸馏和推理数据泛化性的研究，例如DeepSeek R1的推理数据在不同模型上表现出较强的蒸馏效果，而Qwen系列则更局限于自家模型。是否可以通过调整LZ惩罚的强度或窗口参数，间接影响推理轨迹的可蒸馏性，从而在保护模型知识产权的同时优化生成质量？这可能是一个值得探索的交叉领域问题。