Skip to content
Go back 2504.20131 arXiv logo

LZ Penalty: An information-theoretic repetition penalty for autoregressive language models

Published:  at  11:19 PM
67.26 🤔

本文提出LZ惩罚方法,基于LZ77压缩算法的码长变化动态调整自回归语言模型的采样分布,在贪婪解码下有效消除退化重复,同时保持推理基准性能。

Large Language Model, Reasoning, Generative AI, Efficiency, Pre-training

Antonio A. Ginart, Naveen Kodali, Jason Lee, Caiming Xiong, Silvio Savarese, John R. Emmons

Salesforce AI Research

Generated by grok-3

Background Problem

近年来,推理模型(Reasoning Models)作为一种大型自回归基础模型,通过在推理时扩展思维链(Chain-of-Thought)序列,在特定领域取得了显著的能力提升。然而,开源推理模型在低温度采样(尤其是贪婪解码,temperature=0)时,采样分布模式容易坍缩为退化重复(Degenerate Repetition),这对下游应用开发者造成了问题,因为缺乏对推理轨迹的确定性控制。现有工业标准惩罚方法(如重复惩罚和频率惩罚)无法有效解决这一问题,甚至可能导致生成质量下降或新的退化循环模式。论文提出了一种新的LZ惩罚方法,旨在在不损失模型能力的前提下,通过基于信息论的压缩技术减少退化重复,并实现确定性生成。

Method

LZ惩罚的核心思想基于预测-压缩对偶性(Prediction-Compression Duality),即语言模型的logits与数据压缩算法的码长(Codelength)存在等价关系。具体方法如下:

Experiment

实验主要针对两个开源推理模型(QwQ-32B 和 R1-Distill-14B)在GPQA和AIME推理基准上的表现进行评估,具体设置如下:

Further Thoughts

LZ惩罚方法通过引入信息论中的压缩视角,为解决语言模型中的退化重复问题提供了一个新颖的思路,特别是在推理模型的长序列生成中表现出色。然而,我认为其依赖固定大小滑动窗口的机制可能限制了对更长距离依赖关系的捕捉能力,未来可以探索动态窗口大小或结合其他压缩算法(如LZ78的树形字典)来进一步优化。此外,LZ惩罚的计算复杂度虽然在当前实验中表现为低开销,但在更大规模模型或更高并发场景下可能成为瓶颈,值得进一步研究其优化潜力。

从更广泛的视角看,基于压缩的惩罚机制或许不仅适用于语言模型,也可能迁移到其他生成模型领域,例如图像生成中的重复模式抑制或音乐生成中的旋律重复控制,关键在于如何设计适合特定模态的‘压缩’定义。这种跨领域迁移可能需要结合领域特定的信息论框架,但LZ惩罚的成功为这一方向提供了启发。

另外,我联想到近期一些关于模型蒸馏和推理数据泛化性的研究,例如DeepSeek R1的推理数据在不同模型上表现出较强的蒸馏效果,而Qwen系列则更局限于自家模型。是否可以通过调整LZ惩罚的强度或窗口参数,间接影响推理轨迹的可蒸馏性,从而在保护模型知识产权的同时优化生成质量?这可能是一个值得探索的交叉领域问题。



Previous Post
Extracting and Transferring Abilities For Building Multi-lingual Ability-enhanced Large Language Models
Next Post
Small or Large? Zero-Shot or Finetuned? Guiding Language Model Choice for Specialized Applications in Healthcare