Latent Principle Discovery for Language Model Self-Improvement

本文提出STaPLe算法，通过Monte Carlo EM方法自动化发现和学习语言模型自我改进的潜在原则，在多个指令跟随基准上显著提升小型模型性能，同时通过聚类生成人类可解释的宪法。

Large Language Model, Self-Supervised Learning, Reasoning, Alignment, Instruction Tuning

Keshav Ramji, Tahira Naseem, Ramón Fernandez Astudillo

IBM Research AI

Generated by grok-3

Background Problem

现代语言模型（LMs）在开放性生成任务中表现出色，但如何引导其满足多重且可能重叠的人类定义标准仍是一个核心挑战。传统方法依赖人工标注来区分生成内容的优劣，或通过静态的‘宪法’（Constitution）来指导模型行为，但这些方法在面对新用例和失败模式时显得脆弱且适应性有限，人工更新规则成本高昂。本文旨在自动化发现用于模型自我改进的潜在属性（原则），以减少对人工干预和显式领域适应的需求，解决如何在无需大量标注的情况下提升模型生成质量的问题。

Method

本文提出了STaPLe（Self-Taught Principle Learning）算法，基于Monte Carlo EM框架，通过以下步骤实现语言模型的自我改进：

核心思想：将原则视为潜在推理轨迹（Latent Reasoning Traces），通过模型自身生成和学习这些原则，在自我校正的设置中弥合初始响应与目标响应之间的差距。
实现步骤：1）原则发现阶段（E-step）：通过拒绝采样从模型的后验分布中抽取候选原则和对应的改进响应，利用金标准响应作为‘提示’来指导原则生成，并基于相似性度量（如Rouge-L F1）选择最接近目标的响应；2）原则学习阶段（M-step）：对收集到的原则增强数据集进行监督微调，训练模型以条件化于输入和原则生成高质量响应；3）后验正则化与聚类：通过层次聚类压缩发现的原则集合，形成人类可解释的‘宪法’（Constitution），并用聚类代表元素替换原始原则。
关键点：方法不依赖外部强模型监督，而是利用模型自身的生成能力，迭代执行E-step和M-step以实现增量改进。然而，我对方法在开放性任务中的有效性持保留态度，因为相似性度量可能无法完全捕捉语义改进，且缺乏对原则生成方向的显式约束可能导致与人类偏好不一致。

Experiment

实验在多个指令跟随基准数据集上验证了STaPLe算法的效果：

数据集与设置：使用包含100k样本的混合领域语料库（包括Anthropic HH-RLHF、UltraFeedback等），在三个小型语言模型（Llama-3.1-8B、Granite-3.1-8B、Qwen2.5-7B）上进行测试。实验分为多轮迭代，第1轮使用50k样本，后续每轮10k样本，确保输入提示未见过。评估指标包括MT-Bench、AlpacaEval-2.0和IFEval上的原则遵循胜率。
结果：STaPLe在所有模型和基准上均优于基线（如Self-Refine、STaR），MT-Bench平均分提升+0.11，AlpacaEval胜率提升+5.3-7%，IFEval原则遵循胜率提升+5-6.6%。迭代改进在第3轮达到显著效果，第4轮后部分模型（如Llama-8B）出现饱和或轻微下降。聚类版本（Constrained STaPLe）在性能上接近甚至略优于未聚类版本，同时提高了原则的可解释性。
分析与问题：实验设置较为全面，涵盖了多模型和多基准，但相似性度量（Rouge-L F1）可能偏向表面匹配，未能充分反映语义改进。此外，迭代饱和现象表明方法可能存在内在局限，未能持续提升模型能力。实验缺乏对原则生成质量的深入分析，难以判断其是否真正符合人类偏好。

Further Thoughts

STaPLe算法提供了一个有趣的视角，即通过模型自生成原则实现自我改进，减少对人工标注的依赖。然而，我认为其方法在开放性任务中的应用可能面临挑战，尤其是在缺乏可验证参考答案的情况下，如何确保原则与人类价值观对齐仍是一个未解问题。未来可以探索结合人类反馈（如RLHF）与自动化原则发现的混合方法，以在自主性和对齐性之间取得平衡。此外，论文中提到的迭代饱和现象让我联想到其他自我改进工作（如SPIN），它们同样面临性能瓶颈问题，这可能指向一个更广泛的研究方向：语言模型的内在能力提升是否受到架构或数据分布的根本限制？进一步研究可以聚焦于设计任务感知的STaPLe变体，或探索原则的组合性在多轮校正中的作用，以挖掘更深层次的改进潜力。