Self-Reasoning Language Models: Unfold Hidden Reasoning Chains with Few Reasoning Catalyst

本文提出自推理语言模型（SRLM），通过少量推理催化数据引导模型自生成更长推理链并迭代自训练，在多个推理基准上实现平均 +2.5 个百分点的性能提升，展现了探索深度和创造性推理路径的潜力。

Large Language Model, Reasoning, Self-Supervised Learning, Instruction Tuning, Iterative Learning

Hongru Wang, Deng Cai, Wanjun Zhong, Shijue Huang, Jeff Z. Pan, Zeming Liu, Kam-Fai Wong

The Chinese University of Hong Kong, ByteDance, The University of Edinburgh, Beihang University, MoE Key Laboratory of High Confidence Software Technologies

Generated by grok-3

Background Problem

近年来，大型语言模型（LLMs）通过推理时扩展（Inference-time Scaling）显著提升了在复杂推理任务（如数学和问答）中的表现，具体方法是延长思维链（Chain-of-Thought, CoT）的长度。然而，较长的 CoT 数据稀缺，尤其是在通用指令微调数据中缺乏可验证答案的情况下，成为推理时扩展的主要障碍。本文提出了一种自推理语言模型（Self-Reasoning Language Model, SRLM），旨在通过少量推理催化数据引导模型自生成更长的推理链，并通过迭代自训练提升性能，解决 CoT 数据稀缺问题，同时增强模型在多样化推理任务中的能力。

Method

SRLM 的方法分为两个主要阶段：

阶段 1：推理催化数据获取（Reasoning Catalyst Acquisition）：通过精心设计的元推理提示（Meta-Reasoning Prompt），包含反思（Reflection）、细节补充（Detail）和替代思维（Alternative-Thinking）等技能，利用现有 LLM 或人类专家将原始短推理链扩展为更长、更全面的推理链，形成少量（仅 0.02%）催化数据。这些数据以示范形式教模型如何展开隐藏推理链，而非直接提供答案。
阶段 2：自改进 LLM（Self-Improved LLMs）：将催化数据与原始指令微调数据结合，微调基础模型，使其同时学习推理和如何推理。随后，通过迭代推理扩展（Iterative Reasoning Expansion）和选择（Iterative Reasoning Selection）生成并筛选更优质的推理链。具体步骤包括：
- 使用当前模型生成多个推理链候选（采样 N 次以增加多样性）。
- 采用三种选择器筛选最佳推理链：长度选择器（Length Selector，选择最长推理链）、离策选择器（Off-policy Selector，基于基础模型概率选择）和在策选择器（On-policy Selector，基于当前 SRLM 概率选择）。
- 将筛选后的数据用于下一轮微调，完成一次迭代。 批判性思考：虽然方法创新性地利用少量催化数据引导自推理，但其对催化数据质量的依赖性较强，若数据分布偏倚可能导致模型学习错误推理模式。此外，长度选择器的简单性可能无法准确反映推理质量，存在选择冗长但无用推理链的风险。

Experiment

实验基于两个开源模型（Llama3.1-8B 和 Mistral-7B-V0.3）进行，数据集包括 50k 条指令微调数据（从 Magpie-reasoning-150k 采样并用 GPT-4o 优化）和 1k 条推理催化数据（由 GPT-4o 生成）。评估涵盖五个推理基准（MMLU, GSM8K, ARC-C, HellaSwag, BBH），采用零样本提示方法，指标为准确率（Accuracy）。主要结果如下：

初始性能提升：SRLM (M0) 在大多数基准上优于基线（Reflection-tuning 和 Magpie），平均提升 +2.5 个百分点，表明催化数据有效增强了初始性能。
迭代改进：通过迭代自训练，SRLM 在多个基准上持续提升，Llama3.1-8B 表现更稳定，证明小规模模型（7B/8B）可生成优于 GPT-4o 的指令微调数据。
选择器效果：长度选择器在平均性能上表现最佳，但不同选择器在不同数据集和模型上表现不一，显示出交互效应和评估挑战。
采样次数影响：增加采样次数（1 到 64）显著提升性能，SRLM 在 64 次采样时平均提升 +7.89 个百分点，表明其能探索更深、更具创造性的推理路径。
迭代稳定性：性能随迭代次数增加先升后稳或下降，部分模型（如 Mistral-7B）在后期出现退化，可能是由于自生成数据引入噪声。 批判性思考：实验设计覆盖了多种推理任务，设置较为全面，但对催化数据量和来源的控制实验显示增加数据量未显著提升平均性能，暗示方法可能对数据量不敏感或存在冗余。此外，迭代性能的不稳定性表明自训练可能累积错误，缺乏有效的质量控制机制。长度选择器的最佳表现可能只是因为长推理链偶然包含更多正确信息，而非真正反映推理质量，实验未深入探讨这一问题。

Further Thoughts

SRLM 的自推理框架为解决推理数据稀缺问题提供了一种新思路，但其依赖于催化数据的质量和选择器的有效性，存在一定局限性。未来可以探索更复杂的推理质量评估机制，例如结合语义一致性或逻辑完整性评分，而非单纯依赖长度选择器。此外，是否可以引入外部反馈（如人类评估或领域知识）来指导迭代过程，以避免自生成数据中的噪声累积？与近期的一些工作（如基于 RLHF 的推理优化）结合，或许能进一步提升模型的推理能力和稳定性。另一个值得思考的方向是，SRLM 的方法是否适用于其他领域，如代码生成或科学推理，这些领域中可验证答案的存在可能为迭代提供更强的监督信号，从而减少性能波动。