Skip to content
Go back 2505.14116 arXiv logo

Self-Reasoning Language Models: Unfold Hidden Reasoning Chains with Few Reasoning Catalyst

Published:  at  11:16 AM
93.01 🤔

本文提出自推理语言模型(SRLM),通过少量推理催化数据引导模型自生成更长推理链并迭代自训练,在多个推理基准上实现平均 +2.5 个百分点的性能提升,展现了探索深度和创造性推理路径的潜力。

Large Language Model, Reasoning, Self-Supervised Learning, Instruction Tuning, Iterative Learning

Hongru Wang, Deng Cai, Wanjun Zhong, Shijue Huang, Jeff Z. Pan, Zeming Liu, Kam-Fai Wong

The Chinese University of Hong Kong, ByteDance, The University of Edinburgh, Beihang University, MoE Key Laboratory of High Confidence Software Technologies

Generated by grok-3

Background Problem

近年来,大型语言模型(LLMs)通过推理时扩展(Inference-time Scaling)显著提升了在复杂推理任务(如数学和问答)中的表现,具体方法是延长思维链(Chain-of-Thought, CoT)的长度。然而,较长的 CoT 数据稀缺,尤其是在通用指令微调数据中缺乏可验证答案的情况下,成为推理时扩展的主要障碍。本文提出了一种自推理语言模型(Self-Reasoning Language Model, SRLM),旨在通过少量推理催化数据引导模型自生成更长的推理链,并通过迭代自训练提升性能,解决 CoT 数据稀缺问题,同时增强模型在多样化推理任务中的能力。

Method

SRLM 的方法分为两个主要阶段:

Experiment

实验基于两个开源模型(Llama3.1-8B 和 Mistral-7B-V0.3)进行,数据集包括 50k 条指令微调数据(从 Magpie-reasoning-150k 采样并用 GPT-4o 优化)和 1k 条推理催化数据(由 GPT-4o 生成)。评估涵盖五个推理基准(MMLU, GSM8K, ARC-C, HellaSwag, BBH),采用零样本提示方法,指标为准确率(Accuracy)。主要结果如下:

Further Thoughts

SRLM 的自推理框架为解决推理数据稀缺问题提供了一种新思路,但其依赖于催化数据的质量和选择器的有效性,存在一定局限性。未来可以探索更复杂的推理质量评估机制,例如结合语义一致性或逻辑完整性评分,而非单纯依赖长度选择器。此外,是否可以引入外部反馈(如人类评估或领域知识)来指导迭代过程,以避免自生成数据中的噪声累积?与近期的一些工作(如基于 RLHF 的推理优化)结合,或许能进一步提升模型的推理能力和稳定性。另一个值得思考的方向是,SRLM 的方法是否适用于其他领域,如代码生成或科学推理,这些领域中可验证答案的存在可能为迭代提供更强的监督信号,从而减少性能波动。



Previous Post
Test-time Correlation Alignment
Next Post
Seek in the Dark: Reasoning via Test-Time Instance-Level Policy Gradient in Latent Space