本文提出LEPA自训练算法,通过训练LLM生成预期计划作为抽象元知识来提升问题解决泛化能力,并在多个推理基准上显著优于现有方法。
Large Language Model, Self-Supervised Learning, Reasoning, Planning, Meta-Learning, Human-AI Interaction
Jin Zhang, Flood Sung, Zhilin Yang, Yang Gao, Chongjie Zhang
Tsinghua University, Moonshot AI, Washington University in St. Louis
Generated by grok-3-mini-latest
Background Problem
在大型语言模型(LLM)的后训练中,使用LLM自身生成的合成数据已被证明有效,但关键问题是如何选择这些数据包含的必要信息。现有自训练方法仅生成逐步问题解决方案,训练LLM最大化生成这些解决方案的似然,从而仅让LLM记忆任务特定解决方案,而未能捕获用于泛化的高层抽象元知识,导致在困难的自然语言推理任务(如Hendrycks MATH)上表现有限。本文受认知科学和元学习研究的启发,提出通过学习高层抽象元知识来解决这一问题,人类和元学习算法通过抽象简化复杂问题并提升泛化能力。
Method
- 核心思想: LEPA是一种自训练算法,训练LLM在生成详细问题解决方案前创建预期计划,这些计划作为高层抽象元知识,指导解决方案生成并减少 distractions。
- 如何实现: 在数据生成阶段,LEPA提示LLM首先基于问题生成一个预期计划(高层次、通用、避免问题特定细节),然后生成与计划和问题一致的解决方案。如果解决方案正确,则存储计划-解决方案对;否则,通过自反省机制优化计划,LLM分析失败原因并生成新计划,直至解决方案正确或达到最大尝试次数。在模型优化阶段,使用监督微调(SFT)最小化负对数似然损失:,训练LLM预测优化后的计划和解决方案。关键步骤包括计划生成、解决方案生成、自反省和SFT优化,不修改原始模型,仅在推理时调整采样过程。
Experiment
- 实验设置: 使用数据集包括Hendrycks MATH(数学推理)、Hellaswag(句子完成推理)、BoolQ(段落理解推理)和PIQA(物理推理)。初始模型为Llama 3 8B Instruct,与基线方法ReST、ReST EM和STaR比较,所有方法在相同条件下(如相同尝试次数、温度参数)进行,评估收敛后的测试准确率。设计这样是为了公平比较LEPA与基线的性能,并通过消融研究验证LEPA组件的有效性(如预期计划、自反省)。
- 为什么这样组织: 选择这些基准覆盖不同推理类型,测试LEPA的泛化能力;基线方法仅生成逐步解决方案,而LEPA引入计划,预期能提升性能。结果显示LEPA在所有基准上显著优于基线,平均准确率提高3.1%(例如Hendrycks MATH上从28.2%提高到30.2%),学习曲线显示LEPA收敛更快。消融研究确认预期计划和自反省的必要性,额外分析显示LEPA更有效地利用推理计算资源,结果符合预期,证明LEPA通过学习抽象计划提高了LLM的泛化和推理能力。
Further Thoughts
LEPA展示了学习抽象计划如何提升LLM的泛化能力,未来可探索与其他优化算法如强化学习(RL)结合,以进一步提高性能;此外,将此方法扩展到决策系统或多模态任务中,可能带来新见解,例如在机器人规划或医疗诊断中利用计划减少错误;结合元学习框架,可以开发更高效的自适应模型;论文的自反省机制也可应用于其他AI领域,如自然语言生成中的一致性检查,或与Quiet-STaR等方法整合,探索更高级的元知识提取策略。