Skip to content
Go back 2505.00031 arXiv logo

Learning to Plan Before Answering: Self-Teaching LLMs to Learn Abstract Plans for Problem Solving

Published:  at  04:33 PM
74.84 🤔

本文提出LEPA自训练算法,通过训练LLM生成预期计划作为抽象元知识来提升问题解决泛化能力,并在多个推理基准上显著优于现有方法。

Large Language Model, Self-Supervised Learning, Reasoning, Planning, Meta-Learning, Human-AI Interaction

Jin Zhang, Flood Sung, Zhilin Yang, Yang Gao, Chongjie Zhang

Tsinghua University, Moonshot AI, Washington University in St. Louis

Generated by grok-3-mini-latest

Background Problem

在大型语言模型(LLM)的后训练中,使用LLM自身生成的合成数据已被证明有效,但关键问题是如何选择这些数据包含的必要信息。现有自训练方法仅生成逐步问题解决方案,训练LLM最大化生成这些解决方案的似然,从而仅让LLM记忆任务特定解决方案,而未能捕获用于泛化的高层抽象元知识,导致在困难的自然语言推理任务(如Hendrycks MATH)上表现有限。本文受认知科学和元学习研究的启发,提出通过学习高层抽象元知识来解决这一问题,人类和元学习算法通过抽象简化复杂问题并提升泛化能力。

Method

Experiment

Further Thoughts

LEPA展示了学习抽象计划如何提升LLM的泛化能力,未来可探索与其他优化算法如强化学习(RL)结合,以进一步提高性能;此外,将此方法扩展到决策系统或多模态任务中,可能带来新见解,例如在机器人规划或医疗诊断中利用计划减少错误;结合元学习框架,可以开发更高效的自适应模型;论文的自反省机制也可应用于其他AI领域,如自然语言生成中的一致性检查,或与Quiet-STaR等方法整合,探索更高级的元知识提取策略。



Previous Post
From System 1 to System 2: A Survey of Reasoning Large Language Models
Next Post
Racing Thoughts: Explaining Contextualization Errors in Large Language Models