Skip to content
Go back 2504.18116 arXiv logo

Think, Prune, Train, Improve: Scaling Reasoning without Scaling Models

Published:  at  04:31 PM
82.99 👍

本文提出 Think, Prune, Train 框架,通过迭代监督微调和基于正确性的数据修剪,实现模型在不增加规模的情况下提升推理能力,避免模型坍缩。

Large Language Model, Reasoning, Fine-tuning, Synthetic Data, Data Augmentation, Efficiency

Caia Costello, Simon Guo, Anna Goldie, Azalia Mirhoseini

Stanford University, Ceramic AI

Generated by grok-3-mini-latest

Background Problem

大型语言模型(LLMs)在编程和数学推理任务中表现出色,但受限于高质量训练数据的可用性。合成数据可以用于提升微调效果,但涉及多个因素,包括模型大小、合成数据量、修剪策略和微调轮数。研究起始点是探讨模型是否能通过自身生成的推理轨迹实现自我提升,而不依赖外部监督。关键问题解决包括避免模型坍缩(如知识遗忘和幻觉生成),并通过正确性-based 修剪策略稳定训练过程,从而在不增加模型规模的情况下提升推理能力。

Method

Experiment

Further Thoughts

这个框架强调了数据修剪在自我提升中的关键作用,或许可以扩展到其他领域如自然语言理解或决策任务中,与 STaR 或 ReST 等方法相比,其简化了过程仅依赖 SFT,而非复杂的 RL,这可能降低部署成本;然而,递归训练可能引入偏见或减少输出多样性,未来研究可探索结合外部数据或多样性技术以增强鲁棒性,同时考虑到实际应用中,类似方法能促进高效 AI 开发,但需警惕潜在的伦理问题如模型同质化。



Previous Post
Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding
Next Post
Honey, I Shrunk the Language Model: Impact of Knowledge Distillation Methods on Performance and Explainability