Skip to content
Go back 2505.10182 arXiv logo

Mining Hidden Thoughts from Texts: Evaluating Continual Pretraining with Synthetic Data for LLM Reasoning

Published:  at  11:14 AM
85.14 🤔

本文提出Reasoning CPT方法,通过在持续预训练中加入合成隐藏思维数据,显著提升大型语言模型在跨领域推理、困难问题解决和推理效率方面的表现,特别是在MMLU基准上实现了最高3.3%的整体提升和困难问题上约8%的改进。

Large Language Model, Pre-training, Reasoning, Synthetic Data, Cross-Domain Transfer

Yoichi Ishibashi, Taro Yano, Masafumi Oyamada

NEC Corporation

Generated by grok-3

Background Problem

大型语言模型(LLM)在推理能力上的提升是当前研究的核心挑战之一。传统的监督微调(SFT)和强化学习(RL)方法依赖于特定领域的任务信号(如数学和编程),限制了训练数据的广度和可扩展性。而持续预训练(CPT)不需要特定领域的奖励信号,具有更广泛的适用性,但如何构建适合推理的训练数据仍是一个未解难题。本研究提出了一种基于合成数据的Reasoning CPT方法,试图通过重建文本背后的隐藏思维过程(Hidden Thoughts)来提升模型的推理能力,特别是在跨领域和困难问题上的表现。

Method

本研究提出了一种名为Reasoning CPT的持续预训练方法,其核心思想是通过合成数据模拟专家文本背后的隐藏思维过程(Hidden Thoughts),以提升大型语言模型的推理能力。具体步骤如下:

关键点与质疑:虽然方法创新性地尝试挖掘文本背后的思维过程,但合成数据的生成依赖于LLM自身的输出,缺乏对生成内容真实性或与专家思维一致性的验证,可能导致模型学习到的是伪推理模式而非真正的逻辑思维。此外,隐藏思维的四个方面(人类风格、背景知识等)是否必要或有效,论文未提供消融研究支持。

Experiment

实验基于Gemma2-9B模型,比较了基础模型、标准CPT和Reasoning CPT在STEM和Law领域数据上的表现,具体设置如下:

Further Thoughts

尽管Reasoning CPT在提升推理能力和跨领域迁移方面展现了潜力,但其依赖合成数据的核心机制引发了一些深层次的思考。首先,合成隐藏思维的质量和真实性是一个关键问题,当前方法完全依赖于LLM自身的生成能力,缺乏与真实专家思维的对比或验证,未来可以考虑引入人类专家标注的小规模数据集作为参照,或通过认知科学的研究来验证生成思维的有效性。其次,论文中提到的推理效率自适应调整是一个有趣的现象,这与最近一些关于上下文长度对模型性能影响的研究(如长上下文处理中的注意力分配机制)有潜在联系,是否可以通过显式建模上下文复杂性来进一步优化推理深度值得探索。此外,Reasoning CPT在推理多样性上的表现(Pass@k提升)提示我们,预训练阶段的多样性保留可能比指令微调阶段更重要,这与当前一些关于RLHF导致模型输出分布收窄的讨论相呼应,未来可以将Reasoning CPT与其他后训练方法(如RL或SFT)结合,探索如何在保持多样性的同时进一步提升精度。最后,考虑到合成数据在预训练中的广泛应用,是否可以通过迭代生成和筛选隐藏思维数据来逐步逼近更高质量的推理模式,是一个值得深入研究的方向。



Previous Post
Learning Like Humans: Advancing LLM Reasoning Capabilities via Adaptive Difficulty Curriculum Learning and Expert-Guided Self-Reformulation
Next Post
From Distributional to Overton Pluralism: Investigating Large Language Model Alignment