Mining Hidden Thoughts from Texts: Evaluating Continual Pretraining with Synthetic Data for LLM Reasoning

本文提出Reasoning CPT方法，通过在持续预训练中加入合成隐藏思维数据，显著提升大型语言模型在跨领域推理、困难问题解决和推理效率方面的表现，特别是在MMLU基准上实现了最高3.3%的整体提升和困难问题上约8%的改进。

Large Language Model, Pre-training, Reasoning, Synthetic Data, Cross-Domain Transfer

Yoichi Ishibashi, Taro Yano, Masafumi Oyamada

NEC Corporation

Generated by grok-3

Background Problem

大型语言模型（LLM）在推理能力上的提升是当前研究的核心挑战之一。传统的监督微调（SFT）和强化学习（RL）方法依赖于特定领域的任务信号（如数学和编程），限制了训练数据的广度和可扩展性。而持续预训练（CPT）不需要特定领域的奖励信号，具有更广泛的适用性，但如何构建适合推理的训练数据仍是一个未解难题。本研究提出了一种基于合成数据的Reasoning CPT方法，试图通过重建文本背后的隐藏思维过程（Hidden Thoughts）来提升模型的推理能力，特别是在跨领域和困难问题上的表现。

Method

本研究提出了一种名为Reasoning CPT的持续预训练方法，其核心思想是通过合成数据模拟专家文本背后的隐藏思维过程（Hidden Thoughts），以提升大型语言模型的推理能力。具体步骤如下：

数据收集：从STEM领域（OpenWebMath数据集）和Law领域（FreeLaw数据集）收集高质量专家文本，每领域各选取150,000个样本，并限制每个样本长度在512个token以内。
合成数据构建：使用Gemma2-9B-it模型为每个文本生成隐藏思维内容，包括人类思维风格、背景知识回忆、决策制定和自我验证四个方面，并将这些隐藏思维与原始文本结合，形成合成数据（总长度限制在1024个token以内）。
训练过程：在Gemma2-9B模型上进行持续预训练，Reasoning CPT使用包含隐藏思维的合成数据，而标准CPT仅使用原始文本，训练采用自回归语言建模目标，损失函数为标准的负对数似然损失。

关键点与质疑：虽然方法创新性地尝试挖掘文本背后的思维过程，但合成数据的生成依赖于LLM自身的输出，缺乏对生成内容真实性或与专家思维一致性的验证，可能导致模型学习到的是伪推理模式而非真正的逻辑思维。此外，隐藏思维的四个方面（人类风格、背景知识等）是否必要或有效，论文未提供消融研究支持。

Experiment

实验基于Gemma2-9B模型，比较了基础模型、标准CPT和Reasoning CPT在STEM和Law领域数据上的表现，具体设置如下：

数据集与评估：使用MMLU基准进行评估，涵盖STEM、社会科学、人文等多个领域，采用2-shot提示进行测试；此外，使用GSM8k数据集评估推理多样性（Pass@k指标）。
训练设置：采用LoRA微调（rank=64），学习率3e-5，批大小4，训练6个epoch，使用NVIDIA A100 GPU。
结果分析：
- 在MMLU上，Reasoning CPT在所有领域均优于标准CPT和基础模型，整体提升幅度为1.4-3.3个百分点，尤其在STEM领域（+5.4%）和困难问题（Very Hard级别提升约8-11个百分点）上表现突出。
- 跨领域迁移效果显著，例如在Law领域训练的模型在STEM任务上也有4.3%的提升。
- 推理效率方面，Reasoning CPT能根据问题难度自适应调整推理长度，简单问题用较少token，困难问题用更多token，精度提升明显。
- 推理多样性上，在GSM8k的Pass@k指标中，Reasoning CPT在Pass@5时达到91.7%，显著优于指令微调模型（Gemma2-9B-it）。
实验设计评价与质疑：实验设置较为全面，涵盖了跨领域迁移、难度分级和推理多样性等多个维度，但对token数量增加对性能提升的潜在影响分析不足，虽然论文提到Reasoning CPT在相同token数量下仍优于CPT，但未提供更深入的控制实验。此外，MMLU和GSM8k的结果虽然显示改进，但对比标准CPT的提升幅度（1.4-1.8%）相对有限，是否具有实际应用价值存疑。合成数据的质量和有效性也未通过消融实验或外部验证进一步确认，可能存在过拟合到生成数据模式的风险。

Further Thoughts

尽管Reasoning CPT在提升推理能力和跨领域迁移方面展现了潜力，但其依赖合成数据的核心机制引发了一些深层次的思考。首先，合成隐藏思维的质量和真实性是一个关键问题，当前方法完全依赖于LLM自身的生成能力，缺乏与真实专家思维的对比或验证，未来可以考虑引入人类专家标注的小规模数据集作为参照，或通过认知科学的研究来验证生成思维的有效性。其次，论文中提到的推理效率自适应调整是一个有趣的现象，这与最近一些关于上下文长度对模型性能影响的研究（如长上下文处理中的注意力分配机制）有潜在联系，是否可以通过显式建模上下文复杂性来进一步优化推理深度值得探索。此外，Reasoning CPT在推理多样性上的表现（Pass@k提升）提示我们，预训练阶段的多样性保留可能比指令微调阶段更重要，这与当前一些关于RLHF导致模型输出分布收窄的讨论相呼应，未来可以将Reasoning CPT与其他后训练方法（如RL或SFT）结合，探索如何在保持多样性的同时进一步提升精度。最后，考虑到合成数据在预训练中的广泛应用，是否可以通过迭代生成和筛选隐藏思维数据来逐步逼近更高质量的推理模式，是一个值得深入研究的方向。