本文通过从先进模型中提取并用知识图谱增强推理轨迹,微调Qwen2.5系列模型,并在复杂开放域问答任务中验证了测试时计算扩展(并行采样和预算强制)可提升事实准确性2-8%,尤其对小型模型效果显著。
Large Language Model, Reasoning, Test Time, Multimodal Data, Instruction Tuning
Mike Zhang, Johannes Bjerva, Russa Biswas
Aalborg University
Generated by grok-3
Background Problem
近年来,大型语言模型(LLMs)在推理能力上的进展表明,通过在推理时增加计算资源和延长思考过程(即’test-time scaling’),可以在数学推理任务中显著提升模型性能。然而,对于复杂的事实性任务(如开放域问答),延长推理链是否能提高事实准确性仍不明确。本研究聚焦于这一空白,探索在复杂多跳问答(multi-hop QA)场景中,是否可以通过更长的推理过程和知识图谱增强来提升LLMs的事实准确性,解决现有模型在事实一致性上的不足。
Method
本研究提出了一种通过推理轨迹增强和测试时计算扩展来提升事实准确性的方法,具体步骤如下:
- 推理轨迹提取与增强:从先进的推理模型(QwQ-32B和DeepSeek-R1)中提取推理轨迹(reasoning traces),并通过从Wikidata提取的多跳知识图谱(KG)路径增强这些轨迹,构建了名为fs1的数据集,旨在为推理提供可验证的事实基础。
- 模型微调:基于Qwen2.5架构的六个不同规模模型(0.5B至32B参数)分别在原始推理轨迹(rt)和KG增强轨迹(fs1)上进行监督微调,采用标准负对数似然损失函数,训练参数包括5个epoch、学习率等。
- 测试时计算扩展:包括并行采样(parallel scaling,通过多次推理并采用多数投票或any@k策略选择最佳答案)和预算强制(budget forcing,通过控制推理token长度来调整思考时间,测试范围从256到8192个token)。 批判性思考:虽然KG增强推理轨迹的思路有创新性,但其效果可能受限于知识图谱的质量和覆盖范围,尤其是在复杂或稀有实体上。此外,方法对较大模型的收益递减表明可能存在内在限制,未能在模型规模扩展时充分利用额外计算资源。
Experiment
实验设计覆盖了多个维度,旨在全面评估推理延长和测试时计算对事实准确性的影响:
- 数据集与基准:使用6个QA基准数据集(包括CWQ、GrailQA等),总计22.6K个问题,覆盖多跳问答和时间性问答等复杂场景。训练数据基于CWQ开发集,提取了约13K条推理轨迹(包括rt和fs1)。
- 实验设置:对比了4种基线模型和6个微调后的Qwen2.5模型,测试了零样本、链式思考(chain-of-thought)、rt微调和fs1微调四种设置,共168次实验跑,分析了170万条推理轨迹。评估指标包括pass@k(k=1,2,4,8,16)、精确匹配、语义相似度和LLM-as-a-Judge。
- 结果:小型模型(0.5B-1.5B)在单次运行中通过rt和fs1微调,事实准确性较原始指令微调模型提升显著(最高10个百分点);但对于3B以上模型,收益递减。测试时计算扩展(并行采样和预算强制)在所有模型上均带来2-8%的准确性提升,其中并行采样在any@k评估中表现优于预算强制,最佳推理长度约为2048个token。
- 分析与批判:实验设置较为全面,覆盖了多种模型规模和数据集,但存在数据泄露风险(训练与测试集间有重叠,如CWQ_train与CWQ_test有254个相似问题)。此外,评估依赖LLM-as-a-Judge可能引入偏差,尤其在实体对齐问题上,结果可能不够可靠。预算强制实验显示2048 token为最优长度,但未探讨为何超过此长度后性能趋于平稳,缺乏对推理内容质量的深入分析。
Further Thoughts
本文在测试时计算扩展(test-time scaling)方面的探索为提升LLMs事实准确性提供了有价值的思路,特别是并行采样在复杂推理任务中的潜力。然而,我认为其方法可能在面对更新、更具挑战性的数据集时遇到泛化问题,未来可以结合更动态的知识图谱更新机制或实时检索增强生成(RAG)来进一步提升事实一致性。此外,预算强制实验揭示了推理长度与性能的非线性关系,这与近期一些关于上下文窗口限制的研究相呼应(如Brown等2024年的工作),提示我们可能需要设计更智能的推理终止机制,而非简单依赖token数量。另一个值得探索的方向是将此方法与其他领域(如医学或法律)的结构化知识结合,测试其在专业领域事实推理中的适用性,同时开发更鲁棒的评估机制以减少对LLM-as-a-Judge的依赖。