Skip to content
Go back 2505.11140 arXiv logo

Scaling Reasoning can Improve Factuality in Large Language Models

Published:  at  11:09 AM
87.44 🤔

本文通过从先进模型中提取并用知识图谱增强推理轨迹,微调Qwen2.5系列模型,并在复杂开放域问答任务中验证了测试时计算扩展(并行采样和预算强制)可提升事实准确性2-8%,尤其对小型模型效果显著。

Large Language Model, Reasoning, Test Time, Multimodal Data, Instruction Tuning

Mike Zhang, Johannes Bjerva, Russa Biswas

Aalborg University

Generated by grok-3

Background Problem

近年来,大型语言模型(LLMs)在推理能力上的进展表明,通过在推理时增加计算资源和延长思考过程(即’test-time scaling’),可以在数学推理任务中显著提升模型性能。然而,对于复杂的事实性任务(如开放域问答),延长推理链是否能提高事实准确性仍不明确。本研究聚焦于这一空白,探索在复杂多跳问答(multi-hop QA)场景中,是否可以通过更长的推理过程和知识图谱增强来提升LLMs的事实准确性,解决现有模型在事实一致性上的不足。

Method

本研究提出了一种通过推理轨迹增强和测试时计算扩展来提升事实准确性的方法,具体步骤如下:

Experiment

实验设计覆盖了多个维度,旨在全面评估推理延长和测试时计算对事实准确性的影响:

Further Thoughts

本文在测试时计算扩展(test-time scaling)方面的探索为提升LLMs事实准确性提供了有价值的思路,特别是并行采样在复杂推理任务中的潜力。然而,我认为其方法可能在面对更新、更具挑战性的数据集时遇到泛化问题,未来可以结合更动态的知识图谱更新机制或实时检索增强生成(RAG)来进一步提升事实一致性。此外,预算强制实验揭示了推理长度与性能的非线性关系,这与近期一些关于上下文窗口限制的研究相呼应(如Brown等2024年的工作),提示我们可能需要设计更智能的推理终止机制,而非简单依赖token数量。另一个值得探索的方向是将此方法与其他领域(如医学或法律)的结构化知识结合,测试其在专业领域事实推理中的适用性,同时开发更鲁棒的评估机制以减少对LLM-as-a-Judge的依赖。



Previous Post
AM-Thinking-v1: Advancing the Frontier of Reasoning at 32B Scale
Next Post
Pre-Act: Multi-Step Planning and Reasoning Improves Acting in LLM Agents