Skip to content
Go back 2505.22888 arXiv logo

When Models Reason in Your Language: Controlling Thinking Trace Language Comes at the Cost of Accuracy

Published:  at  11:29 AM
86.23 🤔

本文通过XReasoning基准揭示了大型推理模型在多语言推理中语言匹配与答案准确性之间的权衡,并通过提示破解和少样本后训练方法提高语言匹配率,但以牺牲准确性为代价,凸显了当前模型的局限性。

Large Language Model, Reasoning, Multimodal Systems, Human-AI Interaction, Fine-tuning

Jirui Qi, Shan Chen, Zidi Xiong, Raquel Fernández, Danielle S. Bitterman, Arianna Bisazza

University of Groningen, Harvard University, Mass General Brigham, Boston Children’s Hospital, University of Amsterdam

Generated by grok-3

Background Problem

近年来,大型推理模型(LRMs)通过生成详细的推理轨迹(thinking traces)在英语推理任务上取得了显著进展。然而,这些模型在非英语语言中的推理能力尚未得到充分研究。在实际应用中,用户希望推理轨迹以其母语呈现,以便于理解和监督模型的推理过程。如果推理轨迹的语言与用户语言不匹配,即使答案正确,也可能降低用户对模型的信任。因此,本研究聚焦于评估LRMs在多语言环境下的推理语言匹配能力,并探讨语言匹配与答案准确性之间的权衡问题,旨在揭示当前模型的局限性并为未来的多语言推理系统提供研究方向。

Method

本研究提出了两种方法来解决LRMs在多语言推理中的语言匹配问题:

Experiment

实验基于新提出的XReasoning基准数据集进行,该数据集包含从AIME2024/2025、GPQA和MGSM翻译而来的370个数学和科学问题,覆盖11种语言。测试了两个LRM家族(Distilled-R1和Skywork-OR1)的六个模型(参数规模从1.5B到32B)。

Further Thoughts

本文揭示的多语言推理中的语言匹配与准确性权衡问题,实际上反映了当前大型模型训练数据中语言分布不均的深层问题。未来研究可以探索通过多语言预训练数据的平衡增强或跨语言迁移学习来缓解这一问题,例如利用高资源语言(如英语和中文)的推理能力,通过知识蒸馏或对比学习迁移至低资源语言。此外,提示破解方法虽然有效,但其对准确性的负面影响提示我们需要更智能的提示设计策略,例如结合上下文自适应或用户偏好建模来动态调整推理语言,而不仅仅是简单的前缀引导。后训练方法的样本量限制也启发我们思考是否可以通过合成数据生成或数据增强技术来扩充低资源语言的训练数据,从而在不牺牲准确性的前提下提升语言匹配率。最后,这一问题与可解释性AI领域的研究密切相关,推理轨迹的语言匹配不仅是技术问题,也是用户信任和人机交互体验的关键因素,值得结合用户研究进一步探讨如何在多语言环境中构建更可信赖的推理系统。



Previous Post
Advancing Multimodal Reasoning via Reinforcement Learning with Cold Start
Next Post
Less, but Better: Efficient Multilingual Expansion for LLMs via Layer-wise Mixture-of-Experts