When Models Reason in Your Language: Controlling Thinking Trace Language Comes at the Cost of Accuracy

本文通过XReasoning基准揭示了大型推理模型在多语言推理中语言匹配与答案准确性之间的权衡，并通过提示破解和少样本后训练方法提高语言匹配率，但以牺牲准确性为代价，凸显了当前模型的局限性。

Large Language Model, Reasoning, Multimodal Systems, Human-AI Interaction, Fine-tuning

Jirui Qi, Shan Chen, Zidi Xiong, Raquel Fernández, Danielle S. Bitterman, Arianna Bisazza

University of Groningen, Harvard University, Mass General Brigham, Boston Children’s Hospital, University of Amsterdam

Generated by grok-3

Background Problem

近年来，大型推理模型（LRMs）通过生成详细的推理轨迹（thinking traces）在英语推理任务上取得了显著进展。然而，这些模型在非英语语言中的推理能力尚未得到充分研究。在实际应用中，用户希望推理轨迹以其母语呈现，以便于理解和监督模型的推理过程。如果推理轨迹的语言与用户语言不匹配，即使答案正确，也可能降低用户对模型的信任。因此，本研究聚焦于评估LRMs在多语言环境下的推理语言匹配能力，并探讨语言匹配与答案准确性之间的权衡问题，旨在揭示当前模型的局限性并为未来的多语言推理系统提供研究方向。

Method

本研究提出了两种方法来解决LRMs在多语言推理中的语言匹配问题：

提示破解（Prompt Hacking）：通过在推理开始的特殊标记''后添加一个翻译为用户语言的前缀（如’By request, I will start thinking in {USER_LANG}’），引导模型生成与用户指定语言一致的推理轨迹。这一方法通过影响后续token的生成分布，显著提高语言匹配率。
少样本后训练（Post-Training with Few Instances）：针对低资源语言（如日语、泰语、泰卢固语），使用100或250个实例进行后训练，数据来源于教师模型生成的数学问题及逐步解答，并通过机器翻译生成目标语言内容，旨在提升模型在指定语言中的推理能力。 批判性思考：提示破解方法虽然简单有效，但本质上是一种临时解决方案，未能从根本上解决模型的多语言推理能力不足问题，且对答案准确性的负面影响较大。后训练方法虽然在语言匹配上有所改进，但训练样本量过少（仅100-250个实例），可能不足以捕捉语言的复杂性，且机器翻译可能引入语义噪声，影响训练效果。此外，两种方法均未解决训练数据中语言分布不均导致的偏见问题。

Experiment

实验基于新提出的XReasoning基准数据集进行，该数据集包含从AIME2024/2025、GPQA和MGSM翻译而来的370个数学和科学问题，覆盖11种语言。测试了两个LRM家族（Distilled-R1和Skywork-OR1）的六个模型（参数规模从1.5B到32B）。

设置与目的：实验评估了语言匹配率（推理轨迹是否符合指定语言）和答案准确性，使用LANGDETECT工具检测推理轨迹语言。实验设计旨在揭示标准提示下的语言匹配问题，并测试提示破解和后训练的缓解效果。
结果：标准提示下，所有模型在非英语语言中的语言匹配率较低（例如Distilled-R1-32B在AIME上的匹配率仅46.3%），且常回退到英语或中文。提示破解显著提高匹配率（从45-50%提升至90%以上），但答案准确性普遍下降（例如Distilled-R1-32B在AIME上的准确性从25.5%降至17.0%）。后训练（以Distilled-R1-7B为例）在100个实例下将泰语和泰卢固语的匹配率提升至近100%，日语提升至约80%，但准确性仍显著下降，且增加训练实例至250个并未持续改善这一权衡。
评价：实验设置较为全面，覆盖多种语言和模型规模，但依赖机器翻译的内容可能引入噪声，影响结果可靠性。LANGDETECT工具在短文本或代码切换内容上的准确性存疑，可能导致匹配率评估偏差。此外，实验未深入探讨推理轨迹是否真正反映了模型的推理过程（即推理的忠实性），这限制了结果的解释力。结果表明，当前方法在语言匹配和准确性之间的权衡问题依然显著，未能达到预期效果。

Further Thoughts

本文揭示的多语言推理中的语言匹配与准确性权衡问题，实际上反映了当前大型模型训练数据中语言分布不均的深层问题。未来研究可以探索通过多语言预训练数据的平衡增强或跨语言迁移学习来缓解这一问题，例如利用高资源语言（如英语和中文）的推理能力，通过知识蒸馏或对比学习迁移至低资源语言。此外，提示破解方法虽然有效，但其对准确性的负面影响提示我们需要更智能的提示设计策略，例如结合上下文自适应或用户偏好建模来动态调整推理语言，而不仅仅是简单的前缀引导。后训练方法的样本量限制也启发我们思考是否可以通过合成数据生成或数据增强技术来扩充低资源语言的训练数据，从而在不牺牲准确性的前提下提升语言匹配率。最后，这一问题与可解释性AI领域的研究密切相关，推理轨迹的语言匹配不仅是技术问题，也是用户信任和人机交互体验的关键因素，值得结合用户研究进一步探讨如何在多语言环境中构建更可信赖的推理系统。