Skip to content
Go back 2504.08120 arXiv logo

DeepSeek vs. o3-mini: How Well can Reasoning LLMs Evaluate MT and Summarization?

Published:  at  11:31 AM
86.10 🤔

本文首次系统比较了推理型与非推理型大语言模型在自然语言生成评估中的表现,发现推理能力的效果高度依赖模型架构,OpenAI o3-mini 在机器翻译评估中显著优于非推理型模型,而 DeepSeek-R1 仅在文本摘要一致性评估中表现突出,蒸馏模型在 32B 参数规模时仍有效。

Large Language Model, Reasoning, Translation, Multimodality, Efficiency

Daniil Larionov, Sotaro Takeshita, Ran Zhang, Yanran Chen, Christoph Leiter, Zhipin Wang, Christian Greisinger, Steffen Eger

University of Mannheim, University of Technology Nuremberg

Generated by grok-3

Background Problem

推理型大语言模型(LLMs)在逻辑推理任务中表现出色,但其在自然语言生成(NLG)评估(如机器翻译和文本摘要)中的应用尚未被充分探索。本研究旨在解决两个关键问题:1)推理型模型是否能提升 NLG 评估质量;2)通过模型蒸馏,是否能在降低计算成本的同时保留评估能力。研究背景是当前 NLG 评估主要依赖非推理型 LLMs,而推理能力可能通过模仿人类专家的逐步分析过程(如语义保留、上下文匹配和多维度质量权衡)提升评估的细致性和准确性。

Method

本研究采用了一种系统性比较框架,测试推理型 LLMs 与非推理型 LLMs 在 NLG 评估任务中的表现:

Experiment

实验在 WMT23(MT 评估)和 SummEval/Eval4NLP(TS 评估)数据集上进行,覆盖多种语言对(如 en-de、zh-en)和质量维度(如一致性、流畅性):

Further Thoughts

本文的研究揭示了推理型 LLMs 在 NLG 评估中的潜力与局限,值得进一步探讨的是如何针对特定评估任务优化推理机制,而非仅仅依赖通用推理能力。例如,OpenAI o3-mini 在 MT 任务中的成功可能与其多语言训练数据或特定微调策略有关,未来可以尝试将类似策略应用于其他模型。此外,推理 token 数量与评估质量的相关性分析提示,推理过程的质量而非数量可能是关键因素,建议后续研究通过定性分析推理轨迹的具体内容,识别哪些推理模式对评估最为有益。另一个有趣的方向是探索混合推理模型(如论文中提到的 Anthropic Claude 3.7),它们允许动态开关推理,可能在推理与效率之间找到更好的平衡。最后,本研究的结果也与当前关于模型蒸馏和参数效率的研究相关,提示在 NLG 评估场景中,模型容量可能存在一个临界点(例如 32B),低于此点推理能力将显著丧失,这为设计轻量化评估模型提供了重要参考。



Previous Post
LoRA-One: One-Step Full Gradient Could Suffice for Fine-Tuning Large Language Models, Provably and Efficiently
Next Post
LoLA: Low-Rank Linear Attention With Sparse Caching