AI agents may be worth the hype but not the resources (yet): An initial exploration of machine translation quality and costs in three language pairs in the legal and news domains

本文通过实证评估五种机器翻译范式，发现推理增强的大型语言模型（如o1-preview）在人工评估中表现出色，超越传统NMT，而多智能体系统虽具潜力，但因高计算成本和语言对表现不一致而受限。

Large Language Model, Multi-Agent, Translation, Efficiency, Human-AI Interaction

Vicent Briva Iglesias, Gokhan Dogru

Dublin City University, Pompeu Fabra University

Generated by grok-3

Background Problem

机器翻译（MT）领域近年来经历了从神经机器翻译（NMT）到大型语言模型（LLMs）及其多智能体系统的范式转变。传统NMT系统（如Google Translate）在通用翻译任务中表现强劲，但在低资源语言、上下文适应性和领域特定内容处理上存在局限。LLMs通过广泛的语境窗口和提示工程展现出更强的语义推理和风格控制能力，而基于LLM的多智能体系统则通过模块化、迭代的工作流程，模拟人类翻译团队的分工协作，试图进一步提升翻译质量。然而，这些新兴技术的实际效益、成本效率以及在不同语言对和领域中的适用性尚不明确。本研究旨在通过实证评估，比较五种MT范式在翻译质量（定量和定性）和成本效率上的表现，解决如何在质量、成本和实际应用之间找到平衡的关键问题。

Method

本研究评估了五种不同的机器翻译（MT）范式：

Google Translate (GT)：作为传统NMT基准，利用其广泛的多语言支持和优化性能，通过网页接口直接获取翻译结果。
GPT-4o：通用LLM，采用标准解码器架构，通过ChatGPT网页界面生成翻译。
o1-preview：增强推理的LLM，专注于语义连贯性和上下文对齐，同样通过ChatGPT界面生成翻译。
顺序多智能体系统 (s-agent)：基于GPT-4o构建，包含翻译、审查和编辑三个专门智能体，按顺序工作，每个步骤完成后才进入下一步，采用Andrew Ng的框架实现。
迭代多智能体系统 (i-agent)：同样基于GPT-4o，包含相同角色智能体，但允许最多三次修订循环以优化翻译质量，使用CrewAI库和评估-优化工作流程实现。评估涵盖三种语言对（英语-西班牙语、英语-加泰罗尼亚语、英语-土耳其语），涉及法律合同和新闻文本两个领域。翻译质量通过自动评估指标（COMET、BLEU、chrF2、TER）和人工评估（由专业翻译人员基于充分性和流畅性评分）进行衡量，成本效率则通过输入输出token计数结合2025年4月的定价模型分析。

Experiment

实验在三种语言对（英语-西班牙语、英语-加泰罗尼亚语、英语-土耳其语）上测试了五种MT系统，使用法律合同（537词）和新闻文本（116词）作为测试数据。自动评估指标（AEMs）显示，Google Translate在12个指标-语言组合中的7个中排名第一，展现出对表面指标优化的优势；o1-preview在4个组合中排名第一或并列，表现接近NMT，而多智能体系统（s-agent和i-agent）表现较差，未能在大多数指标中名列前茅。人工评估（HE）结果则呈现不同趋势，o1-preview在6个评估中的5个中（充分性和流畅性）排名第一，显示出在语义细微差别和风格控制上的优势；i-agent在西班牙语流畅性上排名第一，但整体表现不稳定，尤其在土耳其语中表现最差，出现术语错误和语法问题。成本分析表明，GT和GPT-4o的token消耗最低（约2000个），而s-agent消耗约10,000-12,000个token，i-agent高达29,000-39,000个token，显示出多智能体系统的高昂计算成本。实验设计较为全面，涵盖了多种语言对和领域，并结合了自动和人工评估，但对多智能体系统在不同语言类型学中的表现差异解释不足，且未深入探讨token消耗高的根本原因或优化可能性。结果部分符合预期，即推理增强的LLM在质量上有提升，但多智能体系统的高成本与质量提升不成正比，特别是在某些语言对中效果不佳。

Further Thoughts

本文的研究为机器翻译中引入多智能体系统和推理增强LLM提供了有价值的初步见解，但其对多智能体系统性能不一致的解释较为表面，尤其是在土耳其语等语言类型学较远的语言中的表现问题，可能是由于智能体间协作协议或提示设计未针对语言特异性进行优化。进一步研究可以探索如何通过自适应提示工程或语言特定预训练来提升多智能体系统的鲁棒性。此外，成本分析中token消耗的高昂性引发了可持续性的担忧，未来可以考虑与边缘计算或联邦学习结合，减少计算资源需求，同时探索混合系统（如单次翻译与目标性智能体干预结合）在高风险领域（如法律、医疗）的应用潜力。另一个值得思考的方向是，本文未触及的文化适应性问题，多智能体系统是否能在翻译中更好地处理文化细微差别？这可能需要引入跨文化数据集或与人类专家的更紧密协作，类似于RAG（检索增强生成）在知识密集任务中的应用，值得进一步探索。