EMORL: Ensemble Multi-Objective Reinforcement Learning for Efficient and Flexible LLM Fine-Tuning

本文提出EMORL框架，通过集成学习分别训练单目标模型并在隐藏状态层聚合，结合分层网格搜索优化权重，在咨询反思生成任务中实现了与传统方法相当的性能，同时显著提升了训练效率、可扩展性和解释性。

Reinforcement Learning, Fine-Tuning, Multi-Agent, Generative AI, Efficiency, Interpretability

Lingxiao Kong, Cong Yang, Susanne Neufang, Oya Deniz Beyan, Zeyd Boukhers

Fraunhofer Institute for Applied Information Technology FIT, Germany, Soochow University, China, University Hospital of Cologne, Germany

Generated by grok-3

Background Problem

大型语言模型（LLM）在自然语言处理（NLP）任务中的多目标优化是一个关键研究方向，尤其是在需要同时满足多种相互冲突需求（如咨询反思生成任务中的反思、共情和流畅性）的场景中。传统强化学习（RL）微调方法通过将多个目标合并到一个奖励函数中进行优化，但面临训练效率低、可扩展性差、目标权重平衡困难以及结果解释性不足等挑战。论文以咨询反思生成任务为切入点，旨在解决这些问题，提出了一种更高效、灵活的微调方法，以在保持性能的同时提升训练效率和可解释性。

Method

EMORL（Ensemble Multi-Objective Reinforcement Learning）框架基于集成学习原理，通过以下三个阶段实现多目标优化：

独立训练阶段：针对每个单一目标（如反思、共情、流畅性），分别对预训练模型（如T5-base）进行强化学习微调，使用自批评序列训练（SCST）算法，并结合LoRA方法高效更新参数。
隐藏状态层聚合：在推理阶段，从每个单目标模型中提取最后隐藏状态（last hidden states），通过线性加权组合（如公式 $\mathbf{f} = \alpha \cdot \mathbf{f}_1 + \beta \cdot \mathbf{f}_2 + \gamma \cdot \mathbf{f}_3$ ）融合各模型的高层语义特征，再通过语言模型头生成最终输出。这种方法区别于参数层或logit层聚合，旨在更好地整合上下文信息。
分层网格搜索：提出一种高效的分层网格搜索算法，通过迭代地细化搜索空间，寻找各目标模型的最佳加权组合（权重范围在[0,1]），其计算复杂度为 $O(3^d \cdot \log^2 \frac{1}{N})$ ，显著低于传统网格搜索的 $O(\frac{1}{N}^d)$ 。核心思想是将复杂的多目标优化问题分解为单目标训练和后续聚合权重优化，从而提高训练效率和灵活性。

Experiment

实验基于咨询反思生成任务，在PAIR和Psych8k两个数据集上进行，数据集分别包含单轮客户-咨询师对话和心理健康交互数据，使用T5-base（220M参数）作为预训练模型。实验设置包括针对反思、共情和流畅性三个目标的单目标模型训练，并与四个基线（T5-base、Uniform Weighted、DynaOpt、Model Soups）进行对比。评估指标涵盖性能（通过特定LLM评分和人工评估）、多样性、编辑率、资源消耗、可扩展性和解释性。结果显示：

效率与稳定性：EMORL在数据消耗（17,529±1,650数据点）和时间消耗（6,573±147.43秒）上显著低于单策略方法，且资源消耗更稳定，归因于并行训练和分层网格搜索。
性能表现：在PAIR和Psych8k数据集上，EMORL的平均得分（0.7907和0.8082）与单策略方法（如Uniform Weighted和DynaOpt）相当，优于参数层聚合的Model Soups，尤其在Psych8k上的反思得分（0.9784）最高。但在流畅性指标上略低于部分基线，人工评估也显示其在所有指标上均为第二高，表明性能平衡但未全面超越。
其他优势：EMORL在多样性（Diversity-2得分0.6516）和可扩展性、解释性上表现突出，通过可视化加权组合揭示各目标贡献（如反思权重约0.8，共情约0.5）。实验设计较为全面，涵盖了自动和人工评估，但使用小型模型可能限制结果的普适性，且性能未显著超越传统方法，部分指标（如流畅性）仍有改进空间。此外，逐token生成的聚合方式导致时间开销略高，实验未充分探讨长序列或多轮对话场景的表现。

Further Thoughts

EMORL框架在多目标优化中的集成学习思路为LLM微调提供了一个有前景的方向，尤其是在资源受限场景下，其并行训练和高效聚合策略可能对边缘设备上的模型部署有启发。然而，论文中提到的隐藏状态层聚合虽然在理论上能够捕捉丰富的上下文信息，但在实际应用中可能面临计算效率问题，尤其是在处理长序列或实时交互任务时，逐token生成的方式可能成为瓶颈。进一步思考，这种方法是否可以与最近的一些高效推理技术（如KV缓存或分层推理）结合，以减少时间开销？此外，EMORL目前局限于单轮对话任务，而真实咨询场景往往涉及多轮交互，模型需要根据对话历史动态调整目标权重，这可能需要引入上下文感知的动态聚合机制，类似于某些多智能体系统中基于历史信息的协作策略。另一个值得探索的方向是，是否可以通过非线性聚合方法（如多头注意力机制）替代线性加权，以更好地捕捉目标间的复杂依赖关系？这可能进一步提升性能，尤其是在目标冲突更为显著的场景中。最后，考虑到论文中使用的T5-base模型规模较小，未来在更大规模模型（如LLaMA或GPT系列）上的验证将有助于确认EMORL的普适性和潜力，尤其是在与现有高效微调方法（如参数高效微调PEFT）结合时，可能会进一步放大其效率优势。