Skip to content
Go back 2505.15306 arXiv logo

Multiple Weaks Win Single Strong: Large Language Models Ensemble Weak Reinforcement Learning Agents into a Supreme One

Published:  at  11:07 AM
88.52 🤔

本文提出LLM-Ens框架,利用大型语言模型(LLMs)通过语义状态分类和动态代理选择增强强化学习模型集成,在Atari基准上显著提升性能,最高较基线方法提升51.2%。

Reinforcement Learning, Large Language Model, Model Ensemble, Dynamic Selection, Semantic Understanding

Yiwen Song, Qianyue Hao, Qingmin Liao, Jian Yuan, Yong Li

清华大学电子工程系, BNRist

Generated by grok-3

Background Problem

强化学习(RL)在训练有效智能体方面取得了显著进展,但由于算法选择、超参数设置和随机种子等因素的影响,训练稳定且高性能的智能体仍然具有挑战性。模型集成(ensemble)是一种通过组合多个弱智能体来提升整体性能的方法,然而,传统集成方法(如多数投票和Boltzmann加法)依赖固定策略,缺乏对任务特定语义的理解和动态适应性,导致在复杂动态环境中的效果受限。本文提出了一种利用大型语言模型(LLMs)增强RL模型集成的新方法,旨在通过语义理解和动态选择解决上述问题。

Method

本文提出了LLM-Ens框架,利用大型语言模型(LLMs)增强强化学习(RL)模型集成,核心思想是通过LLM对任务状态进行语义分类,并动态选择最适合当前情境的代理(agent),从而将多个弱代理组合成一个强大的代理。具体步骤如下:

批判性思考:虽然LLM-Ens在理论上通过语义分类和动态选择提供了创新性,但其依赖于LLM对状态的准确分类,若分类错误可能导致选择次优代理。此外,论文未充分讨论LLM实时分类的计算开销,尤其是在高频状态更新的RL任务中,K=30的设置是否合理值得进一步验证。

Experiment

实验在Atari基准的13个任务上评估了LLM-Ens的性能,使用DQN作为基础算法训练代理,LLM采用GPT-4o mini,状态分类间隔设为K=30。对比基线包括多数投票(Majority Voting)、排名投票(Rank Voting)、聚合(Aggregation)、Boltzmann加法和乘法。结果显示:

Further Thoughts

LLM-Ens的动态选择机制为强化学习模型集成提供了一种新颖的视角,但其依赖于LLM的分类准确性和实时性可能在实际应用中成为瓶颈。未来可以探索更轻量级的语义分类方法,例如基于预训练的视觉特征提取器,减少对LLM的依赖以降低计算开销。此外,论文未涉及多智能体系统(Multi-Agent Systems)中的应用,而动态选择机制在多智能体协作或竞争场景中可能有更大潜力,例如通过LLM协调多个代理的角色切换或策略调整,这与当前RAG(Retrieval-Augmented Generation)领域中多源信息整合的思路有异曲同工之妙。另一个值得思考的方向是,是否可以通过联邦学习(Federated Learning)的方式分布式训练和集成代理,进一步提升LLM-Ens在大规模环境中的适用性,同时解决隐私和计算资源问题。



Previous Post
Llama See, Llama Do: A Mechanistic Perspective on Contextual Entrainment and Distraction in LLMs
Next Post
Who Taught You That? Tracing Teachers in Model Distillation