Divide-Fuse-Conquer: Eliciting "Aha Moments" in Multi-Scenario Games

本文提出Divide-Fuse-Conquer框架，通过分组训练、参数融合和持续优化提升大型语言模型在多场景游戏中的泛化能力，实验在TextArena的18个游戏中显示Qwen2.5-32B-Align性能接近Claude3.5，但复杂场景表现仍有限。

Reinforcement Learning, Large Language Model, Reasoning, Planning, Multi-Agent

Xiaoqing Zhang, Huabin Zheng, Ang Lv, Yuhan Liu, Zirui Song, Flood Sung, Xiuying Chen, Rui Yan

中国人民大学高瓴人工智能学院, Moonshot AI, 穆罕默德·本·扎耶德人工智能大学

Generated by grok-3

Background Problem

近年来，大型语言模型（LLMs）在数学、编程和视觉任务中展现出强大的推理能力，但在多场景游戏中，由于游戏规则、交互模式和环境复杂性的多样性，模型往往难以泛化，表现为在某些场景中表现良好而在其他场景中失败。传统的强化学习（RL）方法在单场景中有效，但在多场景训练中容易出现训练不稳定和性能低下等问题。本文旨在解决多场景游戏中LLMs的泛化问题，探索如何通过结构化的强化学习策略提升模型在复杂环境中的适应性和鲁棒性。

Method

本文提出了Divide-Fuse-Conquer（DFC）框架，旨在通过以下步骤提升多场景强化学习中的泛化能力：

Divide（分）：根据游戏规则和难度等特征，将18个TextArena游戏启发式地分为4组，例如基于初始状态是否随机以及基础模型是否能取得非零胜率。这种分组旨在减少组内游戏的异质性，提升训练稳定性。
Fuse（融）：针对每组游戏训练专门的模型后，通过参数平均的方式将不同组的模型参数融合为一个新模型。这种方法试图在组间传递知识，但可能因简单的平均操作而丢失某些组的特有特性。
Conquer（征服）：在融合模型基础上，针对合并后的游戏组继续进行强化学习训练，并引入多种技术以提升稳定性、效率和性能，包括格式奖励整形（Format Reward Shaping）、半负采样（Half-Negative Sampling）、混合优先采样（Mixed Priority Sampling）、ϵ-贪婪扰动（ϵ-Greedy Disturbance）、随机种子初始化（Randomized Seed Initialization）以及匆忙行动惩罚（Hasty-Action Penalty）。这些技术旨在解决训练崩溃、收敛缓慢和浅层推理等问题。

批判性思考：虽然DFC框架在概念上具有创新性，但参数融合的简单平均方法可能过于粗糙，未考虑不同组模型参数的重要性差异，可能导致性能损失。此外，多种辅助技术的叠加使用虽然提升了训练效果，但也增加了方法复杂性，难以判断哪些技术真正起到了关键作用，缺乏对各组件贡献的清晰分析。

Experiment

实验在TextArena平台上的18个游戏（包括4个单人游戏和14个双人游戏）中进行，使用Qwen2.5-32B-Align作为基础模型，并与Claude3.5进行对比。实验设置包括两种强化学习策略：直接多场景RL（Naive-MSRL）和本文提出的DFC-MSRL。

数据集与设置：游戏涵盖不同难度和类型，实验通过100次试验筛选游戏，并扩展难度级别以测试模型的迁移能力。训练使用64块NVIDIA A100 GPU，迭代次数为100，批量大小为1，输入长度上限为8192 token。
结果：DFC-MSRL在与Claude3.5的对抗中取得了7胜4平7负的成绩，相较于基础模型有显著提升，尤其在单人游戏（如TowerOfHanoi-v0）中胜率接近100%。然而，在复杂双人游戏（如LiarsDice-v0）中，模型表现仍不理想，胜率较低。消融实验表明，格式奖励整形、混合优先采样等技术对训练稳定性和收敛速度有积极影响。
评价与批判：实验设置较为全面，涵盖了多种游戏类型和难度，但结果显示DFC-MSRL在复杂游戏中的泛化能力仍有限，与Claude3.5的差距明显，表明方法改进虽有成效，但未完全解决多场景泛化问题。此外，实验未充分探讨游戏选择是否具有代表性，可能存在选择偏差，导致结果的普适性存疑。

Further Thoughts

DFC框架在多场景游戏中的应用展示了强化学习在提升LLM泛化能力方面的潜力，但其参数融合的简单平均方法可能限制了模型对不同场景特性的保留，未来可以探索基于任务相似性的加权融合或更复杂的参数整合技术。此外，论文提到的’Aha Moments’（顿悟时刻）虽然有趣，但缺乏对这一现象的深入分析和理论支持，未来研究可以结合认知科学或神经网络的可解释性方法，探究LLM在训练中突然性能提升的内在机制。另一个值得思考的方向是，DFC策略是否可以应用于非游戏领域的多任务学习，例如在自然语言处理的多领域对话系统或跨模态任务中，这种分组-融合-优化的思路可能为解决任务异质性问题提供新视角。然而，需要注意的是，DFC的计算成本较高，尤其是在大规模任务中，多次训练和融合可能导致资源消耗过大，未来需要在效率和效果之间找到更好的平衡。