The Avengers: A Simple Recipe for Uniting Smaller Language Models to Challenge Proprietary Giants

本文提出Avengers框架，通过无训练的嵌入、聚类、评分和投票操作，整合多个小型开源语言模型的集体智能，在15个多样化数据集上平均性能超越GPT-4.1，展现了开源模型挑战专有巨头的潜力。

Large Language Model, Multimodality, Efficiency, Human-AI Interaction, Reasoning

Yiqun Zhang, Hao Li, Chenxu Wang, Linyao Chen, Qiaosheng Zhang, Peng Ye, Shi Feng, Daling Wang, Zhen Wang, Xinrun Wang, Jia Xu, Lei Bai, Wanli Ouyang, Shuyue Hu

Northeastern University, Shanghai Artificial Intelligence Laboratory, Northwestern Polytechnical University, Beijing Institute of Technology, The University of Tokyo, Singapore Management University

Generated by grok-3

Background Problem

当前语言模型（LM）领域被少数专有巨头主导，构建超大规模模型的竞赛使得开源社区和资源有限的研究者逐渐被边缘化。论文提出一个关键问题：小型开源语言模型是否能在广泛任务上保持竞争力？这一工作的起点是通过利用多个小型模型的集体智能，挑战大型专有模型的霸主地位，旨在实现AI发展的民主化，减少对大规模计算资源的依赖，并探索可持续的AI研究路径。论文试图解决的核心问题是：如何在不依赖神经网络训练的情况下，有效整合多个小型模型的能力，使其整体性能在多样化任务上媲美甚至超越大型模型。

Method

论文提出了Avengers框架，通过以下四个轻量级操作实现小型语言模型的集体智能：

嵌入（Embedding）：使用文本嵌入模型将查询编码为语义向量，以捕捉查询的语义特征。
聚类（Clustering）：基于语义相似性对验证集中的查询进行聚类（如使用K-Means），将查询分组为不同类型。
评分（Scoring）：在验证集上评估每个模型在每个聚类中的性能，构建模型的聚类能力画像（即性能向量）。
投票（Voting）：在推理时，将测试查询嵌入并分配到最近的聚类，选择该聚类中表现最佳的模型（或多个模型），通过重复采样和多数投票（如Self-Consistency或其多模型变体）生成最终输出。

核心思想：通过‘适马配适赛’（horses for courses）的理念，为每个查询动态选择最适合的模型，而非依赖单一模型或混合策略。整个框架无需神经网络训练，强调可重现性和即插即用性，支持新模型和新任务的增量适应。

关键步骤：离线校准阶段构建查询类型和模型能力画像，在线推理阶段基于查询嵌入进行动态路由和输出生成。此外，框架还支持从候选池中自动选择互补模型组合。

批判性思考：虽然方法设计简洁且避免了训练开销，但其依赖于嵌入模型和聚类算法的质量，而论文未充分探讨当这些组件性能较差时的影响。此外，聚类数量K作为唯一超参数，虽然论文声称对其不敏感，但缺乏对极端值（如K过大或过小）影响的深入分析，可能在某些任务分布下导致路由失效。

Experiment

论文在15个数据集上进行了广泛实验，涵盖数学、代码、逻辑、知识和情感任务五大类别，并额外在5个分布外（OOD）数据集上测试泛化能力。

数据集与设置：主要数据集包括AIME、MBPP、ARC Challenge等，验证集占70%用于聚类和能力画像构建，测试集占30%。使用22个约7B参数的开源模型作为候选池，自动选择10个模型进行集成。嵌入模型默认使用gte-qwen2-7B-instruct，聚类算法为K-Means（K=64），推理时采用Self-Consistency策略（采样10轮）。
结果：Avengers在15个数据集中的平均得分为70.54，超越GPT-4.1的69.20，尤其在数学任务上提升18.21%，代码任务上提升7.46%，在9个数据集上表现优于GPT-4.1。然而，在知识密集型任务（如GPQA、MedQA）上仍落后于GPT-4.1。相比其他路由基线（如RouterDC、EmbedLLM），Avengers在OOD任务上表现更优，平均得分74.42，领先最佳基线8.14%。
消融实验：测试了不同嵌入模型、聚类方法、模型选择数量和集成策略的影响，结果显示Avengers对这些选择具有鲁棒性，例如在不同聚类方法下性能波动仅为70.04-70.71。
实验设计合理性：实验覆盖了多样化任务和OOD场景，设置较为全面，基线增强（如对所有方法应用Self-Consistency）确保了比较公平。然而，实验未充分探讨数据分布极端不平衡或嵌入模型质量极低时的表现，可能高估了方法的鲁棒性。此外，论文未提供对计算开销的详细分析，实际部署中的效率问题仍需验证。
批判性思考：虽然结果令人印象深刻，但部分数据集上的性能提升可能受到数据选择偏差的影响，且在知识密集型任务上的不足表明方法可能无法完全替代大型模型的广度。实验结果与预期一致，但未解决潜在的局限性，如在任务复杂度极高或模型能力分布极不均匀时的表现。

Further Thoughts

Avengers框架展示了一种轻量级、无训练的路由机制，其核心理念——利用模型多样性和任务特异性进行动态分配——可能不仅适用于语言模型，也值得在其他领域探索，如视觉基础模型或跨模态任务。例如，是否可以将类似聚类路由机制应用于多模态模型，针对图像、文本或音频输入选择最优子模型？此外，论文中提到的自动模型选择机制让我联想到生态学中的物种多样性与生态系统稳定性关系，或许可以通过引入信息论或博弈论工具，进一步量化模型互补性与整体性能提升之间的关系。另一个值得思考的方向是，Avengers在资源受限环境下的表现如何？如果嵌入模型或聚类计算本身成为瓶颈，是否可以通过更轻量级的近似方法（如随机投影）替代？这些问题可能为后续研究提供新的视角，同时也提醒我们，当前方法可能在计算效率和任务复杂性增加时面临挑战。