Skip to content
Go back 2503.11197 arXiv logo

Reinforcement Learning Outperforms Supervised Fine-Tuning: A Case Study on Audio Question Answering

Published:  at  11:22 AM
86.89 🤔

本文通过将GRPO算法应用于Qwen2-Audio-7B-Instruct模型,在音频问答任务中取得了64.5%的最佳准确率,证明强化学习在小规模数据集上优于监督微调,但显式推理过程未显著提升性能,且与人类水平仍有差距。

Reinforcement Learning, Large Language Model, Multimodal Systems, Reasoning, Audio Generation

Gang Li, Jizhong Liu, Heinrich Dinkel, Yadong Niu, Junbo Zhang, Jian Luan

Xiaomi Corporation, China

Generated by grok-3

Background Problem

近年来,大型语言模型(LLMs)通过强化学习(RL)显著提升了推理能力,尤其在数学和编码等复杂任务中表现突出。然而,音频模态在这一领域的发展相对滞后,大型音频语言模型(LALMs)主要依赖预训练和监督微调(SFT),缺乏对RL的探索。音频问答(AQA)作为一种多模态任务,要求模型基于音频内容理解和推理,生成准确回答,涉及音频和语言模态的深度整合,因此成为测试RL在音频模态中复杂推理能力的理想基准。本文旨在探索RL在AQA任务中的有效性,解决LALMs在音频-语言推理中的不足,并验证RL是否能在小规模数据集上超越SFT。

Method

本文提出了一种基于强化学习(RL)的训练方法,核心目标是将组相对策略优化(GRPO)算法应用于大型音频语言模型(LALMs),以提升音频问答(AQA)任务的推理能力。

批评:GRPO算法的实现细节描述不足,例如奖励模型的具体设计和超参数选择的依据未充分说明,可能影响结果的可重复性。此外,显式推理过程未显示显著优势,但论文未提供理论分析或足够的消融实验来解释这一现象,限制了方法的可信度和进一步优化的方向。

Experiment

本文在MMAU Test-mini基准测试上评估了强化学习(RL)和监督微调(SFT)的效果,实验设计采用分布外测试方法,训练数据来自AVQA数据集(约38k样本,音频-文本对),测试数据为MMAU Test-mini(1000样本,涵盖声音、音乐和语音领域)。

批评:实验设置合理,但训练样本规模较小(38k),可能限制模型潜力,且未讨论数据分布差异对结果的影响。对不同音频类型(声音、音乐、语音)表现差异的分析不足,未能揭示模型在特定领域中的优劣。此外,显式推理未带来显著提升,但缺乏深入的消融实验或理论支持来解释原因,实验结果的说服力有待加强。

Further Thoughts

本文在音频模态中应用强化学习(RL)是一个有意义的尝试,尤其是在音频问答(AQA)任务中验证了RL对生成-验证差距任务的适用性。然而,显式推理过程(CoT)未带来显著提升,这一现象值得进一步探索。是否可以通过设计更复杂的奖励函数,鼓励模型在音频理解中进行更细粒度的推理?或者,是否可以借鉴视觉模态中的成功经验(如LLaVA-CoT在小样本训练中的结构化思维方法),通过跨模态知识迁移提升音频推理能力?

此外,LALMs与人类在音频-语言推理上的差距(64.5% vs 82.23%)提示我们,当前模型可能在处理复杂音频模式或时间关系时存在局限。未来的研究可以考虑结合时间序列数据处理技术(如时间序列嵌入或专门的音频特征提取方法),以增强模型对音频内容的理解深度。同时,是否可以通过多模态协同推理(例如结合视觉和音频数据)进一步缩小与人类水平的差距,也是一个值得探索的方向。

最后,本文的实验结果基于小规模数据集,未来是否能在更大规模、更多样化的音频数据集上验证RL的优势,以及如何优化GRPO算法以适应不同规模的模型和数据,都是值得深入研究的问题。



Previous Post
Theoretical Insights into Fine-Tuning Attention Mechanism: Generalization and Optimization
Next Post
Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models