Skip to content
Go back 2505.18517 arXiv logo

LiSTEN: Learning Soft Token Embeddings for Neural Audio LLMs

Published:  at  11:20 AM
88.81 🤔

本文提出LiSTEN框架,通过动态提示选择策略高效适应大型语言模型到音频任务,在减少大规模数据集依赖和训练参数量的同时,实现了多任务学习中的竞争性能和更高的可解释性。

Large Language Model, Parameter-Efficient Fine-Tuning, Prompt Engineering, Multimodal Systems, Representation Learning

Pooneh Mousavi, Shubham Gupta, Cem Subakan, Mirco Ravanelli

Concordia University, Canada, Universite Laval, Canada, Mila - Quebec AI Institute, Canada

Generated by grok-3

Background Problem

大型语言模型(LLMs)在处理多模态任务时表现出色,但将其适应到音频语言任务(如语音识别、情感识别、语音问答等)面临挑战,包括不同声学环境的适应性和任务多样性导致的过拟合问题。现有方法通常依赖大规模自动语音识别(ASR)或音频字幕(ACAP)数据集进行多阶段训练,可能导致任务过拟合和对新任务的泛化能力不足,尤其是在少样本(Few-Shot)或零样本(Zero-Shot)场景下。此外,传统参数高效微调方法(如LoRA)可能丢失文本常识知识,而任务特定提示方法则缺乏跨任务的共享知识,限制了模型的可扩展性。本文提出LiSTEN框架,旨在通过动态提示选择策略减少对大规模数据集的依赖,并提升模型在多任务音频处理中的适应性和泛化能力。

Method

LiSTEN(Learning Soft Token Embeddings for Neural Audio LLMs)是一个用于将大型语言模型(LLMs)适应到音频任务的框架,其核心思想是通过动态提示选择(Dynamic Prompt Selection, DPS)策略,基于输入语音和任务指令动态选择可学习的提示(Soft Prompts),以平衡任务通用和任务特定知识,避免过拟合和知识遗忘。

具体实现步骤如下:

关键创新:与传统LoRA或固定软提示不同,LiSTEN通过动态提示选择实现任务自适应,避免手动设计提示或跨任务共享参数导致的过拟合问题,同时减少训练参数量和数据需求。

批判性思考:虽然动态提示选择理论上提供了更高的灵活性和可解释性,但其复杂性可能引入不稳定性,例如提示选择是否对输入噪声敏感?此外,提示池规模(400个令牌)和选择策略(如top-k)的超参数如何影响性能,论文未提供充分的消融分析,方法的鲁棒性存疑。

Experiment

实验在多个音频任务上进行,包括自动语音识别(ASR)、英中语音翻译(En2Zh)、情感识别(ER)、说话人验证(SV)、语音问答(SQA)和音频字幕(ACAP),使用的数据集包括LibriSpeech、CommonVoice、IEMOCAP等,评估指标涵盖词错误率(WER)、字符错误率(CER)、准确率(ACC)、Rouge-L和BLEU等。

实验设置:所有方法训练迭代次数一致(90K次),使用单个H100 GPU,提示池规模为400个令牌,推理时默认选择160个令牌(部分实验为10个),优化器为AdamW,学习率采用预热余弦调度。骨干模型为LLaMA 8B,与SALMONN的设置保持一致以便对比。

结果分析

批判性思考:实验设置虽覆盖多任务,但数据集规模较小,且与SALMONN的对比因模型规模和数据量差异而不完全公平,难以证明方法的绝对优越性。此外,提示池规模和提示长度对性能的影响未充分探讨,实验缺乏对超参数敏感性和模型鲁棒性的分析,限制了结果的说服力。总体而言,实验结果支持动态提示选择的潜力,但其在实际应用中的稳定性和泛化能力仍需更多验证。

Further Thoughts

LiSTEN提出的动态提示选择策略为音频语言模型的适应提供了一个新颖视角,尤其是在减少数据依赖和提升可解释性方面的潜力值得关注。然而,我认为其方法可能面临实际应用中的挑战,例如提示选择对输入噪声或任务分布变化的鲁棒性问题。未来可以探索将动态提示选择与其他参数高效微调方法(如LoRA)结合,以进一步提升性能和稳定性。此外,提示多样性分析启发了我对跨任务知识共享的思考:是否可以通过分析提示分布,设计一种任务聚类机制,将相关任务的提示池共享,从而进一步减少参数量并提升零样本泛化能力?这种思路可能与多模态系统中任务间关系建模的研究(如跨模态对齐)相关联,值得进一步探索。



Previous Post
Can Large Reasoning Models Self-Train?
Next Post
Behavior Injection: Preparing Language Models for Reinforcement Learning