LiSTEN: Learning Soft Token Embeddings for Neural Audio LLMs

本文提出LiSTEN框架，通过动态提示选择策略高效适应大型语言模型到音频任务，在减少大规模数据集依赖和训练参数量的同时，实现了多任务学习中的竞争性能和更高的可解释性。

Large Language Model, Parameter-Efficient Fine-Tuning, Prompt Engineering, Multimodal Systems, Representation Learning

Pooneh Mousavi, Shubham Gupta, Cem Subakan, Mirco Ravanelli

Concordia University, Canada, Universite Laval, Canada, Mila - Quebec AI Institute, Canada

Generated by grok-3

Background Problem

大型语言模型（LLMs）在处理多模态任务时表现出色，但将其适应到音频语言任务（如语音识别、情感识别、语音问答等）面临挑战，包括不同声学环境的适应性和任务多样性导致的过拟合问题。现有方法通常依赖大规模自动语音识别（ASR）或音频字幕（ACAP）数据集进行多阶段训练，可能导致任务过拟合和对新任务的泛化能力不足，尤其是在少样本（Few-Shot）或零样本（Zero-Shot）场景下。此外，传统参数高效微调方法（如LoRA）可能丢失文本常识知识，而任务特定提示方法则缺乏跨任务的共享知识，限制了模型的可扩展性。本文提出LiSTEN框架，旨在通过动态提示选择策略减少对大规模数据集的依赖，并提升模型在多任务音频处理中的适应性和泛化能力。

Method

LiSTEN（Learning Soft Token Embeddings for Neural Audio LLMs）是一个用于将大型语言模型（LLMs）适应到音频任务的框架，其核心思想是通过动态提示选择（Dynamic Prompt Selection, DPS）策略，基于输入语音和任务指令动态选择可学习的提示（Soft Prompts），以平衡任务通用和任务特定知识，避免过拟合和知识遗忘。

具体实现步骤如下：

音频编码：使用预训练的Whisper（处理语音）和BEATs（处理非语音音频）作为音频编码器，将其输出特征在50Hz帧率下拼接，形成统一的音频表示。
特征处理：通过Q-Former结构（原本用于图像处理）处理变长音频输入，将音频特征分窗处理并转换为语言模型可接受的文本令牌。
提示池与动态选择：构建一个包含可学习键值对的提示池（Prompt Pool），通过输入语音和文本指令的平均特征向量作为查询（Query），与提示池中的键（Keys）进行匹配，选择最相关的提示值（Values）作为输入到LLM的软提示。提示选择策略包括：
- 相似性选择：基于查询与键的余弦相似度选择top-k提示。
- 注意力选择：基于注意力分数加权选择提示。
- 残差选择：通过迭代残差最小化选择提示，鼓励提示多样性。
- 随机选择：在训练时随机采样提示长度，提升推理灵活性。
训练目标：仅训练Q-Former和提示池的键值对参数，结合辅助损失（如键距离、注意力熵或残差和）优化提示选择过程。

关键创新：与传统LoRA或固定软提示不同，LiSTEN通过动态提示选择实现任务自适应，避免手动设计提示或跨任务共享参数导致的过拟合问题，同时减少训练参数量和数据需求。

批判性思考：虽然动态提示选择理论上提供了更高的灵活性和可解释性，但其复杂性可能引入不稳定性，例如提示选择是否对输入噪声敏感？此外，提示池规模（400个令牌）和选择策略（如top-k）的超参数如何影响性能，论文未提供充分的消融分析，方法的鲁棒性存疑。

Experiment

实验在多个音频任务上进行，包括自动语音识别（ASR）、英中语音翻译（En2Zh）、情感识别（ER）、说话人验证（SV）、语音问答（SQA）和音频字幕（ACAP），使用的数据集包括LibriSpeech、CommonVoice、IEMOCAP等，评估指标涵盖词错误率（WER）、字符错误率（CER）、准确率（ACC）、Rouge-L和BLEU等。

实验设置：所有方法训练迭代次数一致（90K次），使用单个H100 GPU，提示池规模为400个令牌，推理时默认选择160个令牌（部分实验为10个），优化器为AdamW，学习率采用预热余弦调度。骨干模型为LLaMA 8B，与SALMONN的设置保持一致以便对比。

结果分析：

性能对比：相似性基础的动态提示选择（DPS, similarity）在8个评估指标中6个达到最佳或次佳表现，优于LoRA和固定软提示，尤其在ER（ACC 0.6462）和ASR（WER 0.0426）任务上表现突出。随机版本（Stochastic DPS）在推理时使用较小提示长度（10个令牌）仍接近LoRA性能，显示出推理效率优势。
与SALMONN对比：尽管LiSTEN在部分任务上不如SALMONN（使用更大规模数据集和13B模型），但其在较小数据集和单阶段训练下仍具竞争力，验证了减少数据依赖的可行性。
提示多样性：提示使用分布分析显示，相似任务（如ASR和QA）共享较多令牌，而不同任务（如ER和ACAP）选择不同令牌，体现了方法的自适应性和可解释性。

批判性思考：实验设置虽覆盖多任务，但数据集规模较小，且与SALMONN的对比因模型规模和数据量差异而不完全公平，难以证明方法的绝对优越性。此外，提示池规模和提示长度对性能的影响未充分探讨，实验缺乏对超参数敏感性和模型鲁棒性的分析，限制了结果的说服力。总体而言，实验结果支持动态提示选择的潜力，但其在实际应用中的稳定性和泛化能力仍需更多验证。

Further Thoughts

LiSTEN提出的动态提示选择策略为音频语言模型的适应提供了一个新颖视角，尤其是在减少数据依赖和提升可解释性方面的潜力值得关注。然而，我认为其方法可能面临实际应用中的挑战，例如提示选择对输入噪声或任务分布变化的鲁棒性问题。未来可以探索将动态提示选择与其他参数高效微调方法（如LoRA）结合，以进一步提升性能和稳定性。此外，提示多样性分析启发了我对跨任务知识共享的思考：是否可以通过分析提示分布，设计一种任务聚类机制，将相关任务的提示池共享，从而进一步减少参数量并提升零样本泛化能力？这种思路可能与多模态系统中任务间关系建模的研究（如跨模态对齐）相关联，值得进一步探索。