Tag: Audio Generation
All the articles with the tag "Audio Generation".
-
Reinforcement Learning Outperforms Supervised Fine-Tuning: A Case Study on Audio Question Answering
本文通过将GRPO算法应用于Qwen2-Audio-7B-Instruct模型,在音频问答任务中取得了64.5%的最佳准确率,证明强化学习在小规模数据集上优于监督微调,但显式推理过程未显著提升性能,且与人类水平仍有差距。
-
Kimi-Audio Technical Report
本文提出Kimi-Audio,一个开源的音频基础模型,通过结合音频分词、LLM处理和逆分词的统一架构,以及大规模多模态训练,实现了音频理解、生成和对话的多任务SOTA性能。