Tag: Audio Generation

All the articles with the tag "Audio Generation".

Reinforcement Learning Outperforms Supervised Fine-Tuning: A Case Study on Audio Question Answering

Published: 18 May, 2025 at 11:22 AM

86.89 🤔

本文通过将GRPO算法应用于Qwen2-Audio-7B-Instruct模型，在音频问答任务中取得了64.5%的最佳准确率，证明强化学习在小规模数据集上优于监督微调，但显式推理过程未显著提升性能，且与人类水平仍有差距。
Kimi-Audio Technical Report

Published: 4 May, 2025 at 04:32 PM

64.70 🤔

本文提出Kimi-Audio，一个开源的音频基础模型，通过结合音频分词、LLM处理和逆分词的统一架构，以及大规模多模态训练，实现了音频理解、生成和对话的多任务SOTA性能。