Tag: Fine-tuning
All the articles with the tag "Fine-tuning".
-
Kimi-Audio Technical Report
本文提出Kimi-Audio,一个开源的音频基础模型,通过结合音频分词、LLM处理和逆分词的统一架构,以及大规模多模态训练,实现了音频理解、生成和对话的多任务SOTA性能。
-
MAC-Tuning: LLM Multi-Compositional Problem Reasoning with Enhanced Knowledge Boundary Awareness
本文提出MAC-Tuning方法,通过分步微调分离答案预测和置信度估计,提升LLMs在多问题设置下的知识边界意识,显著减少幻觉并改善性能。
-
DeepSeek-Prover-V2: Advancing Formal Mathematical Reasoning via Reinforcement Learning for Subgoal Decomposition
本文提出DeepSeek-Prover-V2,通过子目标分解和强化学习统一非正式和正式数学推理,显著提升了神经定理证明的性能,在多个基准上达到最先进水平。
-
MARFT: Multi-Agent Reinforcement Fine-Tuning
本文提出MARFT框架,通过序列决策和信任区域优化在LLM-based多代理系统中实现高效强化微调,提升代理协作能力并解决传统MARL的适用性问题。
-
Diff-Prompt: Diffusion-Driven Prompt Generator with Mask Supervision
本文提出Diff-Prompt方法,使用扩散模型基于掩码监督生成细粒度提示信息,显著提升预训练多模态模型在复杂指代表达理解任务上的性能,同时保持高效微调。