Posts
All the articles I've posted.
-
R-LoRA: Randomized Multi-Head LoRA for Efficient Multi-Task Learning
R-LoRA通过多头随机化(包括多头Dropout和随机初始化)增强了LoRA在多任务学习中的性能,有效提升了任务特定知识的捕获能力,同时降低了GPU内存使用和训练时间。
-
ALPS: Attention Localization and Pruning Strategy for Efficient Alignment of Large Language Models
本文提出 ALPS 算法,通过基于权重分布的参数对齐分布分数(sPAD)定位任务敏感注意力头并剪枝,仅更新 10% 的注意力参数即在通用、数学和代码任务上实现性能提升,同时展现头部可转移性和知识遗忘缓解效果。
-
R1-Compress: Long Chain-of-Thought Compression via Chunk Compression and Search
R1-Compress通过块级压缩和块间搜索机制有效压缩长链式推理(Long-CoT),在减少约20% token使用量的同时保持了与基线接近的推理准确率(92.4% vs 93.0%)。
-
Reinforcement Learning Outperforms Supervised Fine-Tuning: A Case Study on Audio Question Answering
本文通过将GRPO算法应用于Qwen2-Audio-7B-Instruct模型,在音频问答任务中取得了64.5%的最佳准确率,证明强化学习在小规模数据集上优于监督微调,但显式推理过程未显著提升性能,且与人类水平仍有差距。
-
Why Do More Experts Fail? A Theoretical Analysis of Model Merging
本文通过理论分析揭示了模型融合性能随专家模型数量增加而饱和的原因,并提出Reparameterized Heavy-Tailed方法扩展参数空间覆盖范围,在多个基准任务上验证了其有效性。