Posts
All the articles I've posted.
-
Toward Understanding In-context vs. In-weight Learning
本文通过一个简化的理论模型和多场景实验,揭示了数据分布特性如何驱动上下文学习(ICL)和权重学习(IWL)的出现与竞争,并解释了ICL在训练过程中可能短暂的原因。
-
On the generalization of language models from in-context learning and finetuning: a controlled study
本文通过控制实验比较了语言模型在上下文学习和微调下的泛化能力,发现上下文学习更灵活,并提出通过数据增强方法显著改善微调的泛化性能。
-
Effective Length Extrapolation via Dimension-Wise Positional Embeddings Manipulation
本文提出DPE,一种无需训练的长文本外推方法,通过检测RoPE不同维度组的有效相对距离并识别关键维度,有选择地调整这些关键维度的位置索引,显著扩展了LLM的上下文窗口并提升了长文本任务性能。
-
Discriminative Finetuning of Generative Large Language Models without Reward Models and Human Preference Data
本文提出判别式微调(DFT)框架,通过判别式概率模型优化大型语言模型的输出概率,无需人类偏好数据或奖励模型,在数学推理和通用语言任务上显著优于SFT并与SFT→PO方法相当。
-
TT-LoRA MoE: Unifying Parameter-Efficient Fine-Tuning and Sparse Mixture-of-Experts
本文提出 TT-LoRA MoE 框架,通过两阶段解耦的专家训练和路由机制,实现了参数高效的多任务学习,显著减少计算开销并保持性能。