Posts
All the articles I've posted.
-
Language Model Distillation: A Temporal Difference Imitation Learning Perspective
本文提出了一种基于时间差分学习的模型蒸馏框架,利用大型语言模型输出分布的稀疏性,通过top-p候选集缩减动作空间,在指令跟随任务中实现了性能提升和计算效率的改进。
-
Efficient Length-Generalizable Attention via Causal Retrieval for Long-Context Language Modeling
本文提出Grouped Cross Attention (GCA)机制,通过可微分检索和动态上下文选择实现Transformer模型的长度泛化,在16M上下文长度下达到完美passkey检索准确率,同时显著降低计算和内存成本。
-
Cross-Lingual Optimization for Language Transfer in Large Language Models
本文提出跨语言优化(CLO)方法,通过翻译数据和改进的DPO策略,将英语中心的大型语言模型有效转移到目标语言,在保持英语能力的同时显著提升目标语言性能,尤其在低资源语言中以更少数据取得优于传统SFT的结果。
-
Interleaved Reasoning for Large Language Models via Reinforcement Learning
本文提出了一种交错推理范式,通过强化学习训练大型语言模型交替思考和回答,显著降低时间到首token(TTFT)超过80%,并在多个推理任务上提升准确率最高达19.3%。
-
Structured Agent Distillation for Large Language Model
本文提出结构化代理蒸馏框架,通过分割大型语言模型代理轨迹为推理和行动片段并施加分段特定监督,在压缩模型时显著提升任务成功率、推理效率和一致性,优于token级基线。