Posts
All the articles I've posted.
-
Shallow Preference Signals: Large Language Model Aligns Even Better with Truncated Data?
本文提出并验证了'浅层偏好信号'现象,通过截断偏好数据集(保留前40%-50% token)训练奖励模型和DPO模型,性能与完整数据集相当甚至更优,并揭示了当前对齐方法过于关注早期token的局限性。
-
Learn to Reason Efficiently with Adaptive Length-based Reward Shaping
本文通过提出基于强化学习的LASER系列方法(LASER, LASER-D, LASER-DE),利用动态和难度感知的长度奖励塑造,在保持大型推理模型性能的同时显著提高token效率,在多个数学推理基准上实现了Pareto最优的准确率和效率权衡。
-
Context-Free Synthetic Data Mitigates Forgetting
本文提出了一种上下文无关合成数据(CFS)方法,通过生成无条件样本并结合微调和预训练损失,缓解大型语言模型在数据不可知场景下的灾难性遗忘,实验在Olmo-1B和R1-Distill-Llama-8B模型上验证了其有效性。
-
LoRA-One: One-Step Full Gradient Could Suffice for Fine-Tuning Large Language Models, Provably and Efficiently
本文通过理论分析揭示LoRA适配器与一步全微调梯度子空间的对齐特性,提出LoRA-One算法,利用谱初始化策略显著提升大型语言模型在自然语言理解、数学推理和代码生成任务上的微调性能,同时保持计算效率。
-
Thinking Fast and Right: Balancing Accuracy and Reasoning Length with Adaptive Rewards
本文提出自适应直接长度惩罚(A-DLP)方法,通过动态调整强化学习中的长度惩罚系数,在减少大型语言模型推理长度超过 50% 的同时保持准确性,为构建高效推理模型提供了新方向。