Posts
All the articles I've posted.
-
How much do language models memorize?
本文提出了一种基于信息论的记忆量化方法,通过区分无意记忆和泛化,测量GPT风格语言模型的容量约为每个参数3.6比特,并揭示了数据集规模与模型容量比对双重下降和成员推断性能的影响。
-
Enhancing Efficiency and Exploration in Reinforcement Learning for LLMs
本文提出动态采样预算分配和温度调度机制,通过基于问题难度的资源再分配和维持策略熵的探索能力,显著提升了大型语言模型在数学任务中的强化学习效率和性能,尤其在AIME 2024基准上pass@1和pass@16分别提高5.31%和3.33%。
-
An Analysis for Reasoning Bias of Language Models with Small Initialization
本文通过理论分析和实验验证,揭示了小参数初始化规模如何通过影响嵌入空间和训练动态,促使大型语言模型更倾向于推理任务而非记忆任务。
-
CREAM: Consistency Regularized Self-Rewarding Language Models
本文提出了CREAM(Consistency Regularized Self-Rewarding Language Model)方法,通过衡量自奖励过程中不同迭代模型之间排序的一致性来正则化偏好训练,从而缓解奖励偏差问题,提高小型语言模型的对齐性能和训练稳定性。
-
Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free
本文通过在softmax注意力机制的SDPA输出后引入头特定sigmoid门控机制,显著提升了15B MoE和1.7B密集模型的性能、训练稳定性和长上下文泛化能力,同时消除了注意力沉积现象。