Posts
All the articles I've posted.
-
EfficientLLM: Efficiency in Large Language Models
EfficientLLM通过大规模实证基准测试,系统评估了大型语言模型在架构预训练、微调和推理阶段的效率优化技术,揭示了资源权衡和任务依赖性,为从业者提供了基于数据的模型和技术选择指导。
-
Unveiling the Mechanisms of Explicit CoT Training: How CoT Enhances Reasoning Generalization
本文通过控制实验、内部机制分析和理论推导,揭示了显式思维链(CoT)训练通过形成二阶段泛化电路显著提升大型语言模型的分布内(ID)和分布外(OOD)推理泛化能力,并验证了其在噪声数据下的鲁棒性。
-
Data Whisperer: Efficient Data Selection for Task-Specific LLM Fine-Tuning via Few-Shot In-Context Learning
Data Whisperer 提出了一种高效、无需训练的基于注意力机制的数据选择方法,通过少样本上下文学习为任务特定的大型语言模型微调选择最优数据子集,在小数据场景下显著提升性能并大幅降低计算成本。
-
Concise Reasoning, Big Gains: Pruning Long Reasoning Trace with Difficulty-Aware Prompting
本文提出难度感知提示(DAP)方法,通过动态调整推理轨迹长度构建精简的LiteCoT数据集(100K样本,平均720token),训练的Liter模型在多个推理基准上显著优于传统长CoT方法,同时大幅降低训练和推理成本。
-
Emergence and Effectiveness of Task Vectors in In-Context Learning: An Encoder Decoder Perspective
本文通过编码-解码框架研究任务向量在上下文学习中的浮现与有效性,提出任务可解码性(TD)指标预测ICL性能,并发现微调早期层比后期层更能提升任务编码和性能。