Posts
All the articles I've posted.
-
Leveraging Importance Sampling to Detach Alignment Modules from Large Language Models
本文提出残差对齐模型(RAM),通过重要性采样分离对齐模块,实现高效的序列级训练和令牌级解码,在多个对齐任务中显著提升性能并降低资源成本。
-
Rethinking Memory in AI: Taxonomy, Operations, Topics, and Future Directions
本文通过提出AI记忆系统的分类(参数、上下文结构化和非结构化)和六种基本操作(整合、更新、索引、遗忘、检索、压缩),系统化地综述了长期记忆、长上下文、参数修改和多源记忆等研究主题,并展望了未来方向。
-
The Quest for Efficient Reasoning: A Data-Centric Benchmark to CoT Distillation
本文提出DC-CoT基准,通过系统评估数据增强、选择和混合策略在链式思维(CoT)蒸馏中的效果,揭示数据增强(如反向思维)对小型学生模型推理能力提升的显著作用,并为高效推理模型开发提供了实践指导。
-
Concise Reasoning via Reinforcement Learning
本文提出了一种两阶段强化学习训练策略,通过在极小数据集上分阶段优化推理能力和简洁性,显著减少大型语言模型的响应长度(最高54%),同时保持甚至提升准确性,并增强低采样强度下的鲁棒性。
-
Benchmarking Post-Training Quantization in LLMs: Comprehensive Taxonomy, Unified Evaluation, and Comparative Analysis
本文通过提出 PTQ-Bench 基准测试框架,系统评估了大型语言模型后训练量化(PTQ)策略的跨位宽、跨结构和跨模态鲁棒性,发现旋转型和补偿型策略在低位量化中表现优异,并提出极低位量化需重新审视及补偿型策略结合其他方法可显著提升鲁棒性的关键见解。