Posts
All the articles I've posted.
-
SLearnLLM: A Self-Learning Framework for Efficient Domain-Specific Adaptation of Large Language Models
SLearnLLM提出了一种自学习框架,通过让大语言模型自我评估并筛选错误回答的QA对进行微调,在农业和医疗领域实现了与全数据集微调相当的性能提升,同时显著降低了训练时间成本。
-
RL in Name Only? Analyzing the Structural Assumptions in RL post-training for LLMs
本文通过理论和实验分析,揭示了当前RL(如GRPO)在LLM后训练中的MDP结构假设使其退化为过滤迭代监督微调,并指出响应长度增加源于奖励分配偏差,而非推理能力提升。
-
Self-Data Distillation for Recovering Quality in Pruned Large Language Models
本文提出自数据蒸馏微调方法,通过利用未剪枝模型生成蒸馏数据集恢复剪枝后大型语言模型的质量,在HuggingFace OpenLLM Leaderboard v1上显著优于标准监督微调,并通过模型合并和推测解码进一步提升性能和效率。
-
Log-Augmented Generation: Scaling Test-Time Reasoning with Reusable Computation
本文提出日志增强生成(LAG)框架,通过使用KV缓存直接复用过去的推理计算,显著提升大型语言模型在知识和推理密集型任务上的准确性和效率,优于标准代理系统及现有反思和KV缓存方法。
-
Task Specific Pruning with LLM-Sieve: How Many Parameters Does Your Task Really Need?
LLM-Sieve提出了一种任务特定的剪枝框架,通过联合低秩投影和遗传算法实现差异化剪枝,在保持1-5%精度损失下减少20-75%的参数,显著优于现有方法,并与LoRA微调和量化兼容。