Tag: Fine-tuning
All the articles with the tag "Fine-tuning".
-
TL;DR: Too Long, Do Re-weighting for Effcient LLM Reasoning Compression
本文提出TLDR方法,通过动态再加权系统1和系统2推理数据,显著压缩大型语言模型的推理输出token数量(约40%),同时在多难度数学任务上基本保持准确性。
-
Memento No More: Coaching AI Agents to Master Multiple Tasks via Hints Internalization
本文提出了一种通过迭代训练和人类反馈将提示内部化到模型权重中的方法,使基于Llama-3.1-70B的AI代理在多任务基准测试ToolQA和OfficeBench上分别达到97.9%和90.3%的成功率,超越GPT-4o和DeepSeek-V3,同时显著提升推理效率。
-
QKV Projections Require a Fraction of Their Memory
本文提出PAMM方法,通过随机选择代表性token近似输入张量,大幅减少注意力机制中Q、K、V投影的内存占用(高达512倍),同时在预训练和微调中基本维持模型性能。
-
Mixup Model Merge: Enhancing Model Merging Performance through Randomized Linear Interpolation
本文提出Mixup Model Merge (M³) 方法,通过在参数空间中随机线性插值并利用Beta分布采样贡献比例,显著提升了大语言模型合并的性能、分布外鲁棒性和对抗鲁棒性。
-
Improving the Language Understanding Capabilities of Large Language Models Using Reinforcement Learning
本文通过将自然语言理解任务转化为强化学习问题,使用PPO算法微调中小规模LLMs,在GLUE和SuperGLUE基准上显著提升性能,超越监督微调和BERT-large,并展现出优于GPT-4o的零样本泛化能力。