Tag: Fine-tuning

All the articles with the tag "Fine-tuning".

ShiQ: Bringing back Bellman to LLMs

Published: 20 May, 2025 at 11:23 AM

89.77 🤔

本文提出ShiQ算法，通过从Bellman一致性方程出发设计适应LLM特性的损失函数，支持离线、token级的强化学习微调，并在单轮和多轮任务中表现出优于DPO和CoPG的奖励优化能力。
Middle-Layer Representation Alignment for Cross-Lingual Transfer in Fine-Tuned LLMs

Published: 3 Jun, 2025 at 11:27 AM

89.76 🤔

本文提出了一种通过中间层表示对齐增强大型语言模型跨语言迁移能力的方法，在微调过程中交替优化任务和对齐目标，并在槽填充、机器翻译等任务中取得了改进，尤其对低资源语言有益。
Shadow-FT: Tuning Instruct via Base

Published: 25 May, 2025 at 11:25 AM

89.60 🤔

本文提出Shadow-FT框架，通过调优BASE模型并将权重更新直接移植到INSTRUCT模型，显著提升了大型语言模型在数学、编码和推理任务上的性能，同时不引入额外训练成本。
Memento No More: Coaching AI Agents to Master Multiple Tasks via Hints Internalization

Published: 5 Jun, 2025 at 11:25 AM

89.45 🤔

本文提出了一种通过迭代训练和人类反馈将提示内部化到模型权重中的方法，使基于Llama-3.1-70B的AI代理在多任务基准测试ToolQA和OfficeBench上分别达到97.9%和90.3%的成功率，超越GPT-4o和DeepSeek-V3，同时显著提升推理效率。
CoLA: Collaborative Low-Rank Adaptation

Published: 23 May, 2025 at 11:08 AM

89.45 🤔

CoLA通过提出灵活的LoRA架构和三种协作策略，结合扩展PiSSA初始化，显著提升了参数高效微调在多任务和数据稀缺场景下的性能和鲁棒性。

Tag: Fine-tuning

ShiQ: Bringing back Bellman to LLMs

Middle-Layer Representation Alignment for Cross-Lingual Transfer in Fine-Tuned LLMs

Shadow-FT: Tuning Instruct via Base

Memento No More: Coaching AI Agents to Master Multiple Tasks via Hints Internalization

CoLA: Collaborative Low-Rank Adaptation