Tag: Fine-tuning

All the articles with the tag "Fine-tuning".

Zebra-Llama: Towards Extremely Efficient Hybrid Models

Published: 31 May, 2025 at 11:34 AM

89.05 🤔

Zebra-Llama通过结合状态空间模型和多头潜在注意力层，从预训练Transformer构建高效混合模型，显著降低KV缓存大小并提升推理吞吐量，同时保持或超越基线性能。
The Effect of Language Diversity When Fine-Tuning Large Language Models for Translation

Published: 26 May, 2025 at 11:23 AM

88.75 🤔

本文通过系统性实验证明，在大型语言模型微调中增加语言多样性可显著提升所有类别翻译对的性能，并通过中层表征分析揭示跨语言迁移机制，但多样性收益存在阈值。
Parameter-Efficient Fine-Tuning with Column Space Projection

Published: 31 May, 2025 at 11:16 AM

88.66 🤔

本文提出PiCa，一种基于谱特性的参数高效微调方法，通过将梯度投影到预训练权重的低秩列子空间并结合权重共享，在显著减少参数量的同时实现了优于LoRA和SVFT的性能。
Who Taught You That? Tracing Teachers in Model Distillation

Published: 22 May, 2025 at 11:11 AM

88.50 🤔

本文提出了一种基于句法模式（PoS 模板）的方法，通过学生模型输出的高阶语言特征识别其教师模型，并在多个任务和数据集上验证了其优于传统相似度和困惑度方法的性能，但准确率仍有待提升。
Layer Swapping for Zero-Shot Cross-Lingual Transfer in Large Language Models

Published: 31 May, 2025 at 11:35 AM

88.25 🤔

本文提出了一种层交换方法，通过将语言专家模型的顶部和底部层与数学专家模型的中间层重组，实现零样本跨语言迁移，在低资源语言的数学推理任务上显著提升性能达10%。

Tag: Fine-tuning

Zebra-Llama: Towards Extremely Efficient Hybrid Models

The Effect of Language Diversity When Fine-Tuning Large Language Models for Translation

Parameter-Efficient Fine-Tuning with Column Space Projection

Who Taught You That? Tracing Teachers in Model Distillation

Layer Swapping for Zero-Shot Cross-Lingual Transfer in Large Language Models