Posts

All the articles I've posted.

Efficient Knowledge Transfer in Multi-Task Learning through Task-Adaptive Low-Rank Representation

Published: 4 May, 2025 at 04:32 PM

87.85 🤔

本文提出 TA-LoRA 方法，通过任务自适应低秩表示和快速-缓慢权重机制提升多任务学习的知识转移效率，实现对未见任务的优异泛化性能，同时保持高参数效率。
Does quantization affect models' performance on long-context tasks?

Published: 2 Jun, 2025 at 11:34 AM

87.84 🤔

本文系统评估了量化对大型语言模型在长上下文任务中的性能影响，发现8-bit量化基本保持准确率（下降约0.8%），而4-bit量化导致显著损失（最高达59%），且影响因模型、任务和语言而异，强调了在长上下文和多语言场景下谨慎应用量化的必要性。
LoKI: Low-damage Knowledge Implanting of Large Language Models

Published: 2 Jun, 2025 at 11:23 AM

87.82 🤔

本文提出LoKI，一种参数高效微调框架，通过分析Transformer FFN层的知识存储机制和层平衡参数选择策略，在下游任务适应和预训练知识保留之间实现了竞争性平衡。
Longer Context, Deeper Thinking: Uncovering the Role of Long-Context Ability in Reasoning

Published: 30 May, 2025 at 11:16 AM

87.82 🤔

本文通过实验验证了长上下文能力与推理性能的正相关，提出在监督微调前增强长上下文能力的训练策略，并在数学推理基准上显著提升了模型性能。
EMORL: Ensemble Multi-Objective Reinforcement Learning for Efficient and Flexible LLM Fine-Tuning

Published: 7 May, 2025 at 09:32 AM

87.79 🤔

本文提出EMORL框架，通过集成学习分别训练单目标模型并在隐藏状态层聚合，结合分层网格搜索优化权重，在咨询反思生成任务中实现了与传统方法相当的性能，同时显著提升了训练效率、可扩展性和解释性。

Posts

Efficient Knowledge Transfer in Multi-Task Learning through Task-Adaptive Low-Rank Representation

Does quantization affect models' performance on long-context tasks?

LoKI: Low-damage Knowledge Implanting of Large Language Models

Longer Context, Deeper Thinking: Uncovering the Role of Long-Context Ability in Reasoning

EMORL: Ensemble Multi-Objective Reinforcement Learning for Efficient and Flexible LLM Fine-Tuning