Tag: Instruction Tuning
All the articles with the tag "Instruction Tuning".
-
Improving Multilingual Language Models by Aligning Representations through Steering
本文提出了一种通过表示引导调整大型语言模型层级表示的方法,以提升多语言任务性能,实验显示其在多种任务中优于基本提示并接近翻译基线,但对英语任务有负面影响且对低资源语言改进有限。
-
RAISE: Reinforced Adaptive Instruction Selection For Large Language Models
本文提出 RAISE 框架,通过强化学习驱动的动态指令选择方法,根据指令对模型性能的预期影响自适应选择训练数据,仅用 1% 训练步骤即可超越全数据训练效果,并在多个基准测试中显著优于静态选择基线。
-
ThinkLess: A Training-Free Inference-Efficient Method for Reducing Reasoning Redundancy
ThinkLess 提出了一种无需训练的推理效率提升框架,通过注意力分析揭示 CoT 推理冗余并早期终止生成,结合轻量级输出调节机制,在保持准确率的同时显著降低 token 使用量和推理时间。
-
InftyThink: Breaking the Length Limits of Long-Context Reasoning in Large Language Models
INFTYTHINK通过将长上下文推理分解为迭代短推理片段并结合中间总结,突破了大型语言模型的上下文长度限制,在多个基准上显著提升性能,同时降低了计算成本。
-
Latent Principle Discovery for Language Model Self-Improvement
本文提出STaPLe算法,通过Monte Carlo EM方法自动化发现和学习语言模型自我改进的潜在原则,在多个指令跟随基准上显著提升小型模型性能,同时通过聚类生成人类可解释的宪法。