Tag: Instruction Tuning
All the articles with the tag "Instruction Tuning".
-
本文提出自推理语言模型(SRLM),通过少量推理催化数据引导模型自生成更长推理链并迭代自训练,在多个推理基准上实现平均 +2.5 个百分点的性能提升,展现了探索深度和创造性推理路径的潜力。
-
From Words to Worlds: Compositionality for Cognitive Architectures
本文通过设计三种任务评估大型语言模型(LLMs)的组合性能力,发现模型规模扩大通常提升组合性表现,而指令微调效果不一致,提示组合性对性能提升的解释力有限。
-
Self-Tuning: Instructing LLMs to Effectively Acquire New Knowledge through Self-Teaching
本文提出SELF-TUNING框架,通过自教策略(SELF-TEACHING)显著提升大型语言模型从新文档中获取知识的能力,并在记忆、提取和推理任务上取得优异表现,同时保持较好的知识保留能力。
-
Learning Composable Chains-of-Thought
本文提出Composable Chain-of-Thought方法,通过数据增强改进原子任务CoT格式,并结合多任务学习或模型合并实现零样本组合推理,使用拒绝采样微调进一步提升性能,在字符串操作和自然语言任务上优于标准CoT基准。
-
Shadow-FT: Tuning Instruct via Base
本文提出Shadow-FT框架,通过调优BASE模型并将权重更新直接移植到INSTRUCT模型,显著提升了大型语言模型在数学、编码和推理任务上的性能,同时不引入额外训练成本。