Tag: Reasoning

All the articles with the tag "Reasoning".

Shadow-FT: Tuning Instruct via Base

Published: 25 May, 2025 at 11:25 AM

89.60 🤔

本文提出Shadow-FT框架，通过调优BASE模型并将权重更新直接移植到INSTRUCT模型，显著提升了大型语言模型在数学、编码和推理任务上的性能，同时不引入额外训练成本。
Memento No More: Coaching AI Agents to Master Multiple Tasks via Hints Internalization

Published: 5 Jun, 2025 at 11:25 AM

89.45 🤔

本文提出了一种通过迭代训练和人类反馈将提示内部化到模型权重中的方法，使基于Llama-3.1-70B的AI代理在多任务基准测试ToolQA和OfficeBench上分别达到97.9%和90.3%的成功率，超越GPT-4o和DeepSeek-V3，同时显著提升推理效率。
RaCT: Ranking-aware Chain-of-Thought Optimization for LLMs

Published: 1 Jun, 2025 at 11:51 AM

89.43 🤔

RaCT通过链式思维（CoT）提示和排序偏好优化（RPO）的两阶段训练框架，显著提升了大型语言模型在文本重排序任务中的性能，同时保留了其通用语言建模能力，在多个基准上超越基线模型。
Understanding Fact Recall in Language Models: Why Two-Stage Training Encourages Memorization but Mixed Training Teaches Knowledge

Published: 24 May, 2025 at 11:12 AM

89.35 🤔

本文通过跨任务梯度追踪工具揭示了混合训练通过增加共享参数的数量和重要性，并在关键注意力头中集中这些参数，从而教授知识并提升语言模型的事实回忆泛化能力。
Unveiling the Key Factors for Distilling Chain-of-Thought Reasoning

Published: 28 May, 2025 at 11:23 AM

89.33 🤔

本文系统研究了CoT蒸馏中教师模型选择、粒度和格式对小型语言模型（SLMs）推理能力的影响，发现强模型受益于高粒度CoT而弱模型偏好中等粒度，格式影响有限，且教师模型能力并非决定学生表现的唯一因素。

Tag: Reasoning

Shadow-FT: Tuning Instruct via Base

Memento No More: Coaching AI Agents to Master Multiple Tasks via Hints Internalization

RaCT: Ranking-aware Chain-of-Thought Optimization for LLMs

Understanding Fact Recall in Language Models: Why Two-Stage Training Encourages Memorization but Mixed Training Teaches Knowledge

Unveiling the Key Factors for Distilling Chain-of-Thought Reasoning