Tag: Large Language Model
All the articles with the tag "Large Language Model".
-
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
本文通过 pass@k 指标系统评估 RLVR 在大型语言模型推理能力边界上的效果,发现 RLVR 仅提高采样效率而未引入新推理模式,其能力受限于基础模型,强调需改进 RL 范式以激发真正的新推理能力。
-
Universal Reasoner: A Single, Composable Plug-and-Play Reasoner for Frozen LLMs
本文提出 Universal Reasoner (UniR),一种轻量级、可组合的推理模块,通过将预定义奖励转化为 token 级别指导信号,为冻结的大型语言模型提供高效的推理能力增强,并在数学推理与机器翻译任务上展现出优于部分基线的性能与跨模型迁移能力。
-
Warm Up Before You Train: Unlocking General Reasoning in Resource-Constrained Settings
本文提出了一种两阶段训练框架,通过领域无关的Knights & Knaves逻辑游戏预热激活通用推理能力,并结合少量目标领域数据的RLVR训练,在资源受限环境下显著提升大型语言模型的推理性能和跨领域泛化能力。
-
MoRE: A Mixture of Low-Rank Experts for Adaptive Multi-Task Learning
本文提出MoRE方法,通过将LoRA的不同秩视为专家并设计自适应秩选择器,显著提升了大型语言模型在多任务场景中的微调效率和性能,同时保持较低的参数量。
-
Distilling LLM Agent into Small Models with Retrieval and Code Tools
本文提出Agent Distillation框架,通过将LLM代理的交互行为蒸馏到sLMs中,并结合first-thought prefix和self-consistent action generation方法,使小型模型在事实和数学推理任务上取得显著性能提升,接近甚至超越更大规模的CoT蒸馏模型。