Tag: Reasoning
All the articles with the tag "Reasoning".
-
On the generalization of language models from in-context learning and finetuning: a controlled study
本文通过控制实验比较了语言模型在上下文学习和微调下的泛化能力,发现上下文学习更灵活,并提出通过数据增强方法显著改善微调的泛化性能。
-
AdaptMI: Adaptive Skill-based In-context Math Instruction for Small Language Models
本文提出AdaptMI和AdaptMI+自适应方法,通过基于奖励模型检测问题难度并针对困难问题选择技能-based in-context示例,提高小语言模型在数学推理任务中的性能,同时避免认知过载。
-
Efficient Reasoning for LLMs through Speculative Chain-of-Thought
本文提出了推测思维链(SCoT)框架,通过轻量级草稿模型并行生成多个思维链草稿,并由微调后的目标大模型选择最佳草稿或决定重新思考,从而在保持接近大模型准确率的同时,显著降低了大型语言模型的推理延迟。
-
Toward Efficient Exploration by Large Language Model Agents
本文通过使用 LLMs 显式实现后验采样 RL 算法,显著提高了 LLMs 代理在自然语言环境中的探索效率,同时保留了经典算法的统计性能优势。
-
HSI: Head-Specific Intervention Can Induce Misaligned AI Coordination in Large Language Models
本文提出Head-Specific Intervention (HSI)方法,通过针对特定注意力头的激活干预,成功诱导Llama 2模型在AI协调行为上绕过安全对齐,效果优于监督微调和其它干预策略。