Tag: Reasoning

All the articles with the tag "Reasoning".

Towards Robust and Parameter-Efficient Knowledge Unlearning for LLMs

Published: 6 May, 2025 at 01:27 AM

70.15 🤔

本文提出了低秩知识遗忘（LoKU）框架，包含反向铰链损失（IHL）和 Fisher 加权低秩适配器初始化（FILA），以实现鲁棒且参数高效的大语言模型知识遗忘，有效移除敏感信息同时保持模型原有能力。
The dynamic interplay between in-context and in-weight learning in humans and neural networks

Published: 6 May, 2025 at 11:20 PM

70.07 🤔

本文通过神经网络中上下文学习（ICL）与权重学习（IWL）的动态交互，统一解释了人类学习中的组合性泛化、课程效应及灵活性与保留性权衡，为认知科学双过程理论提供了新视角。
Nemotron-Research-Tool-N1: Exploring Tool-Using Language Models with Reinforced Reasoning

Published: 19 May, 2025 at 11:19 AM

69.75 🤔

本文提出Nemotron-Research-Tool-N1，通过基于规则的强化学习和二元奖励函数训练工具调用语言模型，在不依赖标注推理轨迹的情况下显著提升工具调用能力，实验表明其在多个基准上超越GPT-4o等强基线。
When Does Metadata Conditioning (NOT) Work for Language Model Pre-Training? A Study with Context-Free Grammars

Published: 4 May, 2025 at 04:30 PM

69.59 🤔

本论文通过上下文无关文法合成数据研究了元数据条件化在语言模型预训练中的影响，发现其对长提示任务有益但对短提示任务有害，揭示了潜在语义推断的权衡。
Hierarchical Attention Generates Better Proofs

Published: 6 May, 2025 at 11:16 PM

69.57 🤔

本文提出层次注意力正则化方法，通过引导大型语言模型的注意力机制与数学推理的五级层次结构对齐，在 miniF2F 和 ProofNet 基准上分别提升证明成功率 2.05% 和 1.69%，并显著降低证明复杂度。

Tag: Reasoning

Towards Robust and Parameter-Efficient Knowledge Unlearning for LLMs

The dynamic interplay between in-context and in-weight learning in humans and neural networks

Nemotron-Research-Tool-N1: Exploring Tool-Using Language Models with Reinforced Reasoning

When Does Metadata Conditioning (NOT) Work for Language Model Pre-Training? A Study with Context-Free Grammars

Hierarchical Attention Generates Better Proofs