Tag: Large Language Model
All the articles with the tag "Large Language Model".
-
From System 1 to System 2: A Survey of Reasoning Large Language Models
本文综述了从基础LLMs向推理LLMs的演进,通过整合System 2技术提升AI的逐步推理能力,并在基准测试中展示了显著性能改进。
-
Learning to Plan Before Answering: Self-Teaching LLMs to Learn Abstract Plans for Problem Solving
本文提出LEPA自训练算法,通过训练LLM生成预期计划作为抽象元知识来提升问题解决泛化能力,并在多个推理基准上显著优于现有方法。
-
Reward-Augmented Data Enhances Direct Preference Alignment of LLMs
本文提出了一种奖励增强数据集方法,通过对偏好对进行重新标记使大型语言模型条件化于奖励值学习响应质量全谱,显著提升了直接偏好优化(DPO)的性能并缓解了其遗忘高质被拒响应和无差别学习低质选中响应的局限性。
-
Efficient Single-Pass Training for Multi-Turn Reasoning
本文提出了一种通过响应令牌复制和自定义注意力掩码来实现多轮推理对话单次前向传递训练的方法,显著提高了训练效率,同时维护了推理可见性和位置一致性。
-
Hierarchical Attention Generates Better Proofs
本文提出层次注意力正则化方法,通过引导大型语言模型的注意力机制与数学推理的五级层次结构对齐,在 miniF2F 和 ProofNet 基准上分别提升证明成功率 2.05% 和 1.69%,并显著降低证明复杂度。