Tag: Large Language Model

All the articles with the tag "Large Language Model".

Learning to Think: Information-Theoretic Reinforcement Fine-Tuning for LLMs

Published: 17 May, 2025 at 11:02 AM

91.74 🤔

This paper introduces Learning to Think (L2T), an information-theoretic reinforcement fine-tuning framework for LLMs that uses a universal dense process reward to optimize reasoning effectiveness and efficiency, achieving significant accuracy and token efficiency gains on math reasoning benchmarks.
Turning Trash into Treasure: Accelerating Inference of Large Language Models with Token Recycling

Published: 23 May, 2025 at 11:14 AM

91.73 🤔

Token Recycling 提出了一种无训练的推测解码方法，通过回收候选词并利用邻接矩阵构建草稿树，实现大型语言模型推理约 2 倍加速，相较于其他无训练方法提升超 30%。
Mini-batch Coresets for Memory-efficient Language Model Training on Data Mixtures

Published: 2 Jun, 2025 at 01:14 PM

87.28 🤔

本文提出 CoLM 方法，通过构建小批量核心集匹配大批量梯度，在内存需求减少 2 倍的情况下，使 LLM 微调性能优于 4 倍批大小的常规训练，同时提升收敛速度。
RaCT: Ranking-aware Chain-of-Thought Optimization for LLMs

Published: 1 Jun, 2025 at 11:51 AM

89.43 🤔

RaCT通过链式思维（CoT）提示和排序偏好优化（RPO）的两阶段训练框架，显著提升了大型语言模型在文本重排序任务中的性能，同时保留了其通用语言建模能力，在多个基准上超越基线模型。
PASER: Post-Training Data Selection for Efficient Pruned Large Language Model Recovery

Published: 2 Jun, 2025 at 11:32 AM

87.10 🤔

PASER提出了一种针对剪枝后大语言模型能力恢复的后训练数据选择方法，通过语义聚类、能力退化感知选择和负面效应缓解，在有限数据预算下显著提升恢复性能并降低计算成本。

Tag: Large Language Model

Learning to Think: Information-Theoretic Reinforcement Fine-Tuning for LLMs

Turning Trash into Treasure: Accelerating Inference of Large Language Models with Token Recycling

Mini-batch Coresets for Memory-efficient Language Model Training on Data Mixtures

RaCT: Ranking-aware Chain-of-Thought Optimization for LLMs

PASER: Post-Training Data Selection for Efficient Pruned Large Language Model Recovery