Tag: Large Language Model

All the articles with the tag "Large Language Model".

Deciphering Trajectory-Aided LLM Reasoning: An Optimization Perspective

Published: 28 May, 2025 at 11:20 AM

87.20 🤔

本文提出RaML框架，从元学习视角将LLM推理轨迹视为伪梯度更新，通过理论分析和实验验证了推理与优化的关联，并探索了训练策略和轨迹特性对推理能力的提升潜力。
Improving the Language Understanding Capabilities of Large Language Models Using Reinforcement Learning

Published: 5 Jun, 2025 at 11:24 AM

87.16 🤔

本文通过将自然语言理解任务转化为强化学习问题，使用PPO算法微调中小规模LLMs，在GLUE和SuperGLUE基准上显著提升性能，超越监督微调和BERT-large，并展现出优于GPT-4o的零样本泛化能力。
Can Pruning Improve Reasoning? Revisiting Long-CoT Compression with Capability in Mind for Better Reasoning

Published: 22 May, 2025 at 11:18 AM

87.16 🤔

本文提出Prune-on-Logic框架，通过将长链思维（Long-CoT）转化为逻辑图并选择性剪枝低效验证步骤，在提升小型语言模型（SLMs）推理准确率的同时降低推理成本，揭示了剪枝作为能力对齐策略的潜力。
SelfBudgeter: Adaptive Token Allocation for Efficient LLM Reasoning

Published: 22 May, 2025 at 11:12 AM

87.16 🤔

SelfBudgeter通过自适应令牌预算预测和强化学习优化，在MATH数据集上实现74.47%响应长度压缩，同时保持接近原始准确性，显著提升大型推理模型的效率。
Two Is Better Than One: Rotations Scale LoRAs

Published: 3 Jun, 2025 at 11:30 AM

87.12 🤔

本文提出 *RadarGate*，一种基于几何的门控方法，通过旋转和拉伸操作增强 LoRA-MoE 的表达能力，在拟合、泛化和可扩展性方面显著优于现有方法，实验结果在 6 个基准数据集的 21 个任务上得到验证。

Tag: Large Language Model

Deciphering Trajectory-Aided LLM Reasoning: An Optimization Perspective

Improving the Language Understanding Capabilities of Large Language Models Using Reinforcement Learning

Can Pruning Improve Reasoning? Revisiting Long-CoT Compression with Capability in Mind for Better Reasoning

SelfBudgeter: Adaptive Token Allocation for Efficient LLM Reasoning

Two Is Better Than One: Rotations Scale LoRAs