Tag: Large Language Model

All the articles with the tag "Large Language Model".

RLAE: Reinforcement Learning-Assisted Ensemble for LLMs

Published: 4 Jun, 2025 at 11:27 AM

86.33 🤔

RLAE提出了一种通过强化学习动态调整大型语言模型集成权重的框架，将集成过程建模为马尔可夫决策过程，在多个任务上实现最高3.3%的性能提升，并展现出跨任务泛化能力和计算效率。
Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning

Published: 3 Jun, 2025 at 11:45 AM

88.30 🤔

本文提出了一种通过强化学习（GRPO）优化大型语言模型自我反思能力的方法，在函数调用和数学方程任务上显著提升性能（平均9.0%和16.0%），并展示小模型在训练后可超越未训练大模型。
Not-Just-Scaling Laws: Towards a Better Understanding of the Downstream Impact of Language Model Design Decisions

Published: 2 Jun, 2025 at 11:32 AM

90.51 🤔

本文通过对92个开源语言模型的元分析，提出了一种超越缩放定律的性能预测框架，揭示了数据组成（如代码比例15-25%）和架构决策对下游任务性能的显著影响，预测精度相对提升3-28%。
Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search

Published: 4 Jun, 2025 at 11:26 AM

85.95 🤔

本文提出Satori模型，通过Chain-of-Action-Thought (COAT) 推理框架和两阶段训练（小规模格式调整与大规模强化学习），显著提升了单一7B大型语言模型在数学推理及非领域任务中的自回归搜索和推理能力。
It Takes a Good Model to Train a Good Model: Generalized Gaussian Priors for Optimized LLMs

Published: 4 Jun, 2025 at 11:59 AM

85.94 🤔

本文提出基于广义高斯分布（GGD）的LLM优化框架，通过GG初始化、DeepShape后处理和RF8浮点格式，从初始化到部署全流程提升模型压缩率、精度和硬件效率，实验显示显著的压缩率提升和可控的精度损失。

Tag: Large Language Model

RLAE: Reinforcement Learning-Assisted Ensemble for LLMs

Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning

Not-Just-Scaling Laws: Towards a Better Understanding of the Downstream Impact of Language Model Design Decisions

Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search

It Takes a Good Model to Train a Good Model: Generalized Gaussian Priors for Optimized LLMs