Tag: Large Language Model
All the articles with the tag "Large Language Model".
-
RLAE: Reinforcement Learning-Assisted Ensemble for LLMs
RLAE提出了一种通过强化学习动态调整大型语言模型集成权重的框架,将集成过程建模为马尔可夫决策过程,在多个任务上实现最高3.3%的性能提升,并展现出跨任务泛化能力和计算效率。
-
Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning
本文提出了一种通过强化学习(GRPO)优化大型语言模型自我反思能力的方法,在函数调用和数学方程任务上显著提升性能(平均9.0%和16.0%),并展示小模型在训练后可超越未训练大模型。
-
Not-Just-Scaling Laws: Towards a Better Understanding of the Downstream Impact of Language Model Design Decisions
本文通过对92个开源语言模型的元分析,提出了一种超越缩放定律的性能预测框架,揭示了数据组成(如代码比例15-25%)和架构决策对下游任务性能的显著影响,预测精度相对提升3-28%。
-
Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search
本文提出Satori模型,通过Chain-of-Action-Thought (COAT) 推理框架和两阶段训练(小规模格式调整与大规模强化学习),显著提升了单一7B大型语言模型在数学推理及非领域任务中的自回归搜索和推理能力。
-
It Takes a Good Model to Train a Good Model: Generalized Gaussian Priors for Optimized LLMs
本文提出基于广义高斯分布(GGD)的LLM优化框架,通过GG初始化、DeepShape后处理和RF8浮点格式,从初始化到部署全流程提升模型压缩率、精度和硬件效率,实验显示显著的压缩率提升和可控的精度损失。