Tag: Large Language Model

All the articles with the tag "Large Language Model".

RLAE: Reinforcement Learning-Assisted Ensemble for LLMs

Published: 4 Jun, 2025 at 11:27 AM

86.33 🤔

RLAE提出了一种通过强化学习动态调整大型语言模型集成权重的框架，将集成过程建模为马尔可夫决策过程，在多个任务上实现最高3.3%的性能提升，并展现出跨任务泛化能力和计算效率。
An Extra RMSNorm is All You Need for Fine Tuning to 1.58 Bits

Published: 17 May, 2025 at 11:01 AM

86.32 🤔

This paper demonstrates that fine-tuning large language models to 1.58-bit ternary weights using extra RMSNorm layers and a gradual quantization schedule achieves superior cross-entropy loss and preserves reasoning performance, enabling deployment on commodity hardware without relying on complex knowledge distillation.
Divide-Fuse-Conquer: Eliciting "Aha Moments" in Multi-Scenario Games

Published: 24 May, 2025 at 11:11 AM

86.31 🤔

本文提出Divide-Fuse-Conquer框架，通过分组训练、参数融合和持续优化提升大型语言模型在多场景游戏中的泛化能力，实验在TextArena的18个游戏中显示Qwen2.5-32B-Align性能接近Claude3.5，但复杂场景表现仍有限。
RepCali: High Efficient Fine-tuning Via Representation Calibration in Latent Space for Pre-trained Language Models

Published: 31 May, 2025 at 11:34 AM

86.31 🤔

本文提出了一种名为RepCali的微调方法，通过在潜在空间中校准预训练语言模型编码器输出，显著提升了25个模型在8个下游任务上的性能，同时仅增加0-0.8%的参数。
Fractured Chain-of-Thought Reasoning

Published: 23 May, 2025 at 11:11 AM

86.28 🤔

本文提出Fractured Sampling方法，通过在推理轨迹数量、解决方案多样性和推理深度三个维度上进行采样优化，显著提升大型语言模型在长链式推理任务中的成本-性能权衡。

Tag: Large Language Model

RLAE: Reinforcement Learning-Assisted Ensemble for LLMs

An Extra RMSNorm is All You Need for Fine Tuning to 1.58 Bits

Divide-Fuse-Conquer: Eliciting "Aha Moments" in Multi-Scenario Games

RepCali: High Efficient Fine-tuning Via Representation Calibration in Latent Space for Pre-trained Language Models

Fractured Chain-of-Thought Reasoning