Tag: Large Language Model

All the articles with the tag "Large Language Model".

SoLoPO: Unlocking Long-Context Capabilities in LLMs via Short-to-Long Preference Optimization

Published: 21 May, 2025 at 11:24 AM

88.16 🤔

SoLoPO通过将长上下文偏好优化分解为短上下文优化和短到长奖励对齐，显著提升了大型语言模型在长上下文任务中的性能和训练效率，同时保持短上下文能力。
A Training-Free Length Extrapolation Approach for LLMs: Greedy Attention Logit Interpolation (GALI)

Published: 3 Jun, 2025 at 11:26 AM

85.88 🤔

本文提出了一种无训练的长度外推方法GALI，通过贪婪局部化位置插值和注意力逻辑值插值，显著提升了大型语言模型在长上下文任务中的稳定性和性能，同时避免了输入长度特定调优的需求。
When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners

Published: 24 May, 2025 at 11:07 AM

88.05 🤔

本文提出了一种无训练干预方法，通过在推理时移除大型语言模型中的语言特异性表示以解耦语言和推理，显著提升了多语言推理性能，尤其是在中低资源语言上，同时揭示了语言信号与推理准确性的负相关性。
RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning

Published: 7 May, 2025 at 12:11 AM

88.02 🤔

本文提出StarPO框架和RAGEN系统，通过多轮轨迹级别强化学习训练LLM智能体，揭示了训练不稳定性（如Echo Trap）和推理能力不足的挑战，并通过StarPO-S改进稳定性和泛化性，但推理能力仍需细粒度奖励设计支持。
Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models

Published: 24 May, 2025 at 11:08 AM

88.00 🤔

本文通过MathIF基准测试评估大型推理模型在数学任务中的指令遵循能力，揭示了推理能力提升与指令遵循能力下降之间的权衡关系，并通过实验验证了训练策略和推理链长度对这一权衡的影响。

Tag: Large Language Model

SoLoPO: Unlocking Long-Context Capabilities in LLMs via Short-to-Long Preference Optimization

A Training-Free Length Extrapolation Approach for LLMs: Greedy Attention Logit Interpolation (GALI)

When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners

RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning

Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models