Tag: Large Language Model
All the articles with the tag "Large Language Model".
-
Don't Think Longer, Think Wisely: Optimizing Thinking Dynamics for Large Reasoning Models
本文提出动态思维模式优化框架(DTO),通过分割和优化大型推理模型的推理路径,显著减少计算开销并提升准确率,在数学推理基准上实现高达12%的准确率提升和47%的FLOPs减少。
-
AttentionInfluence: Adopting Attention Head Influence for Weak-to-Strong Pretraining Data Selection
本文提出AttentionInfluence方法,通过无监督地利用预训练模型注意力头机制选择推理密集型数据,显著提升了7B参数模型在知识和推理任务上的性能,展现了弱到强的扩展潜力。
-
CoordField: Coordination Field for Agentic UAV Task Allocation In Low-altitude Urban Scenarios
本文提出了一种基于协调场的代理系统(CoordField),通过大型语言模型解析自然语言指令并利用动态势场实现异构无人机群在城市环境中的去中心化任务分配,实验验证了其在任务覆盖、响应时间和动态适应性方面的优越性能。
-
Plan and Budget: Effective and Efficient Test-Time Scaling on Large Language Model Reasoning
本文提出 PLAN-AND-BUDGET 框架,通过结构化推理和基于不确定性的自适应 token 预算分配,显著提升大型语言模型在推理任务中的计算效率,E3 指标最高提升 187.5%,同时保持准确率。
-
Thinking Short and Right Over Thinking Long: Serving LLM Reasoning Efficiently and Accurately
本文提出SART框架,通过冗余采样与早期停止以及两阶段动态修剪方法,显著提升了大型语言模型推理服务的效率(最高28.2倍),同时保持了与基线相近的准确性。