Tag: Efficiency

All the articles with the tag "Efficiency".

SpargeAttn: Accurate Sparse Attention Accelerating Any Model Inference

Published: 4 May, 2025 at 04:28 PM

59.39 🤔

本研究提出 SpargeAttn，一种通用稀疏注意力机制，通过两阶段在线过滤器和量化技术加速各种模型的推理，同时保持端到端性能无损。
W-PCA Based Gradient-Free Proxy for Efficient Search of Lightweight Language Models

Published: 4 May, 2025 at 04:30 PM

53.85 🤔

本文提出 W-PCA 方法，通过结合参数数量和主成分分析，提供一种高效的零-shot NAS 代理，用于轻量级语言模型的搜索，显著提高了搜索效率和模型性能。
On-Device Qwen2.5: Efficient LLM Inference with Model Compression and Hardware Acceleration

Published: 4 May, 2025 at 04:29 PM

53.38 🤔

本文提出软件硬件协同优化框架，通过 AWQ 模型压缩和 FPGA 加速在边缘设备上高效部署 Qwen2.5-0.5B 模型，实现 55.1% 的压缩率和 5.1 tokens/s 的推理速度，同时保持较高准确性。
PointLoRA: Low-Rank Adaptation with Token Selection for Point Cloud Learning

Published: 4 May, 2025 at 04:28 PM

53.32 🤔

本文提出PointLoRA方法，通过低秩适配和多尺度令牌选择，实现点云模型的参数高效微调，显著减少可训练参数同时在多个数据集上达到竞争性性能。
Meeseeks: An Iterative Benchmark Evaluating LLMs Multi-Turn Instruction-Following Ability

Published: 4 May, 2025 at 04:31 PM

53.12 🤔

本文提出Meeseeks多轮指令遵循基准，通过迭代反馈机制系统评估LLMs的自纠错能力，发现模型在多轮互动中性能显著提升。

Tag: Efficiency

SpargeAttn: Accurate Sparse Attention Accelerating Any Model Inference

W-PCA Based Gradient-Free Proxy for Efficient Search of Lightweight Language Models

On-Device Qwen2.5: Efficient LLM Inference with Model Compression and Hardware Acceleration

PointLoRA: Low-Rank Adaptation with Token Selection for Point Cloud Learning

Meeseeks: An Iterative Benchmark Evaluating LLMs Multi-Turn Instruction-Following Ability