Tag: Efficiency

All the articles with the tag "Efficiency".

Small or Large? Zero-Shot or Finetuned? Guiding Language Model Choice for Specialized Applications in Healthcare

Published: 4 May, 2025 at 04:31 PM

67.24 🤔

本文通过实证实验指导在医疗专业应用中语言模型的选择，强调微调小语言模型和领域特定预训练的显著优势，使其在特定任务上超越零-shot 大语言模型。
Less is More: Towards Green Code Large Language Models via Unified Structural Pruning

Published: 4 May, 2025 at 04:27 PM

66.29 🤔

本文提出Flab-Pruner，一种结合词汇、层和FFN剪枝的统一结构剪枝方法，通过KL散度优化和自定义微调策略，在减少代码LLM参数的同时保持高性能和效率。
Adaptive Layer-skipping in Pre-trained LLMs

Published: 4 May, 2025 at 04:28 PM

62.55 🤔

本文提出FlexiDepth方法，通过插件式路由器和适配器实现预训练LLM的自适应层跳过，提高计算效率同时保持生成性能，并通过实验揭示了token类型对计算需求的影响。
Streaming, Fast and Slow: Cognitive Load-Aware Streaming for Efficient LLM Serving

Published: 4 May, 2025 at 04:30 PM

60.43 🤔

本文提出基于认知负载的适应性流式传输框架，用于优化 LLM 服务，通过动态调整输出速度减少计算资源消耗高达 16.8%，同时维持用户满意度。
Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models

Published: 4 May, 2025 at 04:31 PM

59.95 🤔

本文提出Token-Shuffle方法，通过利用视觉词汇维度冗余动态合并和恢复图像令牌，实现高效的高分辨率文本到图像生成，同时在统一自回归框架下保持出色性能。

Tag: Efficiency

Small or Large? Zero-Shot or Finetuned? Guiding Language Model Choice for Specialized Applications in Healthcare

Less is More: Towards Green Code Large Language Models via Unified Structural Pruning

Adaptive Layer-skipping in Pre-trained LLMs

Streaming, Fast and Slow: Cognitive Load-Aware Streaming for Efficient LLM Serving

Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models