Tag: Efficiency
All the articles with the tag "Efficiency".
-
Small or Large? Zero-Shot or Finetuned? Guiding Language Model Choice for Specialized Applications in Healthcare
本文通过实证实验指导在医疗专业应用中语言模型的选择,强调微调小语言模型和领域特定预训练的显著优势,使其在特定任务上超越零-shot 大语言模型。
-
Less is More: Towards Green Code Large Language Models via Unified Structural Pruning
本文提出Flab-Pruner,一种结合词汇、层和FFN剪枝的统一结构剪枝方法,通过KL散度优化和自定义微调策略,在减少代码LLM参数的同时保持高性能和效率。
-
Adaptive Layer-skipping in Pre-trained LLMs
本文提出FlexiDepth方法,通过插件式路由器和适配器实现预训练LLM的自适应层跳过,提高计算效率同时保持生成性能,并通过实验揭示了token类型对计算需求的影响。
-
Streaming, Fast and Slow: Cognitive Load-Aware Streaming for Efficient LLM Serving
本文提出基于认知负载的适应性流式传输框架,用于优化 LLM 服务,通过动态调整输出速度减少计算资源消耗高达 16.8%,同时维持用户满意度。
-
Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models
本文提出Token-Shuffle方法,通过利用视觉词汇维度冗余动态合并和恢复图像令牌,实现高效的高分辨率文本到图像生成,同时在统一自回归框架下保持出色性能。