Tag: Multimodal Systems
All the articles with the tag "Multimodal Systems".
-   
Streaming, Fast and Slow: Cognitive Load-Aware Streaming for Efficient LLM Serving
本文提出基于认知负载的适应性流式传输框架,用于优化 LLM 服务,通过动态调整输出速度减少计算资源消耗高达 16.8%,同时维持用户满意度。
 -   
Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models
本文提出Token-Shuffle方法,通过利用视觉词汇维度冗余动态合并和恢复图像令牌,实现高效的高分辨率文本到图像生成,同时在统一自回归框架下保持出色性能。
 -   
SpargeAttn: Accurate Sparse Attention Accelerating Any Model Inference
本研究提出 SpargeAttn,一种通用稀疏注意力机制,通过两阶段在线过滤器和量化技术加速各种模型的推理,同时保持端到端性能无损。
 -   
Synergizing RAG and Reasoning: A Systematic Review
本论文系统综述了检索增强生成(RAG)与推理能力的协同整合,构建了多维分类框架、提供了实用指南,并指出了未来研究方向,以推进RAG系统在复杂任务中的认知能力。
 -   
Diff-Prompt: Diffusion-Driven Prompt Generator with Mask Supervision
本文提出Diff-Prompt方法,使用扩散模型基于掩码监督生成细粒度提示信息,显著提升预训练多模态模型在复杂指代表达理解任务上的性能,同时保持高效微调。