Tag: Multimodal Data
All the articles with the tag "Multimodal Data".
-
One Task Vector is not Enough: A Large-Scale Study for In-Context Learning
本文通过大规模数据集 QUITEAFEW 研究上下文学习中任务向量的作用,发现其在中间层表现最佳但对复杂任务支持不足,提出复杂任务依赖多个子任务向量的分布式表示假设。
-
Learning Composable Chains-of-Thought
本文提出Composable Chain-of-Thought方法,通过数据增强改进原子任务CoT格式,并结合多任务学习或模型合并实现零样本组合推理,使用拒绝采样微调进一步提升性能,在字符串操作和自然语言任务上优于标准CoT基准。
-
Task Specific Pruning with LLM-Sieve: How Many Parameters Does Your Task Really Need?
LLM-Sieve提出了一种任务特定的剪枝框架,通过联合低秩投影和遗传算法实现差异化剪枝,在保持1-5%精度损失下减少20-75%的参数,显著优于现有方法,并与LoRA微调和量化兼容。
-
The Effect of Language Diversity When Fine-Tuning Large Language Models for Translation
本文通过系统性实验证明,在大型语言模型微调中增加语言多样性可显著提升所有类别翻译对的性能,并通过中层表征分析揭示跨语言迁移机制,但多样性收益存在阈值。
-
General-Reasoner: Advancing LLM Reasoning Across All Domains
本文提出General-Reasoner,通过零强化学习结合跨领域高质量数据集和基于生成模型的验证器,显著提升大型语言模型在多领域推理任务上的性能,同时保持数学推理的有效性。