Tag: Large Language Model
All the articles with the tag "Large Language Model".
-
Emergence and Effectiveness of Task Vectors in In-Context Learning: An Encoder Decoder Perspective
本文通过编码-解码框架研究任务向量在上下文学习中的浮现与有效性,提出任务可解码性(TD)指标预测ICL性能,并发现微调早期层比后期层更能提升任务编码和性能。
-
Language Models are Universal Embedders
本文基于多语言解码器模型(如BLOOM)提出通用嵌入器构建方法,通过对比学习和参数高效微调实现跨语言、跨任务的高质量嵌入,实验表明其在多语言和多任务场景中具有显著潜力和泛化能力。
-
ExpertSteer: Intervening in LLMs through Expert Knowledge
EXPERTSTEER提出了一种创新的激活转向方法,通过自编码器、互信息分析和递归特征机从外部专家模型生成转向向量,干预任意目标大型语言模型的行为,在多个领域和模型上显著提升性能。
-
ICLR: In-Context Learning of Representations
本文通过上下文图追踪任务揭示了大型语言模型能随上下文规模增加而突现地重组概念表示以适应新语义,并提出能量最小化假设解释这一过程。
-
Recursively Summarizing Enables Long-Term Dialogue Memory in Large Language Models
This paper introduces a recursive summarization method to enhance long-term dialogue memory in LLMs, achieving marginal quantitative improvements and notable qualitative gains in consistency and coherence across multiple models and datasets.