Tag: Representation Learning
All the articles with the tag "Representation Learning".
-
Unveiling the Mechanisms of Explicit CoT Training: How CoT Enhances Reasoning Generalization
本文通过控制实验、内部机制分析和理论推导,揭示了显式思维链(CoT)训练通过形成二阶段泛化电路显著提升大型语言模型的分布内(ID)和分布外(OOD)推理泛化能力,并验证了其在噪声数据下的鲁棒性。
-
Emergence and Effectiveness of Task Vectors in In-Context Learning: An Encoder Decoder Perspective
本文通过编码-解码框架研究任务向量在上下文学习中的浮现与有效性,提出任务可解码性(TD)指标预测ICL性能,并发现微调早期层比后期层更能提升任务编码和性能。
-
Language Models are Universal Embedders
本文基于多语言解码器模型(如BLOOM)提出通用嵌入器构建方法,通过对比学习和参数高效微调实现跨语言、跨任务的高质量嵌入,实验表明其在多语言和多任务场景中具有显著潜力和泛化能力。
-
ExpertSteer: Intervening in LLMs through Expert Knowledge
EXPERTSTEER提出了一种创新的激活转向方法,通过自编码器、互信息分析和递归特征机从外部专家模型生成转向向量,干预任意目标大型语言模型的行为,在多个领域和模型上显著提升性能。
-
ICLR: In-Context Learning of Representations
本文通过上下文图追踪任务揭示了大型语言模型能随上下文规模增加而突现地重组概念表示以适应新语义,并提出能量最小化假设解释这一过程。