Tag: Large Language Model
All the articles with the tag "Large Language Model".
-
Let's Predict Sentence by Sentence
本文提出了一种句子级推理框架,通过自回归预测连续句子嵌入,将预训练语言模型提升到抽象推理空间,上下文嵌入在连续推理模式下与Chain-of-Thought (CoT) 表现相当,同时平均将推理计算成本降低一半。
-
When More is Less: Understanding Chain-of-Thought Length in LLMs
本文通过理论分析、控制实验和现实观察,揭示Chain-of-Thought (CoT) 长度与推理性能呈倒U型关系,提出最优长度随任务难度增加和模型能力增强而变化的缩放规律,并展示了基于最优长度的训练和推理策略的显著性能提升。
-
Improving Multilingual Language Models by Aligning Representations through Steering
本文提出了一种通过表示引导调整大型语言模型层级表示的方法,以提升多语言任务性能,实验显示其在多种任务中优于基本提示并接近翻译基线,但对英语任务有负面影响且对低资源语言改进有限。
-
When Do LLMs Admit Their Mistakes? Understanding the Role of Model Belief in Retraction
本文通过构建模型特定数据集和信念操控实验,揭示了大型语言模型(LLMs)的撤回行为受内部信念因果影响,并通过监督微调显著提高撤回性能。
-
Large Vocabulary Size Improves Large Language Models
本文通过实验证明较大词汇量能显著提升单语大型语言模型在英语和日语任务中的性能,并提出了一种在持续训练中更换词汇表的简单方法以适配目标语言,进一步提升模型表现。