Tag: Large Language Model
All the articles with the tag "Large Language Model".
-
Middle-Layer Representation Alignment for Cross-Lingual Transfer in Fine-Tuned LLMs
本文提出了一种通过中间层表示对齐增强大型语言模型跨语言迁移能力的方法,在微调过程中交替优化任务和对齐目标,并在槽填充、机器翻译等任务中取得了改进,尤其对低资源语言有益。
-
Agentic AI: The Era of Semantic Decoding
本文提出语义解码视角,将大型语言模型、人类和工具的协作框架化为语义空间中的优化过程,通过语义令牌的交换和语义解码算法的设计探索AI系统的新计算范式。
-
CoLA: Compute-Efficient Pre-Training of LLMs via Low-Rank Activation
本文提出CoLA及其内存优化变体CoLA-M,通过用低秩自动编码器替换LLMs的全尺寸MLP和投影层,实现2倍模型大小和计算成本的减少,同时保持全秩性能,并在训练和推理中显著提升吞吐量。
-
Shadow-FT: Tuning Instruct via Base
本文提出Shadow-FT框架,通过调优BASE模型并将权重更新直接移植到INSTRUCT模型,显著提升了大型语言模型在数学、编码和推理任务上的性能,同时不引入额外训练成本。
-
Agent RL Scaling Law: Agent RL with Spontaneous Code Execution for Mathematical Problem Solving
本文通过ZeroTIR框架利用强化学习训练基础大型语言模型自发执行Python代码解决数学问题,揭示了训练步数与代码使用频率、响应长度及任务准确率的正相关规律(Agent RL Scaling Law),并在数学基准上显著优于无工具基线。