Tag: Large Language Model
All the articles with the tag "Large Language Model".
-
Collaborating Action by Action: A Multi-agent LLM Framework for Embodied Reasoning
本文提出MINDcraft框架和MineCollab基准,评估LLM在多代理具身协作中的性能,揭示了当前模型在通信和协调方面的局限性,并呼吁开发更先进的协作方法。
-
COSMOS: Predictable and Cost-Effective Adaptation of LLMs
COSMOS introduces a cost-effective framework to predict performance and cost of LLM adaptation strategies like QLoRA fine-tuning and retrieval-augmented ICL, achieving high accuracy (1.09% MAE) and reducing computational costs by 92.72% across eight diverse benchmarks.
-
Domain Regeneration: How well do LLMs match syntactic properties of text domains?
本文通过‘LLM-regeneration’范式,使用Llama模型生成Wikipedia和新闻文本,发现生成文本在句法复杂性指标上表现出均值偏移、方差降低和长尾减少的系统性差异,揭示了模型在域匹配能力上的局限性。
-
本文通过提出位置 ID 操纵的 PFT 方法,揭示并解决了 LLM 在角色分离学习中依赖捷径的问题,提高了模型的鲁棒性和安全性,同时保持了性能。
-
Temporal Scaling Law for Large Language Models
本文提出时间缩放定律(Temporal Scaling Law),通过动态双曲线法则建模LLM预训练中每个token位置的损失变化,精准预测整体测试损失演变,支持直接在目标模型上选择超参数并揭示学习动态。