Posts
All the articles I've posted.
-
LIFT: Improving Long Context Understanding of Large Language Models through Long Input Fine-Tuning
本文提出LIFT框架,通过长输入微调和Gated Memory适配器提升短上下文LLMs的长上下文理解能力,实验显示显著性能改进。
-
Self-Generated In-Context Examples Improve LLM Agents for Sequential Decision-Making Tasks
本文提出LLM代理可以通过自动收集和选择自身在序列决策任务中的成功轨迹作为上下文示例,显著提升性能,减少对人工知识工程的依赖。
-
Codenames as a Benchmark for Large Language Models
本论文提出使用Codenames游戏作为LLMs推理能力的基准,通过实验评估不同LLMs在语言理解、战略推理和合作方面的表现,展示了它们的独特行为和泛化潜力。
-
Constraint Back-translation Improves Complex Instruction Following of Large Language Models
本文提出约束反向翻译方法,通过从现有指令-响应对中提取隐含约束构建高质量复杂指令数据集CRAB,并结合反向训练显著提升大型语言模型在复杂指令跟随任务上的性能。
-
Humanity's Last Exam
本文引入HUMANITY'S LAST EXAM基准测试,通过专家创建的挑战性多模态问题,解决现有LLM基准饱和问题,评估模型在封闭式学术任务中的能力。