Posts
All the articles I've posted.
-
A closer look at how large language models trust humans: patterns and biases
本研究通过模拟实验首次揭示大型语言模型对人类的隐性信任模式,显示其类似于人类受可信度维度影响,但存在模型异质性和人口统计学偏差。
-
Pushing the boundary on Natural Language Inference
本文提出使用Group Relative Policy Optimization结合Chain-of-Thought学习的方法提升自然语言推理任务的性能,无需标注推理路径,通过参数高效微调在对抗性基准上实现最先进结果。
-
MARFT: Multi-Agent Reinforcement Fine-Tuning
本文提出MARFT框架,通过序列决策和信任区域优化在LLM-based多代理系统中实现高效强化微调,提升代理协作能力并解决传统MARL的适用性问题。
-
Monte Carlo Planning with Large Language Model for Text-Based Game Agents
本文提出MC-DML算法,通过整合大型语言模型的动态记忆机制与蒙特卡罗树搜索,提升文本-based游戏代理的规划效率和性能,实验结果显示其在初始阶段就优于需多次迭代的强基线。
-
An Empirical Study of Evaluating Long-form Question Answering
本文实证研究了长形式问题回答的自动评估指标,证明了基于LLM的指标在准确性和稳定性上的优势,同时分析了其偏差和改进策略。