Posts
All the articles I've posted.
-
AM-Thinking-v1: Advancing the Frontier of Reasoning at 32B Scale
AM-Thinking-v1 是一个32B参数的密集语言模型,通过精心设计的监督微调和强化学习后训练框架,在数学推理和代码生成任务上实现了与大型MoE模型媲美的性能,展示了中型规模模型在推理能力与部署效率之间的平衡潜力。
-
Disentangling Length Bias In Preference Learning Via Response-Conditioned Modeling
本文提出响应条件Bradley-Terry(Rc-BT)模型,通过区分语义意图和长度指令,显著缓解大语言模型在RLHF中的长度偏见,并提升长度指令遵循能力,实验验证了其在多个模型和数据集上的优越性。
-
ExpandR: Teaching Dense Retrievers Beyond Queries with LLM Guidance
ExpandR通过联合优化大型语言模型和密集检索器,利用LLM生成语义丰富的查询扩展并结合DPO训练和对比学习,在多个检索基准上实现了超过5.8%的性能提升。
-
Scaling Reasoning can Improve Factuality in Large Language Models
本文通过从先进模型中提取并用知识图谱增强推理轨迹,微调Qwen2.5系列模型,并在复杂开放域问答任务中验证了测试时计算扩展(并行采样和预算强制)可提升事实准确性2-8%,尤其对小型模型效果显著。
-
Pre-Act: Multi-Step Planning and Reasoning Improves Acting in LLM Agents
本文提出Pre-Act方法,通过多步骤规划和详细推理提升LLM代理性能,并通过微调小型模型(如Llama 3.1 70B)在Almita数据集上实现比GPT-4高69.5%的行动准确率和28%的目标完成率。