Tag: Large Language Model
All the articles with the tag "Large Language Model".
-
Self-Interpretability: LLMs Can Describe Complex Internal Processes that Drive Their Decisions, and Improve with Training
本文通过微调GPT-4o和GPT-4o-mini,展示了大型语言模型能够量化报告其内部决策过程(如属性权重),并通过内省训练显著提升报告准确性,且这种能力可泛化至原生偏好,为AI可解释性和安全性提供了新路径。
-
Toward Evaluative Thinking: Meta Policy Optimization with Evolving Reward Models
本文提出元策略优化(MPO)框架,通过元奖励模型动态调整奖励模型的评估提示,显著提升了大语言模型在多种任务中的对齐性能,同时减少了奖励漏洞和手动提示工程的负担。
-
When Models Reason in Your Language: Controlling Thinking Trace Language Comes at the Cost of Accuracy
本文通过XReasoning基准揭示了大型推理模型在多语言推理中语言匹配与答案准确性之间的权衡,并通过提示破解和少样本后训练方法提高语言匹配率,但以牺牲准确性为代价,凸显了当前模型的局限性。
-
Shallow Preference Signals: Large Language Model Aligns Even Better with Truncated Data?
本文提出并验证了'浅层偏好信号'现象,通过截断偏好数据集(保留前40%-50% token)训练奖励模型和DPO模型,性能与完整数据集相当甚至更优,并揭示了当前对齐方法过于关注早期token的局限性。
-
Learn to Reason Efficiently with Adaptive Length-based Reward Shaping
本文通过提出基于强化学习的LASER系列方法(LASER, LASER-D, LASER-DE),利用动态和难度感知的长度奖励塑造,在保持大型推理模型性能的同时显著提高token效率,在多个数学推理基准上实现了Pareto最优的准确率和效率权衡。