Tag: Generative AI

All the articles with the tag "Generative AI".

REFINE-AF: A Task-Agnostic Framework to Align Language Models via Self-Generated Instructions using Reinforcement Learning from Automated Feedback

Published: 20 May, 2025 at 11:10 AM

89.02 🤔

本文提出REFINE-AF框架，利用小型开源语言模型和基于自动化反馈的强化学习生成任务无关指令数据集，相较基线在SUPER-NI数据集上显著提升了63-66%的任务表现，同时降低了成本和人工干预。
LIFEBench: Evaluating Length Instruction Following in Large Language Models

Published: 25 May, 2025 at 11:47 AM

88.64 🤔

本文通过引入LIFEBENCH基准，系统评估了26个大型语言模型在长度指令遵循上的能力，发现其在长长度约束下普遍表现不佳，且远未达到厂商宣称的最大输出长度，揭示了模型在长度感知和长文本生成上的根本局限性。
EMORL: Ensemble Multi-Objective Reinforcement Learning for Efficient and Flexible LLM Fine-Tuning

Published: 7 May, 2025 at 09:32 AM

87.79 🤔

本文提出EMORL框架，通过集成学习分别训练单目标模型并在隐藏状态层聚合，结合分层网格搜索优化权重，在咨询反思生成任务中实现了与传统方法相当的性能，同时显著提升了训练效率、可扩展性和解释性。
Diverse, not Short: A Length-Controlled Self-Learning Framework for Improving Response Diversity of Language Models

Published: 26 May, 2025 at 11:24 AM

87.09 🤔

本文提出Diverse-NS框架，通过长度控制的自学习和偏好优化显著提升了大型语言模型在创造性任务中的响应多样性，同时在大多数情况下保持了输出质量，并验证了小模型作为大模型多样性教师的可行性。
Walk Before You Run! Concise LLM Reasoning via Reinforcement Learning

Published: 30 May, 2025 at 11:13 AM

86.69 🤔

本文提出 ConciseR，一种两阶段强化学习框架，通过 GRPO++ 提升推理能力并通过 L-GRPO 优化响应长度，在保持准确性的同时显著减少 CoT 响应长度，优于多个基准数据集上的现有方法。

Tag: Generative AI

REFINE-AF: A Task-Agnostic Framework to Align Language Models via Self-Generated Instructions using Reinforcement Learning from Automated Feedback

LIFEBench: Evaluating Length Instruction Following in Large Language Models

EMORL: Ensemble Multi-Objective Reinforcement Learning for Efficient and Flexible LLM Fine-Tuning

Diverse, not Short: A Length-Controlled Self-Learning Framework for Improving Response Diversity of Language Models

Walk Before You Run! Concise LLM Reasoning via Reinforcement Learning