Tag: Alignment

All the articles with the tag "Alignment".

REFINE-AF: A Task-Agnostic Framework to Align Language Models via Self-Generated Instructions using Reinforcement Learning from Automated Feedback

Published: 20 May, 2025 at 11:10 AM

89.02 🤔

本文提出REFINE-AF框架，利用小型开源语言模型和基于自动化反馈的强化学习生成任务无关指令数据集，相较基线在SUPER-NI数据集上显著提升了63-66%的任务表现，同时降低了成本和人工干预。
Cross-Lingual Optimization for Language Transfer in Large Language Models

Published: 26 May, 2025 at 11:23 AM

85.77 🤔

本文提出跨语言优化（CLO）方法，通过翻译数据和改进的DPO策略，将英语中心的大型语言模型有效转移到目标语言，在保持英语能力的同时显著提升目标语言性能，尤其在低资源语言中以更少数据取得优于传统SFT的结果。
Improving Multilingual Language Models by Aligning Representations through Steering

Published: 26 May, 2025 at 11:22 AM

85.45 🤔

本文提出了一种通过表示引导调整大型语言模型层级表示的方法，以提升多语言任务性能，实验显示其在多种任务中优于基本提示并接近翻译基线，但对英语任务有负面影响且对低资源语言改进有限。
CREAM: Consistency Regularized Self-Rewarding Language Models

Published: 6 May, 2025 at 01:28 AM

87.56 🤔

本文提出了CREAM（Consistency Regularized Self-Rewarding Language Model）方法，通过衡量自奖励过程中不同迭代模型之间排序的一致性来正则化偏好训练，从而缓解奖励偏差问题，提高小型语言模型的对齐性能和训练稳定性。
Latent Principle Discovery for Language Model Self-Improvement

Published: 26 May, 2025 at 11:25 AM

85.30 🤔

本文提出STaPLe算法，通过Monte Carlo EM方法自动化发现和学习语言模型自我改进的潜在原则，在多个指令跟随基准上显著提升小型模型性能，同时通过聚类生成人类可解释的宪法。

Tag: Alignment

REFINE-AF: A Task-Agnostic Framework to Align Language Models via Self-Generated Instructions using Reinforcement Learning from Automated Feedback

Cross-Lingual Optimization for Language Transfer in Large Language Models

Improving Multilingual Language Models by Aligning Representations through Steering

CREAM: Consistency Regularized Self-Rewarding Language Models

Latent Principle Discovery for Language Model Self-Improvement