Tag: Self-Supervised Learning
All the articles with the tag "Self-Supervised Learning".
-
Diverse, not Short: A Length-Controlled Self-Learning Framework for Improving Response Diversity of Language Models
本文提出Diverse-NS框架,通过长度控制的自学习和偏好优化显著提升了大型语言模型在创造性任务中的响应多样性,同时在大多数情况下保持了输出质量,并验证了小模型作为大模型多样性教师的可行性。
-
Can Large Reasoning Models Self-Train?
本文提出Self-Rewarded Training (SRT) 方法,通过模型自一致性驱动强化学习实现无监督数学推理能力提升,初期性能媲美有监督方法,但因奖励黑客问题导致长期训练性能崩溃,并探索了提前停止和课程学习等缓解策略。
-
Pretraining Language Models to Ponder in Continuous Space
本文提出Pondering Language Model,通过在预训练阶段引入自监督的连续空间深思机制,显著提升语言模型在语言建模和下游任务上的性能,PonderingPythia-1B接近TinyLlama-1.1B的效果。
-
Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search
本文提出Satori模型,通过Chain-of-Action-Thought (COAT) 推理框架和两阶段训练(小规模格式调整与大规模强化学习),显著提升了单一7B大型语言模型在数学推理及非领域任务中的自回归搜索和推理能力。
-
Latent Principle Discovery for Language Model Self-Improvement
本文提出STaPLe算法,通过Monte Carlo EM方法自动化发现和学习语言模型自我改进的潜在原则,在多个指令跟随基准上显著提升小型模型性能,同时通过聚类生成人类可解释的宪法。