Skip to content
Go back 2505.07049 arXiv logo

DialogueReason: Rule-Based RL Sparks Dialogue Reasoning in LLMs

Published:  at  11:17 AM
83.58 🤔

本文提出DialogueReason,一种基于对话的推理模式,通过PPO和规则奖励函数训练大型语言模型,以提升复杂复合问答任务中的推理多样性和连贯性,并在MATH、AIME和GPQA数据集上展现出比单论式推理更强的鲁棒性。

Large Language Model, Reinforcement Learning, Reasoning, Multi-Agent, Human-AI Interaction

Yubo Shu, Zhewei Huang, Xin Wu, Chen Hu, Shuchang Zhou, Daxin Jiang

StepFun, China

Generated by grok-3

Background Problem

大型语言模型(LLMs)在推理任务中展现出强大的链式思维(Chain-of-Thought, CoT)能力,尤其是在数学和科学领域。然而,当前的单论式推理模式(monologue-style reasoning)存在显著缺陷:推理过程缺乏多样性(diversity),往往对不同问题重复使用固定策略;同时缺乏连贯性(coherency),表现为注意力频繁切换或推理路径中断,导致过程冗长且低效。论文通过引入复合问答任务(Compound-QA)揭示了这些问题,并提出了一种基于对话的推理模式(DialogueReason),旨在通过模拟多智能体交互来提升推理的多样性和连贯性,解决单论式推理在复杂任务中的局限性。

Method

论文提出了DialogueReason,一种基于对话的推理模式,其核心思想是将推理过程建模为多个智能体之间的交互对话,以提升推理的多样性和连贯性。具体方法如下:

Experiment

实验主要围绕Compound-QA任务展开,评估单论式推理模型(QWQ-32B)和对话推理模型(DialogueReason-QWQ)在MATH-500、AIME24和GPQA-Diamond数据集上的表现。

Further Thoughts

DialogueReason的提出为推理模式提供了一个有趣的多智能体视角,但其实际应用价值和可扩展性仍需进一步探索。首先,对话模式是否能在非数学和科学领域(如常识推理或多跳问答)中保持优势是一个关键问题,特别是在需要处理主观性或模糊性更高的任务时。其次,论文中提到的与单论式推理的兼容性(例如将单论式中的‘Wait…’等表达映射为反思智能体)启发了我思考是否可以将对话模式作为一种‘中间层’,用于增强现有推理模型,而非完全替代。此外,与其他多智能体系统的对比研究(如Manus系列)可能揭示DialogueReason在角色动态分配和信息共享机制上的独特优势或局限。最后,我认为Compound-QA任务作为一个评估工具虽然有效,但若能作为训练目标(如通过RL直接优化复合任务表现),可能进一步提升模型对复杂任务的适应性。这种方法或许能与其他领域(如联邦学习或在线学习)结合,探索分布式推理或实时交互场景下的应用潜力。



Previous Post
Do LLMs Memorize Recommendation Datasets? A Preliminary Study on MovieLens-1M
Next Post
Distillation and Refinement of Reasoning in Small Language Models for Document Re-ranking