本文提出CCSK框架,通过Siamese Network和Response Quality Model动态融合查询相似性和响应质量,优化大型语言模型的信息检索决策,在多个问答数据集上显著提升了F1分数和准确率。
Large Language Model, RAG, Reasoning, Multimodality, Efficiency
Jianling Lu, Mingqi Lv, Tieming Chen
Zhejiang University of Technology
Generated by grok-3
Background Problem
大型语言模型(LLMs)在问答任务中通过检索增强生成(RAG)引入外部知识显著提升了性能,但其核心挑战在于如何平衡模型内部自知识与外部信息检索(IR)之间的冲突。传统基于阈值的方法采用单一静态标准,在动态查询环境下往往导致IR决策与LLM响应不相关,尤其是在处理复杂查询时表现不佳。为解决这一问题,作者提出了认知自知识对流(CCSK)框架,旨在通过动态联合决策过程优化信息检索决策,提升模型在复杂场景下的适应性和准确性。
Method
- 核心思想:CCSK框架通过结合查询相似性和响应质量两个维度,动态决定是否激活信息检索(IR),以解决LLM内部知识与外部信息冲突的问题。
- 具体实现:
- Siamese Network(SN):利用BERT编码器计算当前查询与历史查询的余弦相似度,若与当前查询最相似的历史查询曾触发IR,则判定当前查询也需IR;反之则不需要。SN模块通过Top-K相似查询的平均标签值输出IR置信度。
- Response Quality Model(RQM):将IR激活决策视为回归任务,使用BERT提取响应文本特征,结合ROUGE-1和余弦相似度作为目标变量,通过LightGBM训练模型,输出响应质量分数,进而决定是否需要IR。
- 注意力融合机制:采用多头注意力机制融合SN和RQM的输出,动态调整两模块的权重,并通过三个动态阈值(预测阈值、置信阈值、单模块阈值)最终决定是否激活IR。
- 关键点:CCSK摒弃静态阈值,强调动态决策,同时通过双模块设计综合考虑查询和响应特征,提升决策的全面性和适应性。
Experiment
- 数据集:实验在三个公开问答数据集(WebQuestions、ComplexQuestions、Free917)上进行,总样本量较小(WebQuestions Main 2145个,ComplexQuestions Main 1486个),按80%训练和20%测试划分,测试集中38%为多步推理问题,旨在验证模型在复杂场景下的表现。
- 实验设置:与多种基线模型(如Manual-CoT、Manual-CoT-IR)和最新方法(如SKRknn、Think-then-Act)对比,使用BERT-base-uncased作为骨干网络,Llama3生成响应,评估指标包括精确匹配(EM)、F1分数和准确率(ACC)。
- 结果分析:CCSK在WebQuestions Main上的F1分数为61.14%,ACC为59.94%,比Manual-CoT-IR分别高5.12%和4.85%;在ComplexQuestions Main上F1分数为66.18%,ACC为65.07%,比基线高4.46%和4.65%。结果表明CCSK在复杂查询和多步推理任务中表现更优,优于单一查询或响应驱动的方法。
- 实验设计评价:实验设置涵盖了多步推理问题,但数据集规模较小,可能无法完全反映真实场景的多样性;消融实验验证了RQM贡献更大,但未深入探讨计算开销和模型效率;动态阈值分析显示全动态配置效果最佳,但阈值调优依赖网格搜索,缺乏普适性讨论。
- 总体评价:实验结果与预期一致,CCSK在性能上优于基线,但实验规模和实际应用场景的覆盖度有限,计算复杂性未被充分评估,可能限制其在资源受限环境中的应用。
Further Thoughts
CCSK框架的双模块动态决策机制为解决LLM内部知识与外部检索冲突提供了一个有趣的视角,但其复杂性可能限制其在低资源环境中的应用。未来可以探索更轻量化的替代方案,例如使用更简单的相似性计算方法或预训练的小模型来降低计算开销。此外,CCSK的动态阈值调整依赖于数据集特性,这提示我们是否可以引入元学习(Meta-Learning)方法,让模型自适应地学习阈值调整策略,从而提升其泛化能力。另一个值得思考的方向是CCSK与多模态任务的结合,例如在视觉-语言问答中,如何动态平衡图像信息与文本检索的权重,可能是一个有前景的跨领域应用。结合其他研究(如RAG领域的最新进展),CCSK的框架或许可以通过引入上下文学习(In-Context Learning)进一步减少对历史数据的依赖,从而提升在新领域中的冷启动性能。