【论文阅读】Stable-RAG: Mitigating Retrieval-Permutation-Induced Hallucinations in Retrieval-Augmented Gen

发布时间:2026/6/29 18:40:56
【论文阅读】Stable-RAG: Mitigating Retrieval-Permutation-Induced Hallucinations in Retrieval-Augmented Gen Stable-RAG: Mitigating Retrieval-Permutation-Induced Hallucinations in Retrieval-Augmented GenerationACL 2026[2601.02993] Stable-RAG: Mitigating Retrieval-Permutation-Induced Hallucinations in Retrieval-Augmented Generation【先看图尝试理解作者的想法似乎是在前期使用一些策略获取LLM的不同答案输出依赖上一步的答案输出和真实答案进行比对分类对应不同的DPO好坏排布的策略。所以最后还是要对RAG中的LLM进行强化学习是需要做出改动的。前序获取不同的大模型输出结果调整的是检索出来的n个文档之间的相对顺序总共有Ann中排列也就是n的阶乘。后面是从LLM的每一层找内部状态内部状态聚类然后解码这里我属实没看明白就只能理解聚类因为如果获取n!种答案未免太过浪费和耗费资源但是对什么东西聚类、LLM是如何依据不同的聚类内容输出不同结果的这里就需要看论文来获悉了。 】研究背景大模型本身有幻觉RAG系统用来减少事实性幻觉但是RAG系统肯定也不是零幻觉的。作者声称他们发现了现有RAG 系统中一个关键但被忽视的漏洞对检索文档顺序的高度敏感性。 当检索内容保持不变包含黄金文档时仅仅重新排列它们的顺序就可能导致模型遵循完全不同的推理路径并产生不一致的答案这被称为排列诱导幻觉(Permutation-Induced Hallucinations)。如图1所示检索了 Top-5 文档将黄金文档置于不同位置观察到 LLM 的答案在不同的检索排列下存在显著差异。 即使黄金文档被固定在第一位模型也可能忽略它并产生与证据冲突的答案。 这揭示了一种此前未被深入探索的对检索排列的敏感性即使在低于 1,000 个 token 的短上下文中也是如此。现有的稳健 RAG 方法主要关注检索质量和位置偏差。 前者通过不确定性估计和对抗性训练例如对弱相关文档进行噪声注入来增强 LLM 对低质量检索的稳健性。 后者缓解了长上下文中对特定位置的注意力偏差从而促进了对检索文档更均衡的使用。然而这些方法忽略了一个关键问题排列敏感性既不是由弱相关文档引起的因为输入文档是相同的也不局限于长上下文推理任务因为只有 Top-5 文档在 1,000 个 token 以内。图 2 在 NQ 训练集上使用 DPR 检索器模型为 LLaMA3-8B-Instruct以及在 HotpotQA 训练集上使用 Contriever 检索器模型为 Qwen3-8B时各层隐藏状态的聚类行为实验使用了 1,000 个随机采样的实例。 不同颜色的线条表示大语言模型在 Top-5 检索文档的所有 5!(120) 排列组合下产生的最终推理状态的聚类数量例如绿线表示 3-5 个聚类状态。 其他规模的结果在附录 ​​​​​中报告。相反排列敏感性源于大语言模型LLM内部推理动态的结构性不稳定。 随着模型深度的增加文档排列会引发越来越多的不同推理轨迹导致更频繁的分支从而增加幻觉或产生不可靠输出的风险。如图2所示在 NQ 和 HotpotQA 数据集上测量了通过对不同 LLM 层级中经过文档排列后的表征进行谱聚类所获得的平均聚类数量。 结果表明浅层的推理轨迹相对集中而分歧在中间层出现并在更高层中变得更加显著。 此外敏感样本即 10比非敏感样本即 1-2表现出更大的分歧且这种效应主要集中在更高层级。 这些发现突显了缓解排列敏感性的重要性使 LLM 无论检索到的文档顺序如何都能产生稳定且准确的输出这对于提高检索增强生成RAG系统的鲁棒性至关重要。相关研究先前关于提高 RAG 系统鲁棒性的工作主要集中在增强检索质量和重排序性能或是增强生成器的鲁棒性。 例如通过应用噪声过滤来提升生成准确率在训练过程中让模型接触检索噪声或无关文档从而增强其鲁棒性。然而这些方法通常假设文档顺序是稳定的并未系统地评估其对推理的影响。 尽管 ATM【ATM: Adversarial tuning multiagent system makes a robust retrieval-augmented generator. EMNLP2024】考虑了顺序扰动但它并未显式地对各种排列下的推理轨迹进行建模因此无法确保一致性。此外另一系列研究主要关注长上下文场景中的位置偏见。 大多数大语言模型使用相对位置编码例如 RoPE或 ALiBi这些编码引入了系统性偏差由于注意力汇聚attention sinks早期的 Token 接收到了过多的注意力 而长程衰减则偏向于近期的 Token。 先前的工作通过修改位置编码、调整因果掩码、重新加权注意力或隐藏状态或者使用 Pos2Distill 将知识从有利位置蒸馏到不利位置以促进各 Token 间公平的注意力分配从而缓解这些问题。 这些方法侧重于长上下文并未明确解决由同一文档集的不同排列所导致的推理不一致问题。预备知识问题定义排列敏感性评估近期工作 【Clue: Non-parametric verification from experience via hidden-state clustering Efficient latent semantic clustering for scaling test-time computation of LLMs.】利用隐藏状态来揭示潜在的推理轨迹这些轨迹通常作为生成不确定性的指标。 因此作者提出通过隐藏状态的谱聚类来量化模型生成的各种不确定性。作者通过逐层可视化和定量分析验证了谱聚类 Ng et al. (2001); Von Luxburg (2007) 的可行性。层级可视化对于每个问题对 Top-5 文档进行排列以生成 5!120 种顺序并在生成回复前提取每一层最后一个 Token 的隐藏状态。 然后通过PCA将具有代表性的层投影到二维空间进行可视化如图3所示。观察到浅层的隐藏状态形成了混合聚类对应不同答案的点相互交织而在更深的层中聚类变得越来越清晰具有相同答案的点明显聚集在一起。 这表明文档顺序的变化会导致不同的推理轨迹这些轨迹在隐藏状态空间中表现为逐渐可分的聚类反映了模型的内部推理模式。聚类的定量分析为了评估每个聚类的推理性能选择距离聚类中心最近的隐藏状态将其解码为该聚类的代表性答案并将此答案与同一聚类中所有隐藏状态的真实推理答案进行匹配以计算总体精确率Precision、召回率Recall和 F1 分数。如表1所示聚类指标随网络深度增加而提升表明不同答案的隐藏状态在深层中变得更易于区分。 值得注意的是聚类性能已达到实际应用水平其中 LLaMA3 的 F1 分数为 83.9Qwen3 的 F1 分数为 87.6。 因此作者在方法中使用最后一层的隐藏状态进行谱聚类。方法方法包含三个阶段隐藏状态聚类、偏好数据构建以及利用 DPO 进行对齐如图4所示。 对于每种排列提取响应生成前最后一层的最后一个 Token 的隐藏状态以捕捉模型的推理状态。 随后应用谱聚类来发现潜在的推理模式并对每个聚类中的代表性状态进行解码。 通过对齐跨排列的隐藏状态方法提高了模型在不同检索顺序下生成结果的一致性。1. 隐状态聚类1.1 内部状态提取枚举文档的所有排列并针对每种排列运行模型。仅提取响应生成前最后一层的最后一个 Token 的隐藏状态 h(i)∈ℝd。将所有隐藏状态组织成一个矩阵 H该矩阵表示模型在文档排列中的最终推理状态分布。1.2 隐状态谱聚类对 H 应用谱聚类其中每个聚类对应一种潜在的推理模式。使用余弦距离的指数函数计算每对隐藏状态 h(i) 和 h(j) 之间的相似度其中 σ 是控制敏感度的超参数。 此处A∈ℝN×N 表示所有 N 隐藏状态的加权邻接矩阵。归一化图拉普拉斯矩阵 L 构建如下D 是度矩阵其每个对角线条目 Di​i 表示连接到第 i 个隐藏状态视为图节点的边权重之和I 是单位矩阵。聚类数量 K 通过 L 的特征间隙eigengap自适应确定。设 λ1≤⋯≤λN 为 L 的特征值并定义每对相邻特征值之间的连续间隙 gapiλi1−λi。 随后将聚类数量设置为 Kmax⁡(2,(arg⁡maxi⁡gapi)1)以确保潜在推理模式之间有清晰的分离。 一旦确定了 K便获得所有隐藏状态的归一化谱嵌入并将每个 h(i) 分配到其中一个聚类 C1,C2,…,CK 中。1.3 聚类内部的代表性解码在每个聚类 Ck 内通过基于质心的采样来识别一个代表性隐藏状态。 聚类质心计算如下h是每一个聚类内部的代表性隐状态本质上是为了减少开销运行次数不再是n!而是聚类的列别个数。1.4 穷举全排列解码跑n!次记过作为参考来评估代表性解码的效率增益2. 偏好数据集构建2.1 目标目标是构建一个稳健的 RAG 系统。 当模型无法生成可靠答案时鼓励其放弃以有效抑制幻觉并提高系统可靠性。 当存在可用答案时无论文档顺序如何输出都应保持一致从而降低排列敏感性并进一步增强整体推理的稳健性。2.2 数据集构建和图4的表达是一样的每一类都有对应的偏好回答3. DPO强化学习对齐实验1. 实验设置数据集NQ TriviaQAHotpotQA评估指标子串精确匹配SubEM和 F1 值。SubEM 检查标准答案是否作为子串出现在预测结果中而 F1 则衡量预测结果与参考答案之间的 Token 级重叠度。baseline基础Vanilla方法包括 直接生成Direct Generation、基础 RAG Lewis et al. (2020) 以及 基础 SFT Zhang et al. (2024a)。 鲁棒 RAG 方法包括 RetRobust Yoran et al. (2024)、ATM Zhu et al. (2024a) 以及 RAAT Fang et al. (2024)。 位置偏差Positional Bias方法包括 Pos2Distill Wang et al. (2025b) 和 Ms-PoE Zhang et al. (2024d)。实现细节使用 LLaMA3-8B-Instruct和 Qwen3-8B作为实验的主干模型。对所有基线方法和我们的方法使用由 DPR和 Contriever-MS MARCO 检索到的相同 Top-5 维基百科段落。训练细节使用 HuggingFace Transformers 实现 DPO 训练流水线并结合 PEFT LoRA进行参数高效微调。基础模型和参考模型均从预训练检查点初始化其中参考模型保持在评估模式以在训练过程中提供稳定的策略目标。 每个数据集均经过随机打乱并按 85% 的训练集和 15% 的验证集进行划分每个数据集最多包含 18,000 个样本以控制计算开销。随机种子42LoRA 应用于所有投影层秩rank为 r128alpha 为 128dropout 为 0且不添加额外的偏置项。 DPO 配置采用单设备批大小为 2梯度累积步数为 8学习率为 5×10−6线性预热比例为 0.1偏好缩放超参数 β 为 0.4。 在两张 NVIDIA RTX PRO 6000 GPU 上对 LLaMA-3-8B-Instruct 训练 1 个 epoch对 Qwen3-8B 训练 2 个 epoch每个 epoch 大约耗时两小时。 在数据构建过程中使用贪婪解码并在推理过程中将温度设置为 0.01这几乎等同于贪婪解码。 这确保了输出的变化主要反映了对文档顺序的敏感性而非采样随机性。提示词2.结果结果表明(i) 总体性能。 在使用 Contriever 和 DPR 检索器的所有数据集上Stable-RAG 始终实现最佳的整体性能优于所有强基线模型(ii) 复杂推理的有效性。 Stable-RAG 在单跳和多跳 QA 任务上均持续提升了性能证明了其稳定复杂问题中间推理的能力(iii) 模型泛化能力。 Stable-RAG 在不同骨干模型上均表现稳健显示出与模型无关的泛化能力3. 深入分析消融实验移除任何组件都会导致性能持续下降这表明所有组件都是必不可少的。 特别是排除 PC 组件索引 a会导致各数据集上的性能显著下降这表明部分正确信号对于稳定推理至关重要。 移除 FA索引 c主要影响整体性能而移除 FU索引 b, d则会大幅降低弃权率这凸显了它在处理无法回答或幻觉案例中的作用。 总体而言Stable-RAG 在性能和弃权之间实现了最佳权衡。和标准DPO对比将 Stable-RAG 与标准 DPO 进行了比较两者使用相同的基础模型和优化策略区别仅在于是否强制执行跨文档顺序的推理一致性。 在标准 DPO 中模型被训练为在有证据时倾向于选择标准答案而不是通过采样获得的错误答案或在查询无法回答时选择“我不知道”。表4中的结果表明在不修改偏好优化框架的前提下增加顺序稳定性约束能够持续提升 RAG 在不同数据集和检索器上的性能。跨数据集泛化性图五左侧实验结果表明Stable-RAG 在不同任务和知识领域中表现出稳健的迁移能力无论源数据集与目标数据集如何组合其表现始终优于最优基线并在答案一致性方面实现了稳定的提升。跨检索器图五中间跨Top-K图五右侧该模型在各种 Top-K 配置下均保持了稳定的性能并比相应的基线实现了显著提升证明了其在处理不同数量候选文档时具有强大的泛化能力。训练数据规模性能随数据量增加而稳步提升并在超过 15k 个样本后趋于饱和这表明相对较小的数据集就足以捕捉核心的排列敏感模式。 然而在数据非常有限例如 1k的情况下性能会显著下降反映出对细粒度顺序差异进行建模的难度。 考虑到这一权衡我们采用 15k 个样本作为默认值因为超过 20k 个样本所带来的收益不足以抵消增加的计算成本。DPO后的内部模型行为我们根据基础模型对样本的敏感度进行标注并检查训练后的隐藏状态聚类情况。 图6b显示我们的方法减少了高敏感度样本的聚类保持了中等敏感度样本的稳定性并略微增加了低敏感度样本的聚类。 图6c 展示了仅在敏感样本上进行训练的结果图6d展示了标准 DPO 的结果。 可以看出聚类的增加主要源于 DPO 带来的回答多样性而非直接在敏感样本上训练所致。 例如对于相同的查询“猫鼠法案是何时引入的”和顺序DPO 之后响应从“1913年。”变为“引入于1913年4月。”。 总的来说我们的方法在稳定高敏感度表征的同时保留了低敏感度样本的多样性。DPO之后的外部位置鲁棒性原始顺序和打乱顺序结论确定了RAG中一个未被充分探索的脆弱性大语言模型LLM对文档顺序高度敏感即使面对相同的证据也会产生分歧的推理结果以及不一致或幻觉输出。层级分析将这种不稳定性追溯到模型的中间层和高层。提出了 Stable-RAG它通过对排列后的隐藏状态进行聚类并通过 DPO 优化对齐推理模式从而降低了由排列引起的不确定性。在多个问答基准测试上的实验表明该方法在准确性、推理稳定性和强迁移能力方面均有持续提升。 在降低训练成本的同时强制执行层级推理约束为减轻由排列引起的幻觉提供了一种有前景的方法。局限方法侧重于在最终层表示层面稳定推理而没有在整个模型中明确施加逐层的推理路径约束。Stable-RAG 并没有直接对中间层的推理轨迹进行正则化。加入明确的逐层约束或轨迹级对齐可能会进一步提高推理稳定性但这需要更细粒度的监督或架构修改我们将这些留待未来工作探索。Stable-RAG 依赖于对文档排列后的隐藏表示进行谱聚类以估计主导推理模式并为 DPO 对齐构建偏好信号。 虽然与穷尽的全排列解码相比该策略将标注成本降低了约三倍但它仍然带来了不可忽视的计算和标注开销。 更高效的聚类策略、弱监督信号或完全无监督的对齐目标可以进一步降低对标注的需求并提高可扩展性。 探索此类经济高效的监督机制对于构建更稳健、更实用的 RAG 系统至关重要。