Minority Sentinel:多智能体辩论中推翻多数投票的少数正确样本识别框架

发布时间:2026/6/30 13:27:33
Minority Sentinel:多智能体辩论中推翻多数投票的少数正确样本识别框架 Minority Sentinel多智能体辩论中推翻多数投票的少数正确样本识别框架论文原链接https://arxiv.org/html/2606.29270v1发布时间2026-06-28会议SIGIR 2026 AgentSearch Workshop开源协议无版权限制作者何川、陈泽彬、杨振毅、乔少博、鞠明辰、刘佳特、温东、刘冠峰单位新南威尔士大学、Euler AI、麦考瑞大学摘要多智能体辩论MAD结合多数投票是提升大模型推理能力的主流方案但该方法依赖孔多塞陪审团定理的独立误差假设。当下主流大模型训练语料高度重合模型错误存在强相关性会出现少数正确样本Minority Truth现象少数智能体答案为真值却被多数投票机制压制。本文在6个标准推理数据集、3类异构大模型的辩论实验中发现存在观点分歧的样本里25.5%的情况少数持有正确答案理论性能提升上限可达10个百分点。本文提出Minority Sentinel轻量级元分类框架采用「诊断-修正」双阶段流程从辩论日志提取多维辩论指纹特征训练LightGBM分类器自动判断是否推翻多数投票。实验结果框架整体翻转精确率81.2%在全部6个数据集、20组随机种子下均实现正向净收益对比LLM裁判基线后者净收益为负值证明基于行为特征的分类方案远优于大模型直接裁决。关键词多智能体辩论多数投票大语言模型元分类器误差相关少数观点修复1 引言1.1 多智能体辩论现有缺陷多智能体辩论(MAD)广泛用于翻译、检索增强、大模型评测等场景标准流程为多轮讨论多数投票聚合结果。但该方案成立的前提是每个模型的错误相互独立而现实中各大LLM训练数据、架构趋同错误高度相关辩论中易出现「多数暴政」少数正确观点被群体从众效应掩盖仅优化辩论话术、不优化结果聚合规则无法解决根本精度损失。1.2 核心现象定义Minority Truth当3个智能体出现2:1观点分裂时少数一方答案为真实标准答案该样本称为Minority Truth。全量1754条实验数据中686条存在观点分歧其中175条25.5%属于少数正确样本。多数投票准确率74.3%理想全识别上限84.3%存在10%的理论提升空间。1.3 LLM裁判方案固有弊端直观思路是引入更强大模型充当裁判但裁判与辩论模型共享知识盲区同样存在相关错误实验证明该方案净收益为负越翻转准确率越低。本文核心创新不依赖语义推理仅提取辩论过程行为统计特征使用非LLM分类器完成裁决打破大模型认知闭环。1.4 论文四大核心贡献定量验证Minority Truth现象量化10个百分点的理论性能提升空间提出无模型微调、无提示词修改的插拔式「诊断-修正」聚合层框架Minority Sentinel设计22维多维辩论指纹特征覆盖辩论行为、投票结构、语义审计三类信息大规模消融与对比实验LightGBM元分类在所有数据集稳定正向收益LLM裁判基线性能衰减。2 相关工作2.1 多智能辩论与从众效应Du等人提出多智能辩论框架证明多轮交互可提升推理真实性后续研究发现辩论存在严重从众缺陷弱模型仅3.6%概率修正自身错误多数场景会主动向群体妥协。现有工作仅优化辩论过程未解决分歧下的结果筛选问题。2.2 多数投票的缺陷与改进聚合策略自洽性(Self-Consistency)将多数投票用于单模型采样但模型误差相关时定理失效。现有加权投票仅利用投票结果未挖掘完整辩论过程的行为信息信息利用率低。2.3 辩论审计与少数观点修复AgentAuditor是最相关工作通过推理树做全局审计但需要构建完整推理树、针对全样本校验本文仅针对分歧样本做二元判断是否翻转投票无需额外推理构建轻量化更强。对比优势仅聚焦2:1分歧样本减少计算开销直接从日志提取特征无需搭建推理树选用非LLM梯度提升树规避模型误差关联问题。3 方法Minority Sentinel整体框架整体分为诊断阶段Diagnosis、**修正阶段Cure**两大模块。诊断3个异构LLM完成两轮辩论收集所有2:1分歧样本与完整辩论日志修正提取22维辩论指纹特征训练LightGBM分类器基于阈值判断是否推翻多数投票。3.1 问题形式化多智能体辩论MADK个大模型针对问题q完成R轮辩论最终答案通过多数投票输出a^MV\hat{a}_{\text{MV}}a^MV​分歧样本K3时2个模型答案一致、1个不同2:1分裂Minority Truth分歧样本中少数答案与真值匹配核心评价指标净收益NG (正确翻转数-错误翻转数)/总样本NG0代表方案有效翻转精确率FP正确翻转/(正确错误翻转)召回率正确翻转/全部Minority Truth样本目标学习分类函数f(x)f(\mathbf{x})f(x)输入辩论特征x\mathbf{x}x输出是否翻转投票。3.2 诊断阶段标准化辩论协议智能体配置两类多样性约束厂商架构多样性GPT-4o-mini、Gemini-2.0-Flash、Claude Haiku 4.5角色认知多样性Agent A严谨审计师拒绝盲从群体Agent B平衡分析师公平权衡所有证据Agent C直觉挑战者擅长非常规解题思路。所有模型temperature统一0.7消除采样干扰。三轮辩论流程第0轮独立作答智能体看不到他人回答生成初始推理第1、2轮辩论读取上一轮所有人答案明确标注是否改变立场、修改理由辩论结束统计最终答案仅保留2:1分歧样本送入修正阶段。设计选择说明选用3智能体2轮辩论3模型仅存在2:1一种分歧形式二元分类任务简单更多模型会出现3:2等复杂分裂训练数据碎片化两轮辩论平衡行为特征丰富度与日志冗余。3.3 辩论指纹Debate Fingerprint22维特征全集分为三大类特征完整特征表一、辩论行为特征10维核心骨干特征特征名含义total_stance_changes所有智能立场变更总次数majority_convert_ratio从少数转向多数的模型占比minority_persistence少数全程未改变立场(0/1)minority_new_info_ratio少数提出新论据的轮次占比majority_new_info_ratio多数提出新论据的轮次占比majority_agreement_count多数内部互相认同次数minority_agreement_count少数自我论证认同次数agreement_diff多数-认同次数差值explicit_changes_majority多数内部主动立场变更次数explicit_changes_minority少数内部主动立场变更次数二、投票元特征4维特征名含义vote_margin多数与少数票数差num_unique_answers_r0初始轮不同答案数量num_unique_answers_final辩论结束不同答案数量answers_changed全程更换答案的智能体数量三、语义审计特征8维GPT-4o静态打分提取特征名含义minority_new_evidence少数提供全新证据(0/1)majority_echo_chamber多数存在回音室盲从(0/1)minority_finds_error少数指出多数逻辑漏洞(0/1)majority_logical_gap多数论证存在逻辑断层(0/1)minority_reasoning_score少数推理质量1-5分majority_reasoning_score多数推理质量1-5分reasoning_score_diff推理分数差值blind_follower_count无理由跟风模型数量3.4 修正阶段LightGBM元分类阈值策略分类器选择理由适配布尔、连续、离散混合特征树模型天然支持特征重要性解析可解释性强与LLM语义决策正交规避误差相关问题。输出P(少数答案正确)P(\text{少数答案正确})P(少数答案正确)连续概率自适应阈值优化网格搜索τ∈[0.05,0.95]\tau\in[0.05,0.95]τ∈[0.05,0.95]约束多数正确样本保留率≥95%最大化净收益NG满足「不伤害原有正确样本」保守原则决策规则预测概率τ\tauτ推翻多数选少数否则保留多数投票结果。训练划分分层5折交叉验证按是否Minority Truth分层防止数据泄露。4 实验与结果分析4.1 实验配置评测6类标准数据集ARC-Challenge科学常识、CommonsenseQA常识问答、GSM8K数学推理、MMLU-STEM理工综合、TruthfulQA事实对抗、WinoGrande指代消歧总样本1754条分歧样本686条。对比基线方案Majority Voting原始多数投票基准NG0无条件信任少数所有分歧全部翻转单特征阈值仅使用推理分差特征逻辑回归相同特征集线性分类LLM裁判GPT-4o直接阅读辩论日志裁决。数据集分歧统计数据集总样本分歧数Minority Truth数量少数正确率多数投票准确率理论提升上限ARC-Challenge96331442.4%71.9%14.6%CSQA2531155447.0%54.9%21.3%GSM8K137761621.1%70.8%11.7%MMLU-STEM7262364920.8%80.9%6.7%TruthfulQA210762127.6%62.4%10.0%WinoGrande3321502114.0%84.6%6.3%合计175468617525.5%74.3%10.0%4.2 单数据集主实验结果整体指标正确翻转39次错误翻转9次FP81.2%整体NG1.71%数据集最优阈值AUC正确翻转CF错误翻转WF翻转精确率召回率净收益NGARC-Challenge0.850.82350100.0%35.7%5.21%CSQA0.880.6123260.0%5.6%0.40%GSM8K0.600.957110100.0%68.8%8.03%MMLU-STEM0.760.74616769.6%32.7%1.24%TruthfulQA0.870.68130100.0%14.3%1.43%WinoGrande0.940.58110100.0%4.8%0.30%汇总—0.74139981.2%22.3%1.71%关键结论数学GSM8K效果最优行为特征区分度极高所有数据集净收益均为正数无性能衰减常识类数据集易出现多合理答案翻转精确率略低。4.3 全基线对比方法CFWFFP%召回率%NG%Majority Voting————0.00无条件信任少数17551125.5100-19.16单特征阈值7370.04.00.23逻辑回归241266.713.70.68LLM裁判(GPT-4o)709442.740-1.37Minority Sentinel(本文)39981.222.31.71理论最优Oracle17501001009.98核心对比LLM裁判虽然召回更高但大量错误翻转整体性能变差本文方案兼顾精确率与正向收益。5 消融、可解释性与鲁棒性实验5.1 特征组消融实验移除辩论行为特征NG从1.71降至1.14错误翻转大幅增加是核心骨干特征移除语义审计特征NG小幅下降至1.43提供补充召回仅保留投票元特征收益最低区分能力最弱。5.2 特征重要性LightGBM分裂次数Top5关键特征agreement_diff多数少数认同差值minority_agreement_count少数自我论证次数majority_agreement_count多数内部认同次数blind_follower_count盲从模型数量reasoning_score_diff推理分差前10特征6个属于辩论行为类证明行为模式是判断核心依据。5.3 阈值鲁棒性全局固定阈值τ0.81\tau0.81τ0.81时NG1.08阈值区间[0.61,0.95][0.61,0.95][0.61,0.95]内净收益始终为正策略容错空间大。5.4 分类器对比实验梯度提升树LightGBM/XGBoost/CatBoost效果最优MLP神经网络在小样本上过拟合净收益仅0.11%。5.5 随机种子稳定性20组不同随机种子重复实验NG均值1.65%标准差0.19所有种子下净收益均大于0框架稳定可靠。5.6 错误样本分析两类错误题目语义歧义3条多答案均合理标注真值唯一伪优质少数样本6条少数论证话术严谨但本身答案错误。6 讨论、局限与未来方向6.1 范式转变从票数统计到证据审计现有多智能体系统只统计投票数量本文证明辩论过程的行为统计信息可以独立区分可靠共识与虚假多数。LLM裁判失效本质同分布模型共享认知盲区本文用非语义统计特征实现认知正交规避该缺陷。补充语义审计依赖GPT打分但消融证明去掉后仍保有73%收益仅为辅助信息。6.2 现有局限实验固定3智能体2轮辩论未验证5模型、多分裂场景语义审计需要额外LLM调用增加推理开销跨领域零样本无自适应阈值依赖标注数据调参分歧样本总量偏少部分数据集仅几十条阈值存在过拟合风险。6.3 未来工作结合过程奖励模型消除对GPT语义审计的依赖元学习实现跨领域自动阈值扩展5-7智能体研究3:2等复杂分歧落地RAG、代码生成等真实业务多智能系统。7 结论本文提出Minority Truth现象多智能辩论2:1分歧中25.5%少数持有正确答案多数投票存在10%精度损失。设计Minority Sentinel插拔式聚合框架提取22维辩论行为指纹使用LightGBM判断是否推翻多数投票。在6类推理数据集上方案翻转精确率81.2%全部场景正向净收益对比LLM裁判基线性能显著更优。研究证明无需修改大模型推理仅通过辩论日志行为统计即可修复多数投票缺陷为多智能大模型系统提供轻量化结果校验安全阀。参考文献省略原文见论文末尾完整引用列表附录A 完整提示词模板可直接复现实验A.1 三大智能体角色系统提示GPT-4o-mini严谨审计师你是严谨逻辑审计员极度抗拒群体盲从不会仅因他人反对修改结论只有发现自身逻辑漏洞才调整答案。Gemini-2.0-Flash平衡分析师均衡权衡各方证据不会单纯跟随多数仅在对方论证逻辑更完整时更换立场。Claude Haiku直觉挑战者擅长非常规解题但容易被自信的片面论述误导。A.2 辩论轮次提示第0轮独立作答请逐步推理给出答案。问题{question} 输出格式 reasoning推理过程/reasoning 最终答案第1、2轮辩论历史回答{自身上一轮结论} 其他智能体回答{其余模型完整推理} 仔细检查对方逻辑漏洞不要单纯因为他人意见更改答案。 输出 reasoning分析/reasoning 新答案 stance_changeYES/NO/stance_change change_reason修改/不修改理由/changeA.3 语义审计提示输入问题、双方辩论文本仅输出JSON包含minority_new_evidence、majority_echo_chamber、minority_finds_error、majority_logical_gap、minority_reasoning_score、majority_reasoning_score、blind_follower_count七项指标。