
这项由清华大学深圳国际研究生院、浙江大学、西北工业大学、中国科学技术大学、上海交通大学等多所机构联合完成的研究以预印本形式发布于2026年6月论文编号为arXiv:2606.24428。感兴趣的读者可以通过该编号在arXiv学术平台上查阅完整原文。一、一个让AI越学越错的隐秘陷阱有没有想过一个学生如果每次考完试都由自己批改自己的试卷会发生什么答案很可能是他会在不知不觉中把自己的错误答案当成正确答案然后下次继续错下去甚至越来越自信地错下去。这个听起来有点荒唐的场景其实正是当今主流AI智能体可以理解为能够完成复杂任务的AI助手在学习经验时普遍面临的困境。研究团队将这个问题起了一个非常形象的名字——自我确认陷阱Self-Confirmation Trap。具体来说现有的绝大多数AI智能体在执行任务时都遵循一套单打独斗的学习模式同一个AI完成任务、评估自己做得好不好、把总结写进记忆库然后下次遇到类似任务时再调出这段记忆来参考。整个过程完全由同一个AI独立完成没有任何外部核查。问题就出在这里。当一个AI在某个任务上犯了错误但这个错误在它自己看来是合理的它就会把这段错误的经历当成宝贵经验存入记忆下次遇到类似情况时还会主动调用这段经验结果一错再错。更糟糕的是随着这类错误经验越积越多AI的表现反而会越来越差——不是因为它不努力学习而恰恰是因为它太努力地学习了那些本该抛弃的错误教训。研究团队为了说明这个问题有多严重专门做了一个对照实验他们故意在一个AI的记忆库里注入10%的错误经验比如一些听起来合理但实际上违反规则的支付方法结果这个AI的任务成功率从82.5%直接跌到了77.2%。这5个多百分点的差距仅仅来自于一成的记忆被污染可以直观感受到错误经验的破坏力有多强。为了解决这个问题研究团队设计了一套名为EDV的全新框架中文可以理解为执行-提炼-验证三步法。这套方法的核心思想正是打破AI独自学习的闭环引入多个不同的AI角色分别负责任务执行、经验总结和质量把关就像一家公司里的业务员、分析师和审计员各司其职互相制衡共同保证写入档案的内容是真实可靠的。二、AI记忆系统是怎么工作的又是怎么坏掉的在深入了解EDV如何解决问题之前有必要先弄清楚AI的经验学习机制到底是怎么运作的。现代AI智能体的一个重要特性是能够把过去执行任务时积累的知识保存下来供未来决策时参考。这个机制和人类记忆有几分相似你第一次去某个城市可能走了很多弯路但下一次再去你就会记得哪条路更快、哪家餐馆好吃。AI的记忆库做的是同样的事——把踩过的坑和成功的经验整理成可复用的知识帮助自己在未来做出更好的判断。这套机制在理论上非常美好然而当AI需要独自完成写经验总结这件事时麻烦就来了。研究团队用了一个数学符号来描述这个问题假设一个AI完成了某个任务产生了一段行动记录这段记录客观上是否正确用c(τ)来表示1代表正确0代表错误这个AI自己评判这段记录是否值得写入记忆则用v(τ)来表示1代表写进去0代表不要。在单一AI独自负责执行和评判的情况下一个本质上错误的行动记录c0被这个AI误判为正确并写入记忆v1的概率会远高于理想情况。原因在于AI执行任务时产生的思维偏差和它评判任务时的思维偏差是同一套偏差——用一把有偏斜的尺子量出来的东西再用同一把尺子验证结果当然会觉得没问题。研究团队还举了一个非常具体的例子来说明这种情况有多难以察觉。在一个模拟航空公司客服的任务场景里AI助手需要帮助用户修改机票。但有一条隐藏规则是旅行证书travel certificate不能用来修改已有的订单只能用来全新购票。一个单一AI助手可能会不断尝试用旅行证书来完成修改操作每次失败后仍然觉得方向是对的只是操作细节有问题然后把这段反复尝试的过程当成宝贵探索经验写入记忆。结果下次遇到类似任务它还是会优先想到用旅行证书——错误的习惯就这样被反复强化了。三、EDV三步法让多个AI互相把关EDV框架的设计可以用一家新闻媒体的运作方式来理解。在一个优质的媒体机构里记者负责采访和写稿执行编辑负责从多篇稿件中提炼出最有价值的角度提炼审核部门负责在发布前核实所有信息的真实性验证。没有哪个职能由同一个人独立完成这种分工不是信任危机而是保证质量的必要机制。EDV的第一步叫做执行Execute。在这个阶段系统会从一个由多个不同AI模型组成的模型池里随机抽取若干个AI让它们各自独立地去完成同一个任务产生各自的行动记录。之所以要用多个不同的AI而不是让同一个AI多次尝试是因为不同的AI模型有不同的思维方式和行为偏好——一个AI可能习惯于先查询信息再行动另一个可能倾向于直接推理。这些差异会让行动记录呈现出真正的多样性有的成功、有的失败、有的走了弯路、有的找到了捷径为后续分析提供更丰富的素材。研究团队在实际实验中使用了三个不同的大型语言模型来自小米的Mimo-V2-Flash、来自智谱AI的GLM-4.7-FP8以及来自MiniMax的MiniMax-M2.1。每次执行任务时系统会随机从这三个模型中选两个组成执行小组确保多样性的同时避免固定搭配产生新的偏见。第二步叫做提炼Distill。执行阶段结束后系统会从模型池中再随机挑选一个AI但这次它的角色不是执行者而是第三方分析师。这位分析师的任务是横向对比所有执行AI产生的行动记录找出它们之间的差异谁成功了、谁失败了、成功的关键步骤在哪里、失败的共同原因是什么。然后这位分析师把这些跨越多条记录的对比洞察浓缩提炼成若干条候选经验。这个设计的关键在于第三方三个字。提炼经验的AI没有参与任务执行它不会因为某条行动记录是自己产生的而对它有偏袒也不会因为自己在某个地方失败了就不愿意承认那是错误。它只负责冷静分析别人的记录这天然地减少了执行者视角带来的自我确认偏误。第三步叫做验证Verify。候选经验产生后还不能直接写入记忆库。系统会把这些候选经验交还给当初执行任务的那些AI请它们各自基于自己的执行体验对每一条候选经验进行独立评判这条经验是否准确、是否有用、是否值得保留这里有一个重要的规则设计EDV采用默认拒绝策略。只有当所有执行AI都对一条经验投了赞成票这条经验才能进入共享记忆库供所有AI以后调用。如果只有部分AI认可这条经验就只进入那些赞成AI的私人记忆库。如果没有通过足够多的认可就直接丢弃。这种严苛的准入标准相当于给记忆库安装了一道高标准的质量过滤网确保写进去的每一条经验都是经过多方认可的可靠知识。四、不只是学习还要学会用经验EDV不仅解决了怎么学的问题还设计了一套完整的怎么用机制让积累下来的优质经验能够在合适的时候、被合适的AI调用出来。在记忆存储端EDV维护着两种类型的记忆库。共享记忆库里存放的是那些获得全体认可的经验代表普遍适用的规律所有AI都可以调用。私人记忆库则是每个AI独有的里面存的是只有部分AI认可的经验——这些经验可能并不普遍适用但对某些特定类型的AI或某些特定类型的任务有参考价值。在模型选择端EDV还维护着一个叫做能力矩阵Ability Matrix的东西可以理解为一张每个AI的擅长科目表。通过在提炼阶段对每个AI表现的持续跟踪系统会逐渐记录下哪类任务哪个AI表现最好。当一个新任务进来时系统就会先查这张表把任务优先交给最擅长处理它的AI来完成。当某个AI接手新任务时系统会先去共享记忆库里检索与该任务最相关的历史经验。如果共享库里找不到足够好的匹配再去查那个AI自己的私人记忆库。检索到的相关经验会被附加到任务描述旁边供AI在思考和决策时参考——这就像一个厨师在接到一个新食谱前先翻翻自己的笔记本看看上次做类似菜肴时有什么成功经验或失败教训。在技术实现上这套检索系统使用了一个叫做Qwen3-Embedding-4B的语义嵌入模型能把文字内容转化成高维向量通过计算向量间的相似度来判断哪些历史经验与当前任务最相关。共享记忆库的检索门槛设为0.80私人记忆库的门槛稍高为0.85确保调出来的参考经验真的是高度相关的而不是牵强附会的。五、三个战场上的全面检验研究团队在三个完全不同类型的AI测试基准上验证了EDV的效果每个基准考察的能力侧重点都不相同覆盖了智能体在现实场景中可能遇到的主要挑战。第一个测试场景叫做τ?-benchtau-squared bench是一个模拟真实客户服务的测试平台涵盖了航空、零售、电信三个行业。在这里AI需要扮演客服人员处理各种复杂的用户请求比如改签机票、处理退款、解释套餐政策。这类任务的难点在于规则复杂、限制条件多而且用户的要求往往有多种满足方式需要在符合规定的前提下找到最优解。在这个测试中研究团队将EDV与多种基准方案进行了对比。完全不使用记忆机制的单模型AI成功率大约在76%到79%之间。使用了单一AI自我学习记忆机制的ReasoningBank方案成功率提升到了79%到82%左右。另外两种利用了多模型集成但没有EDV核心机制的方案Judge和Router成功率分别在81.5%和83.5%。而EDV的综合成功率达到了86.6%其中在电信领域的成功率更是高达99.1%。第二个测试场景叫做Mind2Web考察的是AI在真实网页上自动执行操作的能力。AI需要理解用户的自然语言指令然后在网页上找到正确的按钮或链接点击完成购物、搜索、填写表单等任务。这个测试分三种难度在见过的网站上做新任务跨任务泛化、在没见过的同类网站上做任务跨网站泛化、在完全不同类型的网站上做任务跨领域泛化。EDV在三种设置下都表现出了稳定的优势。以最能说明整体能力的步骤成功率Step Success Rate即每一步操作都做对的比例为例在跨任务测试中EDV达到了43.17%比最强基准ReasoningBank使用Mimo-V2-Flash模型的42.01%有明显提升在跨网站测试中EDV达到36.56%优于最强基准的35.83%在跨领域测试中EDV达到39.57%高于最强基准的38.74%。第三个测试场景叫做MMTBMulti-Mission Tool Bench多任务工具测试基准考察的是AI在需要调用各种外部工具如翻译接口、数据查询API、加密货币行情等时的表现。这类任务的难点在于工具调用格式严格一个参数写错了整个调用就会失败而且有些任务需要同时调用多个工具并协调它们的输出。EDV在这个测试中的综合成功率达到了58.10%高于最强基准Router的55.96%。六、拆解每个环节谁贡献了多少研究团队对EDV的每一个设计环节都做了细致的拆解实验以弄清楚究竟是哪些设计真正发挥了作用而不是笼统地说整体方案有效。这些实验都在τ?-bench的零售场景下进行以成功率作为衡量指标。研究团队设计了一系列逐步递进的对照组像剥洋葱一样从最简单的单AI自学出发每次只加一个新设计观察每步改变带来的效果。结论非常有说服力。从只有单个AI自己执行任务、自己写总结、不做任何验证开始成功率83.3%到加入AI对自己的验证成功率83.2%甚至轻微下降这个结果充分印证了研究团队的核心判断自我验证不仅没有效果还可能因为AI倾向于为自己的决策辩护而带来额外干扰。接着引入一个外部独立验证者成功率84.5%效果有所改善但提升幅度有限因为单个AI的行动记录提供的对比信息太少外部验证者也很难发现深层错误。真正的跃升发生在引入多个AI协作执行的阶段成功率85.9%。多样化的行动记录让对比分析成为可能不同AI的成功路径和失败方式形成了鲜明参照。进一步引入第三方提炼机制后成功率87.1%经验的质量又上了一个台阶因为不带执行者视角的分析师能更客观地从多条记录中提取通用规律。最终完整版EDV加上共识验证成功率88.6%在第三方提炼的基础上再过滤掉那些分析师自身认知局限可能带来的误判形成了完整的质量保障链。关于记忆库的层次设计共享库私人库和能力矩阵的作用研究团队同样做了专门验证。去掉能力矩阵、改用固定的最佳单一模型处理所有任务成功率降至86.6%下降了2个百分点。去掉私人记忆库、把所有经验都存入共享库成功率降至85.7%下降了近3个百分点。去掉共享记忆库、把所有经验只存入私人库成功率降至85.9%同样有近3个百分点的下降。这说明两类记忆库各有其不可替代的价值——共享库提供普遍规律私人库覆盖特殊案例二者缺一不可。七、经验质量的真实提升人工审核怎么说数字上的成功率提升是一回事记忆库里存的经验质量究竟提高了多少才是衡量EDV是否真正解决了核心问题的关键。为此研究团队对EDV和ReasoningBank存入记忆库的内容进行了人工审核对比评分采用5分制。结果显示EDV在所有积极指标上都高于ReasoningBank在所有消极指标上都低于ReasoningBank。经验的正确性与真实可信度从3.72分提升到4.41分可操作性即这条经验能否直接指导AI下次做出更好的行动从3.58分提升到4.32分具体性即这条经验是否有清晰的适用场景而非泛泛而谈从3.64分提升到4.27分。与此同时噪音与幻觉程度即经验内容中有多少是没有实际依据的臆想内容从1.21分下降到0.63分误导风险即如果AI按这条经验行事会不会反而做错从1.08分下降到0.51分。这组数字之所以有价值在于它把抽象的记忆质量提升变成了可量化、可观察的对比证明EDV不只是在最终成绩单上表现更好它从源头就生产出了更纯净、更可靠的知识原料。八、经验的三种升华EDV改变了AI记忆的样貌研究团队还对EDV产出的经验内容进行了深入的质量分析发现相比单AI自学产出的经验EDV的经验呈现出三种明显不同的特征可以看作是AI从死记硬背向真正理解的跨越。第一种升华可以称为打破惯性动态适应。单AI学习产出的经验往往是对某个操作步骤的固定描述例如完成筛选需要依次点击类别选项和地区选项。这种经验相当于死记了一个操作流程但没有理解这个流程在什么情况下才有必要执行。EDV产出的对应经验则更进一步在执行筛选操作之前先检查当前显示的结果是否已经满足目标条件如果已经满足就直接跳过筛选步骤。这背后体现的是一种对环境状态的感知能力而不是机械执行固定程序。第二种升华可以称为跳出局部全局优化。单AI容易陷入完成了一个子目标就满足了的局限思维比如为一个要求展示来自巴西的TikTok系列播放列表的任务AI只选择了巴西这个地区选项就停下来了认为任务完成忘记了还需要同时指定TikTok Series这个内容类型。EDV产出的对应经验则会明确指出当任务有多个并列条件时所有条件都必须被满足不能完成其中一个就停止。这种经验帮助AI建立起对任务整体结构的把握而非只盯着眼前这一步。第三种升华可以称为深挖根因精准纠错。单AI在遇到失败时往往只记录表面现象不要用通用语言名称调用翻译工具而EDV在多个AI共同分析失败案例后能够挖出更本质的原因调用翻译工具时必须使用ISO 639-1标准的双字母代码如en代表英语、ru代表俄语而非自然语言描述。这类经验不只告诉AI什么不对还告诉它为什么不对和正确的方式是什么具有更强的泛化能力。九、效率不降反升聪明地花时间研究团队还专门分析了EDV在计算资源消耗上的表现因为引入多个AI协作自然会让人担心成本大幅增加。在经验构建阶段EDV确实需要多个AI协同工作但这个过程是离线进行的——AI不是在等待用户的时候实时做这件事而是像工厂在夜间备货一样在闲置时间批量处理。多个AI的工作可以并行进行时间成本并不会随AI数量线性增加也不会影响用户体验到的响应速度。在实际使用阶段EDV反而比对照组更节省资源。由于记忆库里存的都是高质量、高针对性的经验AI调出相关记忆后能更快速地找到正确答案不需要在错误路径上反复摸索。具体数字是在零售场景的测试中EDV的平均推理令牌消耗可以理解为AI思考和生成回答所用的计算量比ReasoningBank减少了24.5%同时成功率还更高。这相当于一个经验丰富的专家不仅回答质量更好思考时间还比一个经验不足的人更短——因为优质的历史经验帮它直接跳过了大量无谓的试错过程。EDV的设计思路实质上是把解决问题的成本从反复在线摸索转移到了一次性高质量离线备知这种时间结构上的重新分配使得它在实际部署中具备良好的可行性。说到底这项研究想告诉我们的核心道理其实比它的技术细节更值得细细品味。AI智能体的进步不仅仅是见过更多事更重要的是记住对的事。一个只会大量积累、不加筛选的记忆系统就像一个什么都记笔记但从不整理笔记本的学生——笔记越来越多真正有用的信息却越来越难找甚至被错误的笔记越积越多地掩盖。EDV提供的解法是把记忆的进货质检这件事认真做好在经验进入长期记忆之前通过多角度审查把错误的内容拦截在外。数据表明这种做法带来的不仅是成绩单上数字的提升还有真实可测量的记忆内容质量改善。当然这套方案并非没有局限性。研究团队在论文中坦诚指出了几个值得关注的潜在问题如果多个不同的AI恰好都存在同一种类型的认知盲区那么共识验证机制可能反而会把这种共同的错误稳固下来形成新的多数人偏见。此外当团队里某个AI模型的能力明显弱于其他成员时它的参与可能会干扰整体决策拉低经验质量。另外由于任务执行和经验评审分散在多个AI之间一旦出现问题追溯到底是哪个环节出了差错会比单AI系统复杂得多。未来的研究方向研究团队提出了两个有意思的探索一是如何动态管理不断增长的记忆库让陈旧的经验自动退场、相近的经验合并整理保持记忆库的整洁和高效二是如何让AI团队的规模随任务难度动态调整简单任务用一两个AI就够了复杂任务则自动扩大团队探索随着AI数量增加性能如何变化的规律。对于关注AI技术发展的普通读者来说这项研究揭示了一个很有实际意义的方向当AI开始在更复杂的现实场景中持续工作时如何设计它的成长机制会直接决定它能走多远。有兴趣深入了解技术细节的读者可以通过arXiv:2606.24428查阅完整论文代码也已开放在GitHub上供研究者参考。QAQ1什么是自我确认陷阱为什么AI会掉入这个陷阱A自我确认陷阱是指AI智能体独自完成任务、自己评估结果、自己写入记忆的闭环模式下容易把错误但看起来合理的经验当成正确经验存入记忆库。因为执行任务时产生的认知偏差和评判任务时的偏差来自同一套思维系统相当于用有问题的尺子量东西再用同一把尺子验证自然发现不了问题。Q2EDV框架和传统单AI学习方案相比具体提升了多少性能A在模拟客服场景的τ?-bench测试中不使用记忆的单模型方案成功率约为76%到79%使用传统单AI自学记忆方案的成功率约为79%到82%而EDV的综合成功率达到了86.6%其中电信场景高达99.1%。此外EDV在网页操作和工具调用两类测试中同样全面超过了所有对比方案同时推理计算消耗还比传统方案降低了约24.5%。Q3EDV框架为什么需要多个不同的AI模型用同一个模型多次运行不行吗A关键在于多样性。同一个AI模型重复运行会在相似的地方犯相似的错误行动记录之间缺乏真正有价值的差异。而不同模型有不同的设计偏好和推理方式一个可能在某步骤上失败另一个恰好在同一步骤上成功这种对比才能让提炼环节的第三方分析师发现真正的关键差异提取出有实质参考价值的经验。研究的消融实验数据也印证了这一点多模型执行是整体性能提升的重要基础。