西北大学、亚马逊、高通联手攻克AI自我纠错难题

发布时间:2026/6/24 2:15:06
西北大学、亚马逊、高通联手攻克AI自我纠错难题 这项由西北大学、亚马逊AGI、高通AI研究院和明尼苏达大学联合开展的研究发表于2026年6月论文编号为arXiv:2606.18910有兴趣深入了解的读者可以通过该编号在arXiv平台查询完整论文。你有没有见过那种特别厉害的象棋高手即便走错了一步也能在几步之内把局势扭转回来他们之所以厉害不仅仅是因为走出了好棋更是因为在走错之后能够迅速识别失误、从错误中恢复。现在这个能力正在被研究者们系统地教给人工智能——具体来说是那些我们每天都在使用的大语言模型比如ChatGPT这类能够对话的AI系统。这项研究提出了一套名为REVESREvision and VErification-Augmented Training的训练框架核心思路是不仅让AI学会答对题目更要让它学会在答错之后如何聪明地纠正自己。研究成果相当亮眼——在代码生成基准测试LiveCodeBench上REVES比普通强化学习方法高出6.5分比多轮对话训练方法高出4.0分在数学推理和复杂谜题上也有稳定提升甚至用一个只有40亿参数的小模型就达到了其他团队用百亿级大模型才能达到的圆形填充最优解。一、AI回答问题时究竟面临什么挑战要理解这项研究解决了什么问题先得明白AI在回答问题时是怎么工作的。通常情况下当你向AI提问它会给出一个答案然后就结束了。这就像一个学生做完试卷直接交卷没有机会检查和修改。研究人员把这种方式叫做单次推理——一次性把答案给出来能不能答对全看这一发。然而现实情况是人类在处理困难问题时很少依赖第一次的判断。我们会回过头检查、反复推敲、在发现错误后修正思路。于是研究者们想到能不能让AI也拥有这种反复修正的能力这就是所谓的测试时扩展——在AI回答问题的过程中给它更多思考和修正的机会看看能不能得到更好的结果。现有的一些做法已经在探索这个方向。序列修正让AI多次尝试每次根据上一次的结果和反馈来调整答案树状搜索让AI像下棋一样探索多种可能的答案路径进化式优化则模拟自然选择让好答案不断演化改进。这些方法都有一个共同点AI不只是给出一个答案而是经历多轮推敲。但问题来了——这些方法在使用AI的时候AI本身并没有被特别训练过去适应这种多轮修正的场景。就好比你买了一本教做蛋糕的书但书里所有食谱都是按照单炉一次烤好设计的没有任何如果这炉烤糊了怎么补救的内容。现有的AI训练方式本质上都在优化第一次答对而不是答错了之后如何优雅地纠正。这种不匹配就是REVES要解决的核心问题。二、旧方法为何走入了死胡同在深入理解REVES的创新之前有必要搞清楚研究者们之前尝试过什么以及为什么不够好。最直接的想法是多轮强化学习——让AI进行多次尝试把整个答题过程当作一个游戏来训练最终答对了就给奖励。这听起来合情合理但里面藏着一个微妙的陷阱。设想这样一个场景AI在尝试解决一道难题时第一次答错了第二次还是答错第三次终于答对了。在这种错错对的训练模式下系统会认为整个过程是成功的于是把奖励分配给了这三次尝试中的每一次——包括那两次答错的尝试。也就是说AI学到的是这种答错方式是好的因为它曾经出现在成功的轨迹上。这就好像一个学生每次考试前都猜题有一次恰好猜对了老师于是把这次考前猜题的所有行为都表扬了一遍包括那些猜错的题。从长远来看这样的反馈是混乱的学生并不会因此真正学会如何判断题目。研究人员把这个问题称为路径依赖的信用分配偏差——奖励是根据整条路径的终点来分配的而不是根据每一步的真实价值。这种偏差在单次看来不明显但积累下来会导致AI对如何从错误中真正恢复的理解非常模糊。另一个问题是效率。多轮强化学习需要AI每一步都实时生成下一步的内容这个过程是串行的无法并行加速计算成本极高速度极慢。REVES的出发点正是要从根本上绕开这两个问题。三、REVES的核心逻辑把错误变成宝贵的练习素材REVES背后有一个非常优雅的数学发现研究团队将其称为危险分解引理Lemma 4.1。用通俗的话来说这个发现揭示了一件事AI在多轮修正过程中的整体成功概率可以被拆解成每一个错误状态上的单步恢复概率之和。换句话说如果AI在某个错误答案的基础上有更高的概率在下一步给出正确答案那么整体的多轮修正成功率就会提升。这意味着不需要关注整条复杂的答题路径只需要专注于每一个具体的错误节点让AI在那个节点上练习如何纠正就够了。这个发现的意义在于它把一个复杂的多轮问题分解成了很多个简单的单步问题。就像一个复杂的乐曲与其让学生从头到尾反复练习整首曲子不如把每一个难点小节单独拿出来让学生专门练习那些出错的地方。这样的练习效率更高反馈也更准确。基于这个洞察REVES设计了一个两阶段循环框架。第一阶段是数据增强。在每一轮训练开始前研究团队会让当前的AI模型去尝试解决一批问题采用序列修正的方式——一次次地尝试直到答对或者达到最大尝试次数。然后系统只保留那些最终答对了的路径但重点关注路径中间那些答错的步骤。那些中间的错误答案就是最宝贵的训练素材——它们是真实的失误而且已经被证明是可以从中恢复的失误因为后来答对了。系统把这些中间错误答案转化成两类训练样本一类是修正提示让AI练习如何把一个错误答案改成正确答案另一类是验证提示让AI练习如何判断一个答案是对还是错。第二阶段是单步强化学习。把第一阶段产生的这些修正提示和验证提示混合进原始的训练数据中用普通的单步强化学习来训练AI。每次训练都只处理一个提示回答对而不是整个多轮对话序列这样信用分配就变得清晰——答对了就是好答错了就是差不存在路径混乱的问题。训练完成后新的模型进入下一轮循环重新生成数据继续迭代。这个框架有一个非常重要的细节数据增强必须在每一轮训练后重新进行而不能只做一次然后一直用。道理很直观——随着AI模型不断改进它犯的错误也会发生变化。上一轮训练时产生的错误案例在这一轮可能已经不再是AI的弱点了那些样本对训练的帮助就会变得很有限。只有持续刷新训练数据才能让每一轮的练习都聚焦在当前AI最需要提升的地方。实验结果清晰地证明了这一点只做一次数据增强与每轮都刷新相比性能差距非常显著。四、理论保障为什么训练序列修正能让所有修正策略都变好研究团队不仅给出了方法还给出了严谨的理论证明说明为什么专门针对序列修正进行训练能够让其他各种多轮推理策略也受益。核心定理Theorem 3.1大意是如果一个AI在序列修正场景下的单步恢复能力提升了那么任何依赖修正操作的测试时策略包括树状搜索、进化式优化等的整体表现也会相应提升——前提是这些策略在运作时会访问和序列修正相似的状态。这个道理并不难理解。无论是树状搜索还是进化式优化它们在运作的某一刻都需要AI在一个已有的错误答案基础上产生一个更好的修正版本。如果AI本身的看到一个错误答案然后给出更好答案的能力变强了那么所有调用这个能力的策略自然都会变得更有效。研究团队还证明了另一件事Theorem 3.2优化单次答题的成功率和优化序列修正的成功率是两个本质不同的目标。理论上完全可以存在两个AI它们在单次回答时的成功率完全一样但在多轮修正场景下的表现却差距很大。这说明如果想让AI在实际应用中表现更好而实际应用往往允许多次尝试就必须专门针对多轮修正场景来训练仅仅优化单次答题是不够的。五、实验结果从写代码到装圆形REVES表现如何研究团队在多个截然不同的任务上验证了REVES的效果涵盖代码生成、数学推理、益智谜题和一个颇为特别的几何优化任务。在代码生成方面研究团队使用了LiveCodeBench一个持续更新的代码挑战平台包含2024年8月到2025年5月的题目和CodeContest竞赛级别的编程题库。测试时AI会生成代码通过公开的测试用例来验证代码是否正确如果不通过就会收到报错信息然后根据这些信息修正代码最多尝试32次。在这个场景下REVES训练出的模型表现持续领先。以Qwen3-4B这个模型为例经过REVES训练后在LiveCodeBench的多轮修正场景32次尝试上限下得分达到50.9比普通强化学习的41.7高出9.2分比多轮对话训练的49.5也略有提升比PAG方法的43.6高出更多。在另一个测试集2025年1月到5月上REVES达到42.0依然是所有对比方法中最高的。在数学推理方面使用了MATH500500道各种难度数学题和AIME 24/25美国数学邀请赛题目相当有挑战性。有两种测试模式一种是理想停止——只要AI给出了正确答案就立刻停止用于测量AI的修正潜力上限另一种是自信心停止——AI根据自己对答案的置信度来决定什么时候停止修正这更接近实际使用场景。在理想停止模式下REVES的优势非常突出。以Qwen-2.5-7B模型在AIME24上的表现为例经过REVES训练后32次尝试的成功率达到45.7%而普通强化学习只有33.5%多轮对话训练是30.3%PAG是31.1%。差距相当显著。在MATH500上32次尝试的成功率达到94.7%比普通强化学习的85.9%高出将近9个百分点。在验证提示的作用方面研究团队做了一个细致的拆解实验。他们分别只使用修正提示不加验证训练和只使用验证提示不加修正训练来训练模型发现修正提示是提升修正能力的核心验证提示的主要贡献在于提升AI对自己答案的置信度估计准确性——即AI能更好地判断自己到底答对没有。当两者结合也就是REVES的完整版本AI的置信度校准AUROC从72.1%提升到74.1%和修正能力同时提升在实际使用场景下需要AI自己决定何时停止效果最好。圆形填充挑战是这篇论文中最令人印象深刻的实验之一。这个任务是在一个正方形里尽可能多地塞入不重叠的圆形让所有圆的半径之和最大。看起来是个几何题实际上是一个极其困难的优化问题研究人员通常用进化算法和大型AI系统来探索最优解。研究团队用谷歌DeepMind的AlphaEvolve基于Gemini-2.0 Pro Flash和其他多个系统作为对比。这些系统用了远比REVES更大的模型、更多的计算资源在n2626个圆的实例上达到的最优解是2.635983。而REVES使用Qwen3-4B这个只有40亿参数的小模型同样达到了2.635983的最优解与那些动用百亿参数大模型的系统打成平手。这个结果说明REVES的训练方式带来的能力提升在某些场景下可以弥补模型规模上的巨大差距。六、泛化能力训练数学和代码却能解决从未见过的谜题研究团队还测试了一件特别有意思的事REVES训练出的模型能不能解决从来没有在训练中见过的新类型问题他们选取了两个益智谜题作为测试n皇后问题在棋盘上放置若干个皇后使得它们互相不攻击和迷你数独小版本的数独游戏。这两类问题的训练数据里一条都没有模型只用数学题和代码题训练过。测试结果令人宽慰。使用REVES训练的Qwen-2.5-7B模型在n皇后问题上的准确率达到59%在迷你数独上达到73.3%大幅领先未经REVES训练的版本分别是42.5%和35%。这说明REVES训练的不是如何解特定类型的题而是一种通用的发现错误并纠正的能力这种能力可以迁移到从未接触过的任务上。七、效率优势比多轮训练快还能并行运行除了效果REVES在计算效率上也有明显优势。研究团队在8张英伟达H200 GPU上进行了对比测试REVES完成三轮完整迭代只需要约30小时而同等设置下的多轮强化学习方法需要超过48小时。效率提升来自两个方面。其一REVES的第二阶段训练Stage II是纯单步的每次只处理一个提示和一个回答不需要在训练过程中串行生成多步内容。其二第一阶段的数据生成Stage I和第二阶段的训练Stage II理论上可以并行运行——Stage II在用上一轮的数据训练时Stage I可以同时用新模型生成下一轮的数据两个阶段不需要完全串行等待。研究团队指出在更精心设计的基础设施下这种并行化可以带来更大的加速。同时研究团队还发现增加数据增强的预算也就是每个问题允许AI尝试多少轮来生成训练样本会稳定地提升模型性能说明这个方向存在良好的规模化潜力——愿意投入更多计算资源就能得到更好的模型。说到底REVES做的事情本质上是一种教育学上很朴素的道理与其让学生不断重复做完整套题不如把他们答错的题单独拿出来有针对性地练习纠错。研究团队把这个朴素的想法严格地建立在数学理论之上用实验证明了它在AI训练中同样管用。这项研究对普通人的意义在于未来我们使用的AI助手在回答错误之后将更有能力认识到自己的错误并给出更好的修正而不是固执地坚持原来的错误答案或者给出看上去很自信实则依然错误的修正。对于需要精确答案的场景——比如写代码、做数学题、解决规划问题——这种能力的提升是实实在在的。值得思考的是这项研究还揭示了一个更深层的问题我们现在训练AI的方式和我们实际使用AI的方式之间往往存在错位。REVES是弥合这种错位的一次尝试但更广泛的问题依然开放——当AI被用于更复杂、更长期的任务时如何设计训练目标才能真正与实际使用场景对齐这个问题留给研究界也留给每一个关注AI发展的人去思考。有兴趣深入了解这项研究完整细节的读者可以通过arXiv:2606.18910查阅原论文。QAQ1REVES是什么它与普通的强化学习训练有什么区别AREVES是一套专门针对AI多轮修正能力设计的训练框架。普通强化学习只训练AI第一次答对而REVES通过将AI答错的中间步骤提取出来转化为专门的修正和验证练习样本让AI学会如何在答错之后聪明地纠正自己从而在需要多次尝试的实际使用场景中表现更好。Q2REVES训练出的AI模型在解决数学和代码问题时具体提升了多少A在代码生成基准LiveCodeBench上REVES比普通强化学习方法高出约6.5分比多轮对话训练高出约4.0分。在数学推理方面Qwen-2.5-7B经过REVES训练后在AIME24的多轮修正场景下成功率从33.5%提升至45.7%在MATH500上从85.9%提升至94.7%提升幅度相当显著。Q3为什么REVES训练数据增强必须每轮都重新生成而不能一次生成后反复使用A因为随着AI模型不断改进它犯的错误类型也会发生变化。上一轮产生的错误案例在当前模型中可能已经不再是弱点继续用这些过时样本训练等于在重复练习已经掌握的内容效果很差。每轮重新生成确保训练数据始终聚焦在当前模型最需要提升的薄弱环节。实验结果也清晰显示持续更新数据的效果显著优于只做一次数据增强。