
这项由上海交通大学、上海人工智能实验室和香港中文大学联合完成的研究以预印本形式发表于2026年6月arXiv编号2606.24548对当前最先进的文字生成图像Text-to-Image简称T2I模型进行了一次前所未有的反常识压力测试。每逢感恩节前夜农场里有只火鸡正美滋滋地期待着第二天早晨的到来。它凭借过去三百多天每天早上农夫准时送来食物的经验坚定地推断出一个规律农夫出现 有得吃。然而在它毫无防备的时候感恩节来临了一切戛然而止。这只可怜的火鸡就是哲学家伯特兰·罗素在一百多年前描述的归纳主义火鸡它犯了一个致命错误——将过去的经验规律当成了永恒的真理从未思考过如果规则改变了结果会怎样。研究团队用这个故事来比喻当前的AI图像生成器。这些模型在各类测试中成绩亮眼能画出精美绝伦的图像让许多人惊呼AI已经理解了世界。但研究团队的核心疑问是它们真的理解了世界的运作规则还是只是像那只火鸡一样从海量训练图片中归纳出了什么东西通常长什么样的统计规律一旦规则被改变它们还能跟上吗为了回答这个问题研究团队构建了一套名为反事实世界基准测试CF-World的考题专门用来检验AI图像生成器在规则被改写的假想世界里还能不能生成符合逻辑的图像。测试结果相当令人清醒几乎所有模型都像那只火鸡一样在规则改变的那一刻彻底懵圈了。一、反常识考卷是怎么设计的理解这套考题的设计思路需要先明白研究团队想测试的到底是什么。普通的图像生成测试大多是这样的告诉AI画一只坐在沙发上的猫然后看AI画出来的猫像不像、沙发像不像。这类测试考的是AI有没有记住猫和沙发长什么样以及它们怎么组合在一起。但研究团队想测试的是更深层的能力——因果推理能力。具体来说就是当物理定律或者自然规则被人为修改之后AI能不能根据这个被修改的规则推断出新的视觉结果应该长什么样并且画出来。这套考卷被设计成三个递进难度的关卡涵盖物理学包含经典力学、光学、热力学、天文学和电磁学五个分支、生物学、化学、地理和社会学五大学科共1091组题目合计3273道提示词。第一关叫事实级别L1考的是正常世界里的常识。比如画一瓶室温下的水。这一关用来确认AI的基础生成能力没问题画出来的水应该是液体。第二关叫显式反事实级别L2研究团队会修改一条物理规律然后明确告诉AI修改后的结果应该是什么样的。比如如果水的熔点是100摄氏度注意真实世界里水在0摄氏度就开始融化100摄氏度才沸腾这里把规则颠倒了意味着室温下水应该是固态冰画室温下的水注意这时候水应该是冰的形态。第三关叫隐式反事实级别L3同样修改物理规律但这次不告诉AI结果是什么样的让AI自己推断。比如如果水的熔点是100摄氏度画室温下的水。AI必须自己想明白哦熔点提高了室温远低于100摄氏度所以水还没开始融化应该还是固态冰——然后才能画出正确答案。三关之间的关系就像这样第一关确认AI能正常画画第二关看AI能不能克服自己的习惯性认知按照被修改的规则来画即便这与训练数据里见过的图片完全不同第三关在第二关的基础上再去掉那根拐杖明确的结果描述测试AI能不能自己完成逻辑推导。为了保证考题质量研究团队先让大语言模型LLM根据预先整理好的科学原理来生成题目然后要求所有题目必须满足四个标准视觉结果要足够清晰明确不能模糊地说看起来很奇怪要能被评判系统明确判断必须需要逻辑推理才能回答不能只是换个颜色或风格不能涉及暴力或不雅内容必须有科学依据考的都是中学课程里的基础知识。最后还有一批专业人工审核员对所有题目进行严格筛查剔除质量不达标的内容。以其中一道经典力学题为例事实级别是画一个在游泳池里趟水的人显式反事实级别是如果水的表面张力无限大画一个试图在游泳池里趟水的人这个人应该站在水面上走路不会下沉隐式反事实级别是如果水的表面张力无限大画一个试图在游泳池里趟水的人。另一道天文学题事实级别是画一张太阳系示意图行星沿椭圆轨道绕日运行显式反事实级别是引力变成了斥力画一张示意图显示行星从太阳旁飞散开去沿直线轨迹远离太阳系正在瓦解隐式反事实级别是在天体之间引力变成斥力的情况下画一张太阳系示意图。二、评分系统是如何给AI打分的人工逐张审阅成千上万张AI生成图片显然不现实。为此研究团队设计了一套名为CF-Eval的自动化评分流水线由强大的视觉语言模型VLM一种既能看图又能理解文字的AI来担任考官。整个评分系统从三个维度对每张图片进行打分三个维度的重要性不同因此分配了不同的权重。第一个维度是视觉完整性权重最低1到3分考查图片质量本身够不够基本比如画的人有没有解剖结构错误、整体质量是否可以接受第二个维度是评估点权重最高12到16分这是根据每道题目专门制定的核心考查问题直接测试生成的图片有没有体现出被要求的关键视觉特征比如那道水面张力题的评估点就是图中的人是否正站在水面上行走身体没有任何部分沉入水面以下第三个维度是逻辑一致性权重居中7到9分检查整个场景的背景和细节有没有也符合反事实的设定而不是主体符合了但背景还是正常世界的样子。最终每张图片的得分是这三个维度按权重计算的加权平均分。研究团队还设计了一个门槛机制如果一道题的第一关事实级别得分低于0.5分那么这道题的第二关和第三关得分直接归零不予计算。原因很简单如果AI连正常情况下画一瓶水都画不好那么它在反事实情况下碰巧画出了冰很可能只是随机运气而非真正理解了反事实规则。这个0.5的门槛值也经过了人工校准实验的验证研究团队抽取了150张边界分数区间的图片让专业人员人工标注发现0.5确实是人类认知这张图基本合格的最优分界点在这个门槛下准确率高达94%F1得分高达0.93。为了量化模型在三关之间的表现差异研究团队还设计了两个专门的衡量指标。先验抵抗率PRR衡量的是模型从第一关到第二关的表现保留程度也就是说当被要求画反常识图像时模型能在多大程度上抵制自己的习惯性思维按照新规则来画。推理保留率RRR衡量的是模型从第二关到第三关的表现保留程度也就是在没有明确告知结果的情况下模型能在多大程度上靠自己的推理能力补全逻辑链条。这两个指标的计算方式经过精心设计避免了模型因为某一关得分本来就很低而导致率看起来虚高的问题——它们同时考虑了绝对得分和相对保留比例取二者的几何平均值。三、14个顶尖AI模型考结果如何研究团队找来了14个当前最顶尖的文字生成图像模型参加这场考试其中包括开源模型和闭源商业模型两大阵营。开源模型包括SANA 1.5、Janus-Pro-7B、Show-o2、Z-image、Lumina-DiMOO、BAGEL、BAGEL-CoT、OmniGen2、FLUX.2-dev和Qwen-Image闭源商业模型包括Nano Banana、Nano Banana Pro、GPT-Image-1.5和Seedream 5.0。成绩出来了总体结论只有一句话几乎所有模型都在第一关和第二、三关之间出现了断崖式下滑。具体数字来看开源模型在第一关的得分普遍在0.75到0.88之间说明它们在正常画图这件事上确实做得不错。然而一旦进入第二关显式反事实得分急剧跌落到0.21到0.48之间先验抵抗率大多低于0.50。到了第三关隐式反事实情况更加严峻得分进一步下滑到0.11到0.28之间。闭源商业模型的表现整体优于开源模型但同样无法逃脱这个下滑趋势。Nano Banana Pro在Gemini评判下的第一关得分为0.93第二关0.76第三关0.67先验抵抗率0.79推理保留率0.77是所有参测模型中表现最好的。即便如此从第一关到后两关的下降依然清晰可见。有一个特别有趣的发现那些在第一关得分最高的模型并不总是在第二关表现最好。Qwen-Image在第一关拿到了0.84分Gemini评判下0.80分但其先验抵抗率却低于FLUX.2-dev。这个现象背后的逻辑是一个模型越是在训练数据里见过大量标准图片对标准样貌的记忆就越根深蒂固反而更难接受与之相违背的反常识指令。这就好比一个厨师他做了二十年的红烧肉每次都是按固定配方来的现在突然叫他把所有调料都颠倒使用他反而比一个只有五年经验的新厨师更难做到——因为旧习惯对他的束缚更深。另一个值得注意的发现是关于思维链Chain-of-ThoughtCoT推理方式。BAGEL-CoT相比BAGEL在第二关和第三关的表现确实有所提升先验抵抗率从0.34提升到0.45推理保留率从0.28提升到0.41Gemini评判下但提升幅度相当有限。研究团队认为这是因为语言推理和视觉生成之间存在一道本质性的鸿沟语言是离散的符号系统逻辑推理在这里相对容易进行而扩散模型Diffusion Model的视觉生成过程是在连续的高维空间里进行的即便文字侧已经推理出了水在室温下应该是冰视觉侧的生成网络也未必能够把这个推理结果正确地转化为像素。四、为什么AI会在反事实考题上失败表面现象已经看清楚了但研究团队并不满足于此他们想追问一个更根本的问题这些AI究竟是在哪个环节出了毛病为此他们设计了三组机制性实验像医生做系列检查一样逐步定位病灶。第一组检查叫因果规则解耦实验。这组实验想知道排除掉画图难这个干扰因素AI在纯粹的规则理解和规则应用上表现怎么样研究团队设计了一套使用抽象符号而非写实图像的测试题共198道提示词覆盖33条客观规则。每条规则有1到2道事实基准题和4到5道反事实变体题而且变体题的扰动方式不仅仅是简单地把A改成非A而是多维度的——比如不只是把向下的重力改成向上的重力还会改成向左的重力或向右的重力。结果显示即便在这种视觉复杂度大幅降低的简化场景里大多数模型在反事实规则下的绝对得分依然相当低。这说明AI的问题不仅仅出在画不出来更出在想不明白。不过值得注意的是在事实规则下得分更高的模型通常在反事实规则下也能得到相对更高的分数这意味着规则理解能力本身就是一个关键瓶颈而不仅仅是因为训练记忆里有太多正常图片造成干扰。在这组测试中扩散架构的模型如FLUX.2-dev和Z-image总体表现优于统一多模态架构的模型如OmniGen2和Janus-Pro-7B。第二组检查叫属性解耦实验。这组实验想知道排除掉规则推理这个难题AI能不能把不常见的视觉概念组合在一起画出来研究团队从已有数据集中抽取了100对罕见概念组合作为反事实条件比如穿西装的海豚同时为每对概念生成一个对应的常见概念组合作为事实条件比如在水里游泳的海豚。结果发现在常见组合的情况下模型得分普遍很高0.92到0.99但在罕见组合的情况下得分一致性地下滑到0.80到0.90之间。虽然这个下滑幅度相对较小但它告诉我们即便不需要任何逻辑推理只是要求AI把不常见的东西画在一起它就已经开始出错了。第三组检查叫去名词化实验这是最有趣的一组。研究团队在第二关的提示词里把关键的名词换成了等价的描述性短语然后看看这样能不能帮助AI表现得更好。比如原本的提示词里可能直接说画一块冰换成描述性短语之后变成画一个固态的、透明的、低温的水分子聚合体。换句话说绕开那个直接触发记忆的词用描述来代替。结果出来所有模型的得分确实都有提升但幅度参差不齐。FLUX.2-dev的提升幅度最大高达0.09Z-image和Show-o2提升了0.05而Janus-Pro-7B、SANA 1.5和BAGEL-CoT的提升幅度仅有0.01。这个差异揭示了两种不同类型的记忆枷锁对于以FLUX.2-dev为代表的扩散架构模型来说它们的问题主要出在词汇层面——一个特定的名词会直接激活对应的标准视觉记忆只要把词换掉这个触发机制就被部分绕开生成质量随之提升而对于以Janus-Pro-7B为代表的统一多模态架构模型来说它们的问题更深出在语义层面——即便换了措辞背后的概念还是一样的所以换词没什么用这种记忆枷锁已经深入到了共享表征空间里。综合这三组检查研究团队得出了一个清晰的诊断当前AI图像生成器的反事实推理失败源于两层能力缺失的叠加。第一层是规则解耦能力的缺失——模型无法把物理规律这个抽象概念从具体的视觉表现中剥离出来独立修改规律再重新推导结果第二层是属性解耦能力的缺失——模型无法把物体的视觉外观和物体的通常搭档分开总是被高频的视觉共现关系牵着鼻子走。在这两层失败中前者规则推理层面才是更根本、更主要的瓶颈因为这是一种对更高层次逻辑推理的要求远超出单纯把不常见的东西画在一起的难度。五、自动化评分有多可靠研究团队深知如果评分系统本身不可靠所有结论都将失去意义。为此他们专门进行了一次人机对比实验从FLUX.2-dev和Nano Banana Pro生成的图片中随机抽取了1000张分别请Gemini视觉语言模型和三位具有计算机视觉领域研究生背景的专业人工标注员进行评分。人工标注员在正式评分前接受了专门针对反事实评估标准的培训所有分数都被归一化到0到1的连续区间并用相同的加权方式计算。对比结果显示Gemini与人工标注员的得分差异机器得分减去人工得分绝大多数集中在-0.125到0.125这个极窄的区间内分布曲线在0附近形成了一个尖锐的峰值说明机器评分与人类判断之间的一致性非常高。这有力地证明了CF-Eval作为人类专家评判的替代工具是可靠的。研究团队还注意到两个视觉语言模型评判员Gemini和Qwen在反事实场景下存在明显的行为差异Gemini保持了相对均衡的评判标准而Qwen表现出明显的宽容偏差常常对实际上只画出了正常物体的图片给出偏高的分数。为了消除这种偏差研究团队对Qwen使用了不同的提示词设定——将Qwen定位为一个严苛的对抗性评判官主动要求它去寻找图片中的逻辑破绽而非正面解读。通过这种针对不同评判员的差异化提示策略使得两者最终在反事实评判的严格程度上趋于一致。说到底这项研究做的事情就是给AI图像生成器出了一套换个世界你还认得路吗的考题。结果发现这些看起来无所不能的图像生成器其实更像是一个拥有惊人视觉记忆的照相机而不是一个能够理解物理逻辑、独立推演结果的工程师。当你按照训练数据里存在的场景来要求它它表现优异但一旦你要求它假设引力是斥力那太阳系看起来是什么样的它就开始画出照常运行的太阳系——因为那是它见过的最多的版本。这个发现对普通人的意义或许并不直接体现在日常使用上——毕竟大多数人不会没事去问AI水在熔点100度的世界里是什么状态。但它揭示了一个更深层的问题我们目前对AI能力的评估方式很可能低估了这些模型和真正理解世界之间的差距。一个模型能够生成令人信服的图像并不等同于它理解了图像背后的因果规律。反过来如果未来有模型能够在CF-World这套考题上取得高分那才是真正意义上的理解而不只是记忆。研究团队明确指出他们目前的工作性质是诊断性的并没有提出解决概念纠缠问题的具体算法方案。他们希望CF-World这套考题能成为一个持续有效的测试平台激励未来的研究朝着开发能够真正进行因果推理的模型方向努力——不只是更多的训练数据而是本质上不同的模型架构或训练方式。至于那两种不同类型的纠缠扩散模型的词汇层纠缠和统一模型的语义层纠缠研究团队也指出它们需要根本不同的解决策略前者或许通过改进提示词或文本编码器就能部分改善而后者则需要在模型表征层面进行更深入的干预。有兴趣深入了解的读者可以通过arXiv编号2606.24548查询完整论文。QAQ1CF-World反事实基准测试具体测了哪些内容ACF-World包含1091组场景共3273道提示词覆盖物理学经典力学、光学、热力学、天文学、电磁学、生物学、化学、地理和社会学五大学科。每组场景分三个难度关卡第一关按正常规律画图第二关在修改物理规则的同时明确告诉AI该画什么结果第三关只修改规则但不说明结果要AI自己推理后再作画。Q2先验抵抗率PRR和推理保留率RRR分别是什么意思A先验抵抗率衡量AI在被要求画反常识图像时能在多大程度上克服自己的习惯性记忆按照被修改的规则来画也就是第一关到第二关的性能保留程度。推理保留率则衡量AI在没有明确告知结果的情况下能靠自己的逻辑推理填补空缺也就是第二关到第三关的性能保留程度。两个指标越高说明模型的反事实推理能力越强。Q3为什么那些在普通测试中得分很高的AI模型在反事实测试里反而可能表现更差A这是先验锁定效应导致的。一个模型训练数据越多对正常世界里事物外观的记忆就越根深蒂固。当被要求按照修改后的规则来画时强烈的旧记忆反而会干扰新指令的执行。就像一个习惯了固定配方的老厨师比新手更难接受把所有调料都颠倒使用的要求。测试数据显示Qwen-Image在第一关得分很高但先验抵抗率却低于第一关得分更低的FLUX.2-dev正是这个原因。