文字游戏里的秘密:AI画图根本没在认真“读“你的描述

发布时间:2026/6/16 0:18:03
文字游戏里的秘密:AI画图根本没在认真“读“你的描述 这项由以色列理工学院Technion与麻省理工学院CSAIL联合开展的研究以预印本形式于2026年6月发布在arXiv平台论文编号为arXiv:2606.03715。研究聚焦于文字生成图像Text-to-Image简称TTI模型中文本编码器所提供的信息究竟被图像模型使用了多少这一核心问题。当你打开Midjourney、Stable Diffusion或者FLUX这类AI画图工具用一段描述文字生成一张图片时你可能会觉得这个AI非常聪明——它理解了你说的每一个词甚至理解了这些词之间的关系比如红色的盒子放在黑色的盒子上面和黑色的盒子放在红色的盒子上面是两种截然不同的场景。但这项研究却揭示了一个反直觉的事实这些AI画图模型很可能从来没有真正读懂你的句子结构。它所依赖的远比我们以为的少得多。**一、为什么我们以为AI在认真读句子**在深入了解这个发现之前需要先搞清楚AI画图工具是如何工作的。整个过程可以用一个传递游戏来理解你输入的文字首先经过一个翻译官——也就是文本编码器text encoder这个翻译官把文字转化成一串数字信号然后这串数字信号被交给画家——也就是图像生成模型画家根据这些信号生成图片。多年来AI研究者们一直在努力让这个翻译官变得越来越聪明。早期的系统使用CLIP这种相对简单的编码器后来的Imagen使用了拥有110亿参数的超大型语言模型T5最新的FLUX.2甚至使用了参数量高达300亿的Qwen大语言模型作为翻译官。这背后隐藏的假设是翻译官翻译得越精确、越丰富画家画出来的东西就越符合你的要求。翻译官的能力确实越来越强。现代文本编码器能够理解组合关系哪个形容词修饰哪个名词、空间关系谁在谁的左边或右边、数量关系几只猫、几朵花以及句子中词语之间错综复杂的语义联系。研究者们理所当然地认为画家在作画时充分利用了这些信息。然而以色列理工学院的研究团队开始质疑这个假设。他们的核心问题是画家真的在用翻译官提供的所有丰富信息吗还是说画家其实只需要翻译官提供最基本的内容就够了**二、剥洋葱实验一层一层剥掉文字里的信息**为了回答这个问题研究团队设计了一个非常精妙的实验。他们的思路是不改动画家图像生成模型只改动翻译官提供的翻译稿看看翻译稿被精简到什么程度画家还能画出符合要求的图片。具体来说他们构建了三种逐步精简的残缺翻译稿每一种都去掉了一些原本存在于翻译稿中的信息。第一种叫做词元袋Bag of Tokens简称BoT。在正常的翻译过程中翻译官在翻译每个词的时候会同时参考整个句子的上下文就像你翻译苹果这个词时会根据前后文判断它是水果还是科技公司。词元袋的做法是把这种上下文彻底移除。对于句子中的每一个词汇片段研究者们收集了大量完全不相干的句子中包含同一词汇片段的例子把这些翻译结果取平均值。这样得到的翻译每个片段都只代表它自己最普遍、最泛化的含义完全不知道自己身处什么样的句子环境里。第二种叫做词袋Bag of Words简称BoW。这种做法在词元袋的基础上做了一个小改进它解决了一个技术细节问题很多词在被AI处理时会被拆成几个片段比如cube立方体会被拆成cu和be两个片段。词元袋的做法会让这两个片段各自独立分别去找各种不相干的句子求平均但这样一来就产生了歧义——cu和be组合成cube和be单独代表动词是是完全不同的含义。词袋方法在去掉上下文的同时保留了同一个词的各个片段之间的联系确保cu和be只在它们共同组成cube这个词的场合下一起被处理。第三种叫做带位置标签的词袋Bag of Position-Tagged Words简称BoPTW。这是最丰富的一种残缺翻译稿。它在词袋的基础上额外保留了每个词在句子中所处的位置信息。具体做法是在求平均值时只选取那些目标词出现在句子相同位置的例子。比如red红色这个词在原句中排在第2个位置那么就只收集red同样出现在第2个位置的句子来求平均值。这三种残缺翻译稿有一个共同点它们都只包含单个词汇本身的信息完全不包含词汇之间的任何语义关系。用最直白的话说它们就是一堆互不相干的词只是被堆放在一起没有任何关于谁修饰谁、谁在谁的旁边、谁对谁做了什么这类信息。**三、实验震惊了研究团队自己**研究团队把这三种残缺翻译稿分别输入给三个不同的AI画图模型——SD 3、FLUX.1 Schnell和FLUX.2 Klein-4B然后用一个视觉语言模型Gemma-3作为裁判盲测比较残缺翻译稿生成的图片和完整翻译稿生成的图片哪个更符合原始文字描述。结果出乎所有人的预料。即使是信息量最少的词元袋在大多数测试场景中生成图片的不劣率也就是不比完整版差的比例就超过了40%。换句话说当AI只知道这些词分别是什么却完全不知道这些词之间是什么关系时它仍然有将近一半的可能性画出和正常翻译稿一样好的图片。稍微丰富一点的词袋方法不劣率进一步提升到了大多数场景下超过50%。而带位置标签的词袋方法不劣率在大多数模型和数据集上都达到了65%以上。对照来看完整的翻译稿的不劣率通常在70%到90%之间。这意味着仅仅告诉AI每个词是什么加上每个词排在第几个位置就能达到完整翻译稿效果的接近水平。这个发现意味着什么意味着AI画图模型在绝大多数情况下根本没有在利用文本编码器辛苦翻译出来的那些关于词语关系的复杂信息。那些被精心设计来捕捉组合关系、属性绑定、逻辑依赖的神经网络层它们的工作成果画家根本就没仔细看。**四、位置信息让AI区分白盒放在黑盒上和黑盒放在白盒上的秘密武器**一个非常自然的问题是既然只有词和位置信息AI怎么区分一只绿色的狗和一张蓝色的餐桌与一只蓝色的狗和一张绿色的餐桌呢这两句话包含完全相同的词只是顺序不同但场景截然不同。研究团队发现答案就藏在位置信息里。文本编码器在翻译每个词时会把这个词排在第几位的信息编码进去。这个位置信息是词元嵌入embedding也就是词的数字表示的一部分。研究者们用实验证明了这一点从230K个词例中他们测试了能否仅凭一个词的数字表示就猜出这个词在句子中的位置结果是绝大多数情况下都能以零误差猜中。正是这种位置编码让AI画图模型得以区分语序不同的句子。当AI看到绿色这个词出现在第3个位置而狗出现在第5个位置时它会把绿色和位置相近的狗联系起来从而画出绿色的狗。这种位置感知并不需要翻译官告诉它绿色修饰狗画家自己就能从位置关系中推断出来。文章中展示了大量令人印象深刻的视觉案例。比如一只白盒放在黑盒上面和一只黑盒放在白盒上面这两句话用完全相同的词只是顺序不同。即使使用带位置标签的词袋这种不包含任何语义关系的翻译AI依然能正确区分这两种情况生成正确的图片。类似的一只猫喝姜茶和一只姜黄色猫喝茶英文中ginger既可以指姜黄色也可以指生姜AI同样能正确处理。**五、难不倒与难倒的什么情况下这个方法会失败**研究团队不仅测量了总体表现还细致分析了哪类任务残缺翻译稿表现好、哪类任务表现差。在GenEval基准测试中单个物体这个类别表现最好。当你只是要求AI画一只泰迪熊或者一张粉色的桌子时带位置标签的词袋方法与完整翻译稿的差距几乎为零三个模型的不劣率分别达到了88%、90%和100%。毕竟描述单个物体本来就不需要太多的词语关系信息。颜色属性绑定、两个物体同时出现、计数这些任务的表现也相当不错说明AI画图模型有能力从位置信息中自行推断出颜色和物体的对应关系。然而文字渲染这个类别则是最大的软肋。当你要求AI在图片中写出特定文字比如一块写着Google Brain Toronto的招牌时带位置标签的词袋方法的不劣率只有27%、37%和24%。这说明生成图片内嵌文字这类任务对文本信息的依赖程度远高于普通的图像内容生成仅凭词和位置信息不够用。空间关系谁在谁的左边或右边也是残缺翻译稿表现相对较差的领域这说明精确的空间位置关系确实需要更丰富的文本理解。从总体数字来看在DrawBench和GenEval这两个专门考验AI文本理解能力的困难基准测试中带位置标签的词袋方法的不劣率通常在50%到70%之间而在更接近日常用途的MSCOCO数据集上表现则更接近完整版翻译稿。**六、老模型与新模型为什么这个发现只适用于新型AI**研究团队还做了一个非常有趣的对比实验。他们测试了两个较老的AI画图模型——SD 2.1和SDXL看看这两个模型在残缺翻译稿下的表现。结果形成了鲜明反差。SD 2.1的不劣率只有可怜的0.2%SDXL也只有4%。也就是说这两个旧模型在使用残缺翻译稿时几乎完全无法生成符合要求的图片生成的图像质量极差看起来就像是从某个固定模式里随机取样出来的完全不管用户输入了什么描述。这个对比揭示了一个非常重要的规律新型的DiT扩散变换器Diffusion Transformer架构模型和旧型的U-Net架构模型在处理文本信息上有根本性的差异。旧模型把理解文字的工作完全交给了文本编码器如果编码器提供的信息不够丰富它就无从下手而新型的DiT模型则在自己的内部发展出了理解语言结构的能力它能够从简单的词汇和位置信息中自行推断出词语之间的关系。换句话说随着AI画图模型架构的升级越来越多的语言理解工作从翻译官那里转移到了画家自己身上。翻译官不再需要提供面面俱到的精细翻译画家自己也能读懂大意。**七、用更多维度验证这个发现**除了视觉上的定性比较研究团队还使用了多种客观指标来验证自己的发现确保结论不是视觉错觉。CLIP分数是衡量生成图片与文字描述匹配程度的常用指标数值越高代表匹配度越好。实验数据显示带位置标签的词袋方法在CLIP分数上与完整版翻译稿非常接近差距非常小。以FLUX.1在DrawBench数据集上的表现为例完整版得分33.5带位置标签的词袋方法得分32.3在GenEval数据集上完整版得分33.7词袋方法甚至达到了33.6几乎相同。衡量图片整体质量分布的FID和KID指标同样显示使用残缺翻译稿生成的图片在视觉质量上与使用完整翻译稿生成的图片相当图片没有变得更模糊、更失真或更不自然。研究团队还验证了一个有趣的技术细节平均的句子数量对结果的影响。在构建残缺翻译稿时研究者们从多个不相干的句子中对同一个词取平均值。他们测试了从1到10个句子的不同情况发现无论用多少个句子来平均生成的图片效果几乎没有区别。这说明即使只用一个完全不相干的句子也能足够彻底地清除上下文信息不需要用很多句子来确保清除效果。**八、这个发现对AI发展意味着什么**说到底这项研究颠覆了一个在AI画图领域持续多年的隐性假设更聪明的翻译官必然带来更好的画家。长期以来AI画图系统的设计者们都在努力升级文本编码器从最初的CLIP1.24亿参数到T5110亿参数到现在的Qwen300亿参数。这种升级背后的逻辑是翻译官越聪明提供的语义信息越丰富画家就能画得越好。研究者Wang等人此前也注意到文本编码器可能存在过度参数化的问题但这个猜测从未被系统地检验过。这项研究提供了第一个系统性的证据证明这个假设在很大程度上是错误的。至少对于现代DiT架构的AI画图模型而言文本编码器提供的那些关于词语关系的复杂语义信息画家基本上没有在用。这个发现对AI系统的设计有非常直接的启示。既然画家只需要知道每个词是什么加上这个词排在第几位那么未来的AI画图系统或许根本不需要一个拥有数百亿参数的大型语言模型来做翻译官。一个相对简单的系统专门提供词汇级别的信息加上显式的位置标签可能就足够了。这将大大降低AI画图系统的计算成本同时不损失生成质量。研究团队还提到了一个有趣的未来方向如果把单个词的范围扩展到多词短语比如纽约市、咖喱鸡饭这类固定搭配效果可能还会进一步提升。当然这项研究也有其局限性。文字渲染等特定任务确实需要更丰富的文本理解完整的文本语义信息在这些场景中仍然不可或缺。此外研究只测试了三个特定的DiT模型是否适用于所有类似架构的模型仍需进一步验证。归根结底这项研究告诉我们一个有点令人哭笑不得的事实我们花了很多力气教AI理解句子的精细结构但AI画图模型自己发展出了一套独立理解这些结构的方式并不需要文本编码器把一切都嚼碎了喂给它。复杂的语言理解工作已经悄悄地从翻译官那里转移到了画家自己身上只是我们之前没有注意到这一点。有兴趣深入了解实验细节和完整数据的读者可以通过arXiv编号2606.03715查阅原始论文。---QAQ1带位置标签的词袋方法BoPTW是如何区分白盒放在黑盒上和黑盒放在白盒上这两种不同描述的ABoPTW方法保留了每个词在句子中的位置信息。文本编码器会把这个词排在第几位编码进每个词的数字表示里研究者通过实验证明了绝大多数词的位置可以以零误差从其数字表示中还原出来。AI画图模型从这种位置信息中自行推断出词语之间的修饰关系比如排在相邻位置的颜色词和名词更可能属于同一物体从而正确区分语序不同的句子。Q2为什么旧版AI画图模型如SD 2.1和SDXL在残缺翻译稿下完全失败而新版模型却能成功A旧版模型采用U-Net架构它把语言理解的工作完全外包给文本编码器自身没有发展出理解语言结构的能力一旦翻译稿信息不足就无从下手。新版DiT扩散变换器架构的模型则在其强大的内部结构中发展出了自行理解语言关系的能力可以从简单的词汇和位置信息中自己推断出词语之间的关系不再完全依赖文本编码器提供完整的语义解析。Q3文字渲染任务比如在图片中写出特定文字为什么是残缺翻译稿表现最差的类别A生成图片内嵌文字时AI需要准确知道要写出的是哪几个具体字符这些字符的确切序列和组合是极为精确的信息仅凭词汇本身的泛化含义和位置信息不足以精确还原。与画一只泰迪熊不同写Diffusion这个单词不允许任何偏差或替换对文本语义信息的精确度要求极高因此完整的文本编码器信息在这类任务中仍然不可或缺。