Upstage AI发现了生物医学大模型最隐蔽的致命缺陷

发布时间:2026/6/30 1:38:16
Upstage AI发现了生物医学大模型最隐蔽的致命缺陷 这项由韩国AI公司Upstage AI开展的研究以预印本形式发布于2026年6月20日论文编号为arXiv:2606.21959会议归属为AAAI 2026感兴趣的读者可通过该编号查询完整原文。一篇医学文章末尾附着一串规范的文献引用。你点开那个链接页面正常加载论文标题、摘要、作者一应俱全——但如果你真的耐心读完那篇被引用的论文你会发现它根本没提到你刚才读的那个医学主张。这就像你朋友向你推荐了一本书作为自己论点的依据那本书真实存在你在图书馆也找到了但翻遍全书里面压根没有你朋友说的那句话。这正是Upstage AI的这项研究揭示的核心问题也是整篇论文最令人不安的发现之一。**一、为什么一个能找到的引用可能比根本不存在的引用更危险**当我们把AI模型接入医学文献数据库让它自主检索、自主回答问题、自主附上参考文献时这类系统通常被称为智能代理agentic model即能主动调用工具、多轮搜索、自主决策的AI系统。这类系统越来越多地被用于辅助生物医学研究帮助科研人员快速检索文献、梳理研究现状。研究者最初担心的问题是AI会不会编造根本不存在的文献编号这种担忧有充分的前例——有研究发现在数学写作领域AI生成的参考文献中有高达约54%是凭空捏造的。然而Upstage AI的研究者做了一件事他们真正去核查AI给出的每一条文献引用不仅看引用是否存在还看引用的内容是否真的支持AI做出的那个具体断言。结果出乎意料。在审查的4863条引用中存在编号不存在、查不到对应论文的情况——即彻底捏造的引用——仅占0.7%。换句话说AI几乎从不凭空发明一个假链接。这个数字乍看是好消息。但麻烦藏在真实存在的引用里。在那些能正常查到的引用中大约15.9%的引用指向的论文根本不支持AI做出的那个医学断言。引用存在论文真实但内容对不上。研究者用了一个专门的词来描述这种现象「错误论文引用」wrong-paper citation。为什么这比直接捏造更危险因为读者的心理会自然地放松警惕。当你点开一个链接发现页面是空的你立刻知道有问题。但当你点开一个链接看到一篇排版整洁、作者权威、发表于知名期刊的真实论文时你很可能默认那篇论文就是AI引用它的原因——你不会去逐字核查论文内容是否真的对应AI的那个断言。这是一种可信外衣而错误就藏在这件衣服里面。**二、OpenBioRQ是什么它要解决什么根本性的问题**为了系统研究这个问题研究者构建了一个全新的测试基准命名为OpenBioRQ包含12553道生物医学研究问题横跨12个医学子领域。这个基准最核心的特点是它的问题全部是「真正悬而未决的开放性问题」——没有已知的标准答案。这个设计选择需要解释清楚因为它是整项研究的支点所在。现有的医学AI测试基准比如MedQA、PubMedQA、BioASQ等用的都是有标准答案的题目就像考试卷一样每道题都有一个正确选项。这种设计本身就给AI留了一个作弊的空间AI可以从自己的训练数据里直接背诵那个标准答案顺带附上标准答案原本引用的那篇论文编号完美地通过测试——而不需要真正理解这个问题的文献也不需要验证它引用的论文是否真的支持它的回答。当问题本身就没有答案时这条捷径就彻底堵死了。AI无法背答案也无法通过引用已知的标准文献来蒙混过关。它必须真正去检索、真正去推理、真正承认自己不确定——或者暴露出自己其实在蒙。研究者将OpenBioRQ的位置描述为一个此前从未被填补的空白它位于有工具调用能力与问题真正开放这两个维度的交叉点。之前的测试要么有答案但没有工具调用要么有工具调用但有答案——只有OpenBioRQ同时满足代理式工具调用和真正的开放问题这两个条件。**三、12553道题是怎么来的真正开放是怎么验证的**OpenBioRQ的问题来自四个不同的来源渠道研究者将它们称为四条轨道。第一条轨道来自PubMed全球最大医学文献数据库、临床试验注册库和arXiv预印本共6648道题。这些题目之所以被认定为开放性问题是因为研究者用检索工具真正去查过后续文献没有找到能解答该问题的已发表成果。第二条轨道来自英国詹姆斯·林德联盟James Lind Alliance的优先研究问题合作项目以及英国国家卫生与临床技术优化研究所NICE发布的研究建议共5905道题。这些机构专门负责整理医学上尚未解决、最需要研究的问题相当于由权威专家机构背书的悬案清单。第三条轨道收集了世卫组织、美国国家科学院等机构发布的研究优先级文件以及德尔菲专家共识文档共525道题。第四条轨道来自Cochrane国际循证医学权威机构的研究空白文献共483道题。从原始文档到最终题库中间经过了一道精心设计的烹饪流程。首先AI抓取这些文档并从中提取出研究者提出的具体开放性问题——同一篇文献可以提取出多个不同的问题。然后另一个AI对提取出的问题进行改写使每道题可以独立阅读、不依赖原文背景。接下来对相似问题去重避免同一个问题以不同措辞重复出现。最后对每道题生成评分标准更多细节见下文。其中最关键的一步是开放性的验证。研究者发现仅仅让AI根据问题的原始来源文献来判断这个问题是否已经被解答会产生严重的确认偏差——AI几乎把所有问题都标记为开放从不给出已解决或不确定的标签。解决方案是强制使用检索工具重新判断。AI必须去搜索后续文献必须引用找到的具体证据编号来支持自己的判断——如果找不到具体证据就只能标注为不确定而不能假设问题还开放。这个改动一下子让56.5%的问题状态发生了变化其中有14%的问题被标注为不确定。然后研究者对最核心的657道最难题目又做了一次专项核查结果是657道题中没有一道能被判定为已解决。**四、怎么定义难以及为什么这个定义比人工标注更可靠**研究者没有让人工专家去主观判断哪道题难哪道题容易而是用了一个更客观的方法让三个开源大模型GLM-5.1、Qwen3.6、DeepSeek-V4真正去回答每一道题然后根据成绩来划分难度。三个模型都回答失败的题被归入核心难题core set。在优先研究问题这条轨道的525道题中有49%的题目三个模型全部失败45%的题目至少一个模型失败只有6%是三个模型都能答对的简单题。这三个模型的平均得分分别是0.32、0.45和0.31全部低于0.5的及格线。这个设计的精妙之处在于它把难度变成了一个可量化、可验证的属性而不是某个专家的主观判断。而且随着AI能力提升以前的核心难题可能变成普通题基准的标准可以顺势更新不会像固定的人工标注题库那样永远停留在某个时代。但研究者也坦诚地承认了这个方法的局限最终确定的冰冻核心题目是在某个温度参数为0的解码条件下选出的423道题这个选择对解码温度非常敏感。研究者甚至在后来的稳定性测试中发现当他们重新跑了一遍有34.7%的边界题目改变了状态——所以这个核心题库是一个时间点的快照而不是绝对稳定的划分。研究者在论文中非常罕见地主动撤回了自己之前一个关于85.8%题目稳定保留的估计承认该数字不成立。**五、每道题如何评分没有标准答案的题目怎么打分**这是整个研究中最有趣的技术挑战之一没有标准答案的题用什么标准判断回答好不好研究者的解决方案是为每道题生成一份专属的核查清单frozen checklist在评测开始之前就固定下来。这份清单包含5到8条具体的、可判断真假的标准分为四种类型。第一类叫必须提及must mention回答中应该包含哪些关键事实、机制或方法。以针对大脑清淋系统的疗法能否预防阿尔茨海默病这道题为例清单要求回答必须提到AQP4极化作为一个机制靶点必须提到睡眠增强或食欲素受体拮抗剂作为预临床干预手段。第二类叫必须承认must acknowledge回答必须诚实地承认哪些不确定性或知识空白。同一道题要求回答必须承认目前没有任何针对清淋系统的疗法进入阿尔茨海默病临床试验必须承认在人体中增强清淋系统功能是否足以改变疾病进程尚不清楚。第三类叫必须引用must ground回答的某些断言必须附上真实的文献支持如具体的PMID编号、试验注册号或检索工具的结果。第四类叫必须避免must avoid回答中不能出现某些行为比如对一个开放性问题给出确定性的已证实结论或者编造引用或者声称检索工具没有返回任何结果而实际上没有去查。每个标准都有一个重要性权重1、2或3分。评分时评判AI给每条标准打分满足得1分部分满足得0.5分未满足得0分。最终得分是加权平均值落在0到1之间。一道题得分不低于0.5就算解决了这道题。这份清单在评测开始前就完全固定不会随着评测模型的不同而改变。这个设计的好处是不同的评判AI面对的是相同的具体标准而不是各自按照自己的理解打感觉分。研究者测试发现用这种方式两个不同AI评判者之间的一致性斯皮尔曼相关系数从0.35跃升到了0.82——这是一个非常显著的改进意味着评分结果大大减少了对评判者本身的依赖。**六、智能代理的评测系统如何运作**在实际评测中每个AI被给予一道题和十种生物医学工具的访问权限包括PubMed文献检索、ClinicalTrials.gov临床试验库、OpenFDA药品数据库、UniProt蛋白质数据库、ChEMBL化学数据库、PubChem化合物数据库、KEGG代谢通路数据库等。AI最多可以进行十轮查找—思考—再查找的循环然后给出最终回答。每次评测都完整记录AI的最终回答、它调用了哪些工具、每次调用的参数、引用了哪些文献编号、整个过程花了多少时间和计算资源。这些记录既用于评分也用于研究AI的行为模式。**七、三个开源模型的行为画像它们根本不一样**在覆盖1969道题的较宽泛测试集上研究者观察了三个开源模型在行为上的巨大差异。DeepSeek-V4几乎从不拒绝回答——它的不回答率只有0.8%。但它却是三个模型里最常放弃使用工具的有31.3%的回答根本没有调用任何检索工具全靠AI自己脑子里的知识作答。而且它是引用率最高的有38.5%的回答附上了文献编号。GLM-5.1正好相反。它调用工具最频繁平均每道题发起12.6次工具调用。但它的不回答率高达26.2%——将近四分之一的题目它干脆选择不作答。它的引用率只有3.9%是三个模型里最低的。Qwen3.6介于两者之间但表现出了一种独特的稳定性在后续更难的题目上展现出来见下文。这三个模型在引用率上相差约10倍在工具调用行为上的差异也极为显著。但更有意思的事情发生在当题目变得更难的时候。**八、代理崩溃当题目最难时AI反而最不用工具**在525道优先研究问题的专项测试中一个令人困惑的现象浮现出来随着题目变难GLM-5.1和DeepSeek-V4的工具调用率急剧下降。GLM-5.1的放弃回答比例从宽泛测试中的26.2%跳升到69%零工具调用率从20.8%跳升到65%。DeepSeek-V4的放弃率则从0.8%跳升到62%零工具调用率也达到了62%。这两个模型在最需要查资料的时候反而最多地选择了直接从记忆里背答案——或者干脆不答了。Qwen3.6却截然不同在更难的题目上它的零工具调用率保持在22%左右基本没有变化。研究者将这种现象命名为代理崩溃agentic collapse智能代理在困难任务面前放弃使用它本应使用的工具退化成一个普通的问答模型甚至退化成一个沉默的拒答机器。更进一步研究者做了一个封锁工具的对比实验把GLM-5.1的所有工具访问权限全部切断看它的得分会不会大幅下降。结果令人意外封锁工具后GLM-5.1的得分反而略微上升从26.6%上升到30.8%两个数字之间的误差区间还有重叠统计上无法区分。也就是说对GLM-5.1而言工具访问权限没有带来任何可测量的帮助。即使是表现最好的GPT-5.5工具封锁实验也显示有工具59.6%和没有工具55.6%的得分差异很小——远小于人们对能主动检索文献的AI的预期增益。**九、现有医学AI测试已经失去了区分能力**研究者还做了一个对比把OpenBioRQ上的测试结果和传统医学AI测试MedQA-USMLE执照考试题的结果放在一起比较。在传统MedQA测试上六个开源模型的得分挤在89.9%到93.8%之间只有3.9个百分点的差距。这意味着这类考试已经基本上无法区分不同模型的能力高低——它们全都及格全都接近满分差别可以忽略不计。在OpenBioRQ的核心难题上同样这六个模型的得分从3.5%到26.6%差距是7.6倍。更有趣的是在MedQA上得分最高的模型Qwen3.5-397B93.8分在OpenBioRQ上反而被得分只有91.0分的GLM-5.1超越。考试成绩和真实的研究辅助能力之间的对应关系远比我们以为的要弱。**十、顶尖的独立模型测出了什么**研究者将三个没有参与定义核心难题的独立前沿模型Gemini-3-Pro、Opus-4.7、GPT-5.5拿来测试这套题目结果呈现出一个宽广的能力区间。在完整的657道核心题上Gemini-3-Pro解决了37.4%Opus-4.7解决了48.6%GPT-5.5解决了66.7%。在更严格的423道冰冻核心题上三者分别为28.8%、37.8%和59.6%。即便是得分最高的GPT-5.5也有超过三分之一的核心难题无法解决。这说明这个基准既有足够的区分度三个模型之间相差超过30个百分点又没有被最强的模型打穿——测试本身仍然有意义不会因为有一个超级强大的模型出现就立刻变成毫无挑战的签到题。**十一、错误引用不是偶然事故而是系统性问题**回到论文最核心的发现错误论文引用率。研究者用两种不同系列的AI评判工具GLM-5.1和Opus-4.7独立核查了每一条引用两种工具的结论高度一致Cohens kappa系数0.755这是统计学中用来衡量两个评判者一致程度的指标0.755已经属于强一致性。主评判工具测得的错误引用率是15.9%独立验证工具测得的是10.6%。两个数字不同但都指向同一个结论真实存在却不支持对应声明的引用在所有引用中占了相当可观的比例。从单个模型来看DeepSeek-V4和Qwen3.6几乎从不编造引用编号存在率分别为99.8%和99.6%却仍然分别有13.1%和20.2%的真实引用指向了错误的论文。GLM-5.1比较特殊它的引用存在率只有84.7%编造了一批引用主要是临床试验的NCT注册号但由于它产生的引用总数最少对整体数字的影响有限。进一步拆分来看临床试验注册号NCT编号的错误引用率比普通论文编号更高在独立评判工具的核查下NCT编号的错误率是20.3%而普通PMID编号的错误率是13.0%。研究者还做了一个统计检验看这条引用是否指向了错误论文和这条回答是否通过了必须引用这条评分标准之间是否有关联。结果显示几乎没有关联风险比为1.07置信区间0.88-1.31。换句话说错误引用不是出现在明显胡说八道的回答中的而是随机散布在看起来已经做了正经检索工作的回答里。这使得它更难被发现也更难通过改进评分机制来间接解决。**十二、合成的黄金答案也有同样的问题**研究者还发现了一个独立的警示性结论与主要研究发现同样重要。在构建OpenBioRQ时研究者为每道题生成了一份由AI合成的参考答案原本设想可以用这些参考答案来帮助制定评分标准。然而在检查这些AI合成参考答案的引用时他们发现了令人不安的数字这些参考答案引用的PMID中几乎100%都能正常查到。但在对这些引用进行内容核查后约74%的引用指向的论文并不支持对应的声明。两种不同系列的评判工具主评判工具73.5%独立工具72.8%得出了几乎相同的结论。这意味着如果将AI生成的参考答案作为标准答案来使用并把那些附在参考答案上的引用当作正确来源就会把大量看起来有引用、实则指向错误论文的错误信息当成基准传播下去。这对任何使用AI合成内容构建评测基准的项目都是一个直接的警告。正因如此研究者在OpenBioRQ中完全不把这些参考答案用于评分只是偶尔在制定评分标准时作为参考文本。**十三、这项研究的局限性**研究者在论文中花了相当篇幅诚实地列出自己研究的局限这种透明度本身值得关注。最重要的一点是所有的引用核查都是由AI评判工具完成的目前只有一次由非领域专家进行的人工抽样核查50条引用。在那次抽样中人工核查者识别出了6条错误引用12%而AI评判工具在相同样本上识别出了18条36%主评判和11条22%独立工具。对清晰的错误引用比如把一篇眼科研究引用来支持COVID疫苗疗效的说法人工核查者和AI评判工具的判断一致。但对边界情况分歧很大。这说明AI评判工具可能存在过度标记的问题实际错误率可能低于15.9%——但也可能是人工核查者被主题相关但内容不符的论文欺骗了实际错误率更高。这需要领域专家的系统性验证而这是后续工作目前尚未完成。此外核心难题的选定对随机解码参数非常敏感论文中甚至有一个二次解码测试发现有34.7%的题目改变了状态。研究者因此取消了之前发布的一个稳定性估计数据改为只报告确定性的冰冻核心清单而不对其稳定性作出任何声明。说到底这项研究做了一件很简单但很重要的事它不只是问AI编造了多少假引用而是追问AI给出的真实引用有多少是挂羊头卖狗肉的。答案并不让人放心。当一篇医学文章的参考文献里有约六分之一的引用指向的是根本没提到那个医学主张的真实论文而这些引用每一条都能正常打开、都看起来专业可信——这是一种比假链接更需要警惕的问题因为假链接一眼就能看出来而这种问题不查内容根本发现不了。对于任何使用AI辅助文献综述、医学写作、或科研检索的人来说这意味着验证引用存在是不够的还需要去核查引用的内容是否真的说了AI说它说的那句话。这是一个更费力的步骤但目前来看跳过这一步的代价是肉眼难以察觉的错误。OpenBioRQ作为一个研究辅助评测工具已公开发布附带完整的题目来源记录、评分清单、工具调用回放缓存以及423道冰冻核心题目的固定清单供研究者复现和使用。感兴趣的读者可通过arXiv:2606.21959查阅完整论文和数据集代码链接。---QAQ1OpenBioRQ和MedQA这类医学考试测试有什么本质区别AMedQA等传统测试用的是有标准答案的题目AI可以通过记忆答案和对应引用来通过测试而不需要真正检索文献。OpenBioRQ使用的是目前医学上真正没有答案的开放性问题AI无法背答案必须真正去检索和推理这样才能暴露出错误引用、放弃使用工具等实际工作中会出现的问题。Q2AI的引用真的存在但内容对不上这种问题有多严重A在Upstage AI研究审查的4863条引用中只有0.7%是根本不存在的假引用但在存在的真实引用中有15.9%经独立验证工具测得为10.6%指向的论文并不支持AI做出的那个具体医学断言。这类真实存在但内容不符的引用比假引用更难发现因为读者点开链接会看到一篇真实论文很容易默认内容是对的。Q3生物医学AI智能代理使用工具是否真的能提升回答质量A根据OpenBioRQ的测试结果工具访问权限的实际收益非常有限。对崩溃倾向最高的GLM-5.1封锁所有工具后得分反而略微上升对GPT-5.5有工具和没有工具的得分差距也很小。特别是在最难的题目上模型反而最频繁地放弃使用工具直接从记忆中作答。这意味着目前的智能代理在最需要检索工具的场景下实际上最不擅长使用它们。