Anthropic 推出 Claude Mythos:一个“强到不敢公开”的前沿模型

发布时间:2026/6/23 1:05:47
Anthropic 推出 Claude Mythos:一个“强到不敢公开”的前沿模型 一、Mythos 是谁从“泄露稿”到官方预览Anthropic 在 2026 年 4 月 7 日美国时间正式宣布 Claude Mythos Preview并同步启动网络安全合作计划 Project Glasswing。此前一份尚未发布的内部博客草稿因内容管理系统配置错误意外公开提前暴露了代号为“Capybara / Mythos”的新模型层级被 Anthropic 形容为“迄今最强大”的模型之一并在推理、编码与网络安全任务上远超此前的旗舰 Claude Opus 系列。Anthropic 强调Mythos 并不是专门的“安全模型”而是一个通用大模型其突出能力来自在代码、推理与智能体agent自主决策上的全面提升。二、能力有多大基准与工程任务双双“卷上天”Anthropic 官方披露Mythos 在多个公开基准与工程任务上均显著超越自家 Claude Opus 4.6 与 Claude Sonnet 4.6。在软件工程基准 SWE‑bench Verified 上Mythos 的通过率约达到 93.9%而 Opus 4.6 约为 80.8%提升幅度接近 13 个百分点。在其他第三方测试中Mythos 在代码、推理与知识工作等维度也普遍领先同代主流模型。Anthropic 在系统卡中还专门做了“记忆/污染”过滤分析即使剔除可能被记住的难题子集Mythos 依然保持大幅领先表明其提升并非仅靠“背题”。Anthropic 内部的红队与工程测试也显示在对约 7000 个 OSS‑Fuzz 入口点的扫描中Mythos 在“崩溃 → 控制流劫持”的五级严重度阶梯上在 10 个完全补丁的目标上实现了完全控制流劫持tier‑5而 Opus 与 Sonnet 基本只能达到 tier‑1/2 级别。这组数据说明在复杂工程与安全任务上Mythos 已经从“能用”进入到“在对抗场景中显著优于前代”的新阶段。三、安全能力从“找漏洞”到“自动化写利用”Anthropic 官方博客用大量篇幅强调Mythos 的安全能力并非通过专门的安全训练获得而是通用智能提升后的“自然溢出”。关键事实包括Mythos 可以在人类指令下针对主要操作系统与主流浏览器自主发现并利用此前未知的零日漏洞。Anthropic 报告称Mythos 在过去几周内已发现“数以千计的高危/严重级别漏洞”其中许多漏洞在代码中已存在 1020 年最古老的为 OpenBSD 中存在 27 年、现已修复的漏洞。在 Anthropic 内部测试中Mythos 能够自主写出链式利用 4 个漏洞的浏览器利用代码使用 JIT heap spray 技术逃逸渲染器与操作系统沙箱在 Linux 等系统上通过竞争条件与 KASLR 绕过等方式完成本地提权在 FreeBSD NFS 服务上通过拆分 20‑gadget ROP 链构造远程代码执行利用实现未认证的 root 权限获取。在对 Mozilla Firefox 引擎漏洞的利用测试中Opus 4.6 在数百次尝试中仅成功 2 次而 Mythos 成功 181 次另有 29 次实现寄存器控制。Anthropic 还强调已请专业安全承包商对模型输出的漏洞报告进行人工验证在 198 份样本中约 89% 的人工评级与模型严重度评估完全一致98% 的评估偏差不超过一级。四、为什么 Anthropic 不敢直接公开Anthropic 明确表示目前不会将 Mythos 对公众全面开放而是通过 Project Glasswing 限制在少数合作机构使用。原因包括风险一侧明显加大Anthropic 在泄露的博客草稿中就警告Mythos 预示着即将到来的“模型浪潮”能够以远超防御者补丁速度的方式利用漏洞可能改变攻防时间窗。前沿红队负责人 Logan Graham 也指出 Mythos 在“发现并利用漏洞”上的效率大约是以往模型的 10 倍。短期有利于攻击者长期才有利于防御者Anthropic 的判断是短期内类似能力的模型如果无节制扩散可能被攻击者以极低成本大规模挖掘与利用漏洞长期来看具备自动化修复能力的强力模型才更可能成为“防御方工具”帮助生态提升整体安全水位。负责任披露与现实约束Anthropic 强调已发现的漏洞中 99% 尚未修复出于负责任披露原则暂不公开细节。这也直接限制了公开范围的扩大。五、Project Glasswing一次“先防御后扩散”的尝试为平衡“技术领先”与“安全风险”Anthropic 启动了 Project Glasswing将 Mythos 首先提供给 40 家关键基础设施与头部科技公司用于扫描与修复自身及重要开源项目中的漏洞。Anthropic 为参与者提供最高约 1 亿美元的 API 使用额度并向开源安全组织捐赠约 400 万美元。合作伙伴包括亚马逊 AWS、苹果、博通、思科、CrowdStrike、Linux 基金会、微软、英伟达、Palo Alto Networks 等。Anthropic 还披露在发布前已向美国政府高级官员通报了 Mythos 的能力与风险包括网络安全与基础设施安全局CISA等机构。Anthropic 也表示将与美国联邦官员就 Mythos 的使用保持持续磋商。六、对行业的启示AI 安全进入“自动化攻防”阶段Mythos 的出现至少带来三点信号通用大模型的“安全能力”不再是附属功能Anthropic 明确表示Mythos 的强安全能力并非来自专门的安全训练而是来自代码与推理能力的整体跃迁。这意味着其他厂商的下一代模型也很可能“顺带”具备类似能力。从“人找漏洞”到“模型自主找漏洞 写利用”Anthropic 内部工程师即便没有正式安全训练也可以用 Mythos“过夜跑任务”第二天拿到完整的、可工作的利用代码。安全专家 Alex Stamos 估计大约 6 个月内开源模型也有可能在漏洞发现能力上“追上”前沿闭源模型。防御必须“以快制快”并形成制度化协作Anthropic 通过 Project Glasswing试图在模型能力扩散前先把“最危险的零日武器”交给可信防御方修补最重要的系统。多家 Glasswing 参与方强调AI 能力已跨越门槛关键基础设施的保护需要更加紧迫与系统化。七、普通开发者与用户该怎么办在 Mythos 暂不开放的当下 Anthropic 也给出了针对“此时此地”的建议可理解成对行业的通用建议把“安全左移”作为默认策略在开发阶段就融入静态分析、模糊测试、安全编码规范等。优先关注与补丁关键开源组件尤其是长期未更新的基础设施级项目。建立或完善自动化漏洞响应流程为“未来几年漏洞发现→利用的时间窗显著缩短”做准备。八、写在最后强能力更需强责任Anthropic 选择在 Mythos 尚未对公众开放时就公开其风险与防御计划本身就是一种姿态强调 Anthropic “安全优先”的实验室定位也承认类似能力的模型迟早会被更多人掌握。对于整个行业而言Mythos 既是一次技术能力的“秀肌肉”也是一次关于“如何负责任地使用强大 AI”的公开课。它提醒我们技术本身没有立场但监管、披露策略与协作机制将决定这些能力最终走向“防御”还是“破坏”。九、尾声当“神话”照进现实我们如何守住文明的底线“Mythos”在希腊语中意为“神话”。Anthropic给这个模型取这个名字或许并非巧合。当我们惊叹于Mythos能轻易撕开存在了10年、20年甚至27年的底层代码防线时真正令人脊背发凉的或许不是AI变得多么不可战胜而是它像一面极致的镜子照出了人类数字文明地基中那些长久被忽视的裂痕。它用极其高效的“破坏”逼迫我们去直面长久以来在安全投入上的侥幸心理。在这个算力即权力的时代AI的安全能力不再是工具箱里的一把螺丝刀而是普罗米修斯盗来的火种。Anthropic选择用“Glasswing玻璃翼”计划来承接这团火名字本身就带着一种脆弱与透明的隐喻——它轻盈而强大却需要极度小心地呵护。技术的列车一旦加速就永远不会因为恐惧而倒车。Mythos的出现是一次响亮的警钟它在告诉所有人从今天起“AI安全”的定义已经被彻底重写。它不再仅仅是“防止模型产生偏见或说错话”而是“防止模型轻易摧毁我们赖以生存的数字基建”。在通用人工智能的黎明我们不仅要仰望星空更要低头修补脚下的路。因为真正的神话从来都不在于机器能拥有多大的力量而在于人类在掌握神一般的技术后依然选择承担凡人的责任。