强到不敢全给你:拆解 Anthropic 的 Claude Fable 5 与 Mythos 5

发布时间:2026/6/11 5:24:43
强到不敢全给你:拆解 Anthropic 的 Claude Fable 5 与 Mythos 5 强到不敢全给你拆解 Anthropic 的 Claude Fable 5 与 Mythos 52026 年 6 月 9 日Anthropic 一次性发布了两个同根同源的模型面向所有人的Claude Fable 5以及仅限受信任伙伴的Claude Mythos 5。这是它第一次把「Mythos 级」能力推向公众同时也第一次公开承认有些能力强到必须先上锁才敢交出去。本文事实来源Anthropic 官方公告https://www.anthropic.com/news/claude-fable-5-mythos-5 官方推文线程claudeai 2026-06-09 官方基准对比表并经 TechCrunch、CNBC、VentureBeat、CNN、Fortune 等多家报道交叉核实。立场诚实拆解、不吹不黑——讲清它有多强也讲清「自报基准」「安全版会降级的版本」和「访问代价是数据留存」这几件容易被跑分盖过的事。一句话先说清同一个大脑两套权限。Claude Fable 5寓言 5把「神话级」模型做了安全处理后的公开版6 月 9 日起全球所有人可用。它是戴着镣铐跳舞的版本。Claude Mythos 5神话 5同一个底层模型但解除了部分防护目前只升级给已获批的少数伙伴。它是解开镣铐的版本。镣铐的有无决定了谁能用。这本身就是这次发布最值得聊的点。一、来龙去脉从被锁起来到端到所有人面前今年 4 月Anthropic 放出 Claude Mythos Preview没有公开发售。理由很直接它在网络安全上的能力强到危险。于是 Mythos 被关进一个叫Project Glasswing的小圈子只给极少数关键基础设施和网络防御伙伴。官方称最近这个圈子刚扩大到15 个以上国家、约 150 家新机构。两个月后的今天Anthropic 反手把同一级别的能力端到了所有人面前——只不过是带着锁端出来的。二、它到底有多强官方基准表 客户实测官方对比表取 Mythos 5 / Fable 5 中较高分对手为 Opus 4.8、GPT‑5.5、Gemini 3.1 Pro能力 / 基准Fable 5Opus 4.8GPT‑5.5Gemini 3.1 ProAgentic 编码 · SWE‑Bench Pro80.3%69.2%58.6%54.2%Agentic 编码 · Terminal‑Bench 2.188.0%82.7%83.4%(Codex)70.7%(Gemini CLI)前沿编码 · FrontierCode (Diamond)29.3%13.4%5.7%—知识工作 · GDPval‑AA1932189017691314多学科推理 · HLE带工具64.5%57.9%52.2%51.4%网络安全 · ExploitBench78.0%40.0%34.0%—健康 · HealthBench Professional66.0%56.9%51.8%—具体来源如图官方一句话总结任务越长、越复杂Fable 5 领先得越多。它指向的不是单点跑分而是长程、复杂、需要自我校验的任务上的代际差距。客户实测官方引用多源可查Hex第一个在它那套复杂长程分析基准上拿到 90% 以上的模型。Base44更擅长「一次性产出完整应用」。Genspark在自家评测里击败了所有其他模型。Rakuten在最高 effort 下Fable 5 会「反思并验证自己的工作」这种额外思考「自己赚回了成本」。⚠️ 冷静一点这些是Anthropic 自报 自家客户的基准。就在不久前OpenAI 自己都因数据污染弃用了 SWE‑bench Verified。所以「全面 SOTA」该理解成「在它自己挑的测法上领先」——榜单 ≠ 你的体验真正算数的是拿你最难的真实任务去压测。两个值得记住的数字SWE‑Bench Pro 80.3%碾压上一代和ExploitBench 78%几乎是 Opus 4.8 的两倍——后者正是它要被锁的原因。三、护栏这次发布真正的主角如果只看跑分这就是一篇「我们又变强了」的平淡公告。Fable 5 的特别在于护栏被当成产品的一部分来设计和宣传。机制碰敏感就降级。Fable 5 内置分类器检测网络安全、生物化学、以及模型蒸馏distillation三类请求。一旦命中这条请求不再由 Fable 5 回答而是回退到次强的 Claude Opus 4.8。官方说至少 95% 的会话全程跑在 Fable 自己身上触发回退的会话平均低于 5%且每次都会告诉用户。说人话普通人手里的「安全版」本质是一个「一碰敏感话题就自动降级到 Opus 4.8」的版本。把「蒸馏」也列进高风险耐人寻味。这是为了防止他人用 Fable 的输出去训练一个山寨小模型——既是安全考量也是商业护城河。背景是2026 年 2 月Anthropic 公开指控DeepSeek、Moonshot AI、MiniMax 等中国 AI 实验室用大量假账号「蒸馏」Claude 的能力OpenAI 同期也有类似指控。这条蒸馏护栏多少是那场争议的延续。注上述为Anthropic 单方指控相关公司有否认空间这里只陈述「它这么指控过」这一事实不替任何一方下结论。护栏可靠吗官方说发布前跑了外部漏洞赏金超过 1000 小时测试没找到通用越狱universal jailbreak但也坦白新型攻击仍可能出现。四、最容易被跑分盖过、却影响最深的一条强制 30 天数据留存正因为「仍可能被攻破」这次发布附带了一条政策对 Mythos 级模型的所有流量强制 30 天数据留存——即便你此前签的是零留存协议。Anthropic 承诺不拿这些数据训练模型只用于「防御复杂和新型攻击包括新越狱」和「减少误报」。这可能开了个行业先例越强的模型访问的代价是用数据留存换来的安全监控。能力的上限被解锁隐私的下限也被重新定义。对处理敏感数据的企业这是一笔要认真算的账。五、价格与可用性看起来开放用起来要钱价格每百万输入10 美元/ 每百万输出50 美元——是 Opus 4.85/25的整整两倍。官方另有一句「不到 Mythos Preview 的一半」那是另一个参照物别混。免费试驾期即日起到 6 月 22 日Fable 5 免费含在 Pro、Max、Team 和按席位的 Enterprise 里6 月 23 日起撤下之后要消耗 usage credits。换句话说想低成本验证它6 月 22 日前是窗口期。官方说预期需求「极高且难以预测」这个限时更像一次受控的产能放量而非长期慷慨。成本提醒输出 50 美元/百万叠加它「把一个请求拆成多个子任务」的推理方式在多 agent 工作流里烧钱速度相当可观。值不值得拿真实任务去算。六、被解锁的 Mythos 5能力的另一面Mythos 5解锁版据官方称在科研上更猛内部蛋白质设计专家用它把药物设计的部分环节加速了约 10 倍14 个蛋白靶点里有 9 个产出了强候选。注意限定语是「部分环节、约 10 倍」不是全流程也别夸成「刷新世界纪录」。这也解释了 Mythos 5 为什么只给少数人——它解除的恰恰是生物化学这类「两用」风险最高的防护。七、一个更大的背景发布时机很微妙这次发布卡在两件事的夹缝里Anthropic 正被普遍预期备战 IPO与 OpenAI、SpaceX 同处这波 AI 上市潮。把最强能力公开既兑现了它「最终要大规模部署 Mythos 级模型」的说法也是在上市前秀肌肉。就在几天前6 月 5 日Anthropic 还公开呼吁全行业建一个「刹车踏板」警告 AI 进步太快、可能很快实现递归自我改进RSI——不需要人类介入就能自我提升。一边喊「AI 正变得太危险、该装刹车」一边把自家最强模型交给公众。这中间的张力Anthropic 用「护栏」来调和不是不放而是带着锁放。Fable 与 Mythos 这对名字本身就是隐喻——**寓言Fable**是讲给所有人听、被驯化过的故事**神话Mythos**是更原始、更有力量、也更危险的版本只在少数人手里流传。八、对中文 AI 开发者几条现实建议长程任务是真卖点但要用在刀刃上。短平快单轮问答Opus 4.8 性价比更高跨多文件重构、长链 agent pipeline、需要自我反思纠错的活Fable 5 的代际优势才显现。别无脑全量切换。价格 留存会改成本结构。输出翻倍 强制 30 天留存——如果你的 agent 工作流经手客户敏感数据合规上要单独评估这条留存政策。蒸馏护栏开源作者留个心眼。想用 Fable 输出去训练/微调自己的小模型这条路会被堵。免费窗口就是现在至 6/22。Max/Pro 直接可用拿一两个你手头最长、最难、Opus 也搞不太定的真实任务去压测别跑 demo。落点Fable 5 / Mythos 5 真正的看点不是又一个「刷榜最强」而是 Anthropic 摆上桌的问题当模型强到一定程度要不要、以及怎么「分级」地放给不同的人「强到不敢全给你」——你可以读成负责任的克制也可以读成变相阉割 高级营销毕竟「强到要上锁」本身就是最好的广告。能力的天花板被捅破之后真正的竞争转移到了「怎么安全地把它交出去」这件事上。这道题没有标准答案。你站哪边素材Anthropic 官方公告及推文线程claudeai2026-06-09官方基准对比表经 TechCrunch / CNBC / VentureBeat / CNN / Fortune 等 6/9 前后报道交叉核实。涉及第三方含中国实验室的指控均为相关方单方主张本文只陈述「曾如此主张」之事实。定价、留存与订阅可用性可能随产能调整变化。本文为诚实科普不构成使用或投资建议。