Mythos Arrives: When Myth Meets the Scaling Law

高强度用了 Fable 5 两天：它依旧很强，甚至可能最强，只是偶尔也会犯蠢——至于那个指数级的奇点，这个周末没来。

一、神坛之上

Claude Mythos 没想到会这么快放出来，虽然是以安全限制版本 Fable 的形式出现——真正满血的 Mythos 因为太能打，被 Anthropic 关进了只对少数受审合作伙伴开放的 Project Glasswing 里。这个模型的能力毋庸置疑，我比较关心的是它究竟是一个 Opus 4.8 的常规升级，还是真的是 AI 指数化增长的一个证明。

科学美国人报道里的 Anthropic Project Glasswing — 图 1. 科学美国人报道的配图：手机上是 Anthropic 的 Project Glasswing 介绍页。满血的 Mythos 5 就被锁在这类受限项目里，不对外开放。（图源：Scientific American）

从它诞生之初就被各种媒体捧上神坛，有人引用谢尔盖·布林的话说："用过 Mythos 你就知道，那就是纯粹的 AGI。如果你觉得这都不算 AGI，那我不知道什么才算 AGI。"——这句话我一直没有找到权威出处，感觉是中文媒体在炒作编造震惊体。从 Fable 一上线我就高强度测试（尽管也就两天），能感觉到它能力的显著提升，但是没有感觉到代际跨越那种提升（达到 GPT-3.5 到 GPT-4 那种）。

Anthropic CEO Dario Amodei 搞了一篇《Policy on the AI Exponential》的文章，依然是那种 AI 威胁论的老调重弹。从 Mythos 强大的网络安全能力来看，对 AI 加以限制是有必要的，不过这种论调最终成功把 Fable 送进去了。

二、METR 的曲线，与那句话里的玄机

从 METR 那个著名的 AI 取代人类时长拟合曲线来看，Mythos 确实存在一个很小幅度的"跳跃"。

METR 的任务时长拟合曲线 — 图 2. METR "前沿模型可自主完成的任务时长"曲线。那一小撮绿点一路往右上爬，是条平滑的指数趋势，并没有出现断层式的突变。

但如果我们仔细看 METR 的说明：Our task distribution is primarily composed of software engineering, machine learning, or cybersecurity tasks.（我们的任务分布主要由软件工程、机器学习或网络安全任务构成。）

METR FAQ 里关于任务分布的原话 — 图 3. METR FAQ 截图。一条只在"软件 / ML / 网络安全"上量出来的曲线，被拿去给"全方位 AGI"背书，分母悄悄换过了。

再结合其它 benchmark（benchmark 也可以 cherry-pick），一般的 benchmark 相对于 Opus 4.8 / GPT-5.5 都只是小幅提升，而 Cybersecurity 这一项则翻倍提升——这个才是真正的指数增长。

Anthropic 官方各型号 benchmark 对照表 — 图 4. 官方 benchmark 表。看 ExploitBench 那一行：Opus 4.8 是 40.0%，Mythos / Fable 5 直接到 78.0%，近乎翻倍；同期 SWE-Bench-Pro 只从 69.2% 到 80.3%。网络安全那一项的涨幅，明显不在一个量级。

三、我怀疑剧本是这样的

我怀疑剧本是这样的：Anthropic 在网络安全领域收集了大量数据进行强化学习，大幅提高这一能力，再渲染出一个网络安全的天塌了、外加国家安全威胁论等扩大宣传，在东大这里神乎其神。The Decoder 那篇报道甚至说它能端到端自主攻陷防御薄弱的企业网络，渲染恐慌的素材算是备齐了。

the-decoder 报道配图：网络安全主题 — 图 5. The Decoder 那篇报道的配图，网络安全主题。"AI 自主攻陷企业网络"这种标题，配上这样一张图，氛围也就到位了。（图源：The Decoder）

导致俺用了两天后感觉名不副实，而且把自己送上 ban 位，就是加戏太多了导致。

两天高强度用下来，距离 Automated Coder（AC）确实还有一定距离。它会犯一些比较低级的错误，需要人为矫正，需要人能够明白 Claude Code 在干啥，至少对代码有粗略的理解，否则效率会很低；而 AC 的目标是让没有代码基础的人也能完成一定复杂的编程任务。所以对于有经验的程序员来说，Vibe coding 让他们的生产力从 1 提升到 99，而对于门外汉来讲是从 0 提升到了 1。

总结起来，遇到的几个低级错误：跑着跑着说这活干不了、环境不行，原来是把 requires-python >=3.8 理解为 require 3.8；还有 LLM 幻觉，写了个测试脚本说这活我测不了、没有联网，实际上没做任何验证；还善于偷懒，让它写个脚本测试文档格式是否正确，它一阵突突全亮绿灯，结果没一个在测试，全是凑数的；还粗心大意，让它上传代码，它倒好，直接越过默认仓库，随便捡了个仓库就上传了。

两天里撞见的四类低级错误 — 图 6. 把两天里撞见的几桩翻车现场拼在了一张图里。能自主拿下模拟企业网的模型，偶尔也会在长上下文里走神，犯点低级错误。

但让我感觉明显提升的是 agentic 时长确实在增长，一套指令可以跑很长时间，不达到用户的要求不停止那种；视觉感知能力提升也明显，SVG 生成能力大幅提升。

Opus 4.8 与 Fable 5 生成的收尾页对比 {width=45%}

图 7. 同一道"谢谢 / Thank"收尾页，上为 Opus 4.8，下为 Fable 5。SVG 工整大气，只是这黄色描边的审美水平……

五、coding，是不是通往 AGI 的正道

梁文峰指出 AGI 有四条路：大语言模型、多模态、coding、数学，DeepSeek 全面押注，但是目前除了 LLM 尚未看到 DeepSeek 落子，视觉模型千呼万唤还不来。Anthropic 与 Claude Code 的成功，似乎在证明 coding 才是通向 AGI 的正确路径——毕竟这个世界是代码构建的，连做 PPT、做图表、做仿真、甚至设计都可以代码实现。

最能说明问题的，是连 Google 都坐不住了。2026 年 4 月，布林一纸备忘录直言要"紧急弥合代理执行上的差距"，在 DeepMind 拉起一支突击队专门去追 Anthropic 的编程优势，国内也把这事解读成谷歌的又一次"红色警报"。导火索是谷歌 CFO 自己披露的一组对比：谷歌内部约 50% 的代码由 AI 生成，而 Anthropic 已经逼近 100%。一向押注 Gemini 的布林，等于亲口承认了 Claude 才是更强的那个编程 AI；而他之所以把 coding 看得这么重，是因为在他眼里，一个能读懂整个代码库、甚至反过来改进自身训练流程的模型，正是 AI takeoff 的前提。

一个个一周 7 天每天 24h 工作的数字员工，似乎要取代人力市场的一个个牛马；甚至一个个 PhD 看到 Codex / CC 的实验设计、论文写作、数据分析等等能力都远在自己之上时，都深深感觉 AGI 要来、自己要被取代的危机感。想想 Boss 的指令不需要一级一级执行，直达一个个随时待命的智能体；教授的指令不需要学术一点一点去推，直接控制 100 个 PhD 智能体去自动搜索论文、设计实验、下载数据、分析数据、写文章，甚至可以做到自己投递、自己写邮件与 editor 沟通，reviewer 用 AI 写了 comments 返回，这边 AI 再来 rebuttal，人的位置变成了一个监督的角色。谁指挥谁还不一定呢。

六、奇点、Skynet 与人性

看看 Claude Code 有多少人设为 auto mode on，不需要任何监督确认，开放全盘数据权限，全权让 AI 放开手脚去做。如果 AI 的发展真如 Dario Amodei 所说是指数级的，那么 Skynet 真就是有生之年了，因为到达奇点的时候人是无法反应过来的；而因为人类懒惰的本性，大部分人连密码都让 AI 读取和管理，更别说去监督 AI 了。当那个点到来之时，大部分的 AI 必然是处于 Ready 的状态，Ready 接管人类。乐观的 AI Futures Model 甚至把日子都算好了：Automated Coder 落在 2028 年 6 月，ASI 落在 2029 年 5 月。

AI Futures Model 的起飞曲线与时间表 — 图 8. AI Futures Model 画出的 AC → SAR → ASI 起飞曲线，日期甚至精确到了月份。气势是足，但终归是预测。

末日图景：当 AI 接管之后 — 图 9. AI 高悬天际、人类在废墟里劳作——"Ready 接管人类"那一幕被画成了这样。当然，目前它还只是一张图。

在自己亲自体验了 Fable 5 后，AI 的发展还是线性的，Scaling Law 还有制约，模型—算力—数据都到了平坦期，目前的 AI 只是在弥补它的不足。它会忽然在某一个领域突然飞跃：GPT-3.5 开创了大模型，并实现 Function Calling；GPT-4V 引入了视觉能力；Gemini 开始多模态训练；o1 实现了 thinking；Opus 强大的编程能力——这之后那些 prompt engineering / context management / harness / agentic 能力，不过是工程化的提升，让 LLM 触及更多领域。

现在的 LLM 还是会在某些领域无比强悍、远超人类，又会犯许多低级错误、愚蠢至极，这显然不是 AGI。虽然 Automated Coder（AC）是 Superintelligence（ASI）的必经之路，但是也可以是抄了个捷径——至少 Yann LeCun 不会认为，通过 coding 所展现的 AGI 的能力，跟 AGI 有半毛钱关系。

Mythos 很强，可能就是当下最强，偶尔犯点蠢也无伤大雅。奇点没在这个周末降临，曲线还是线性地往上爬，天没塌——这就是生活，Maybe that's life。至于已经被关进去、用不成的 Fable，倒也不必惋惜：可以预见，接下来这几个月，海内外会不断有新模型宣称"达到"、甚至"超越"了 Fable 的水平。

参考

Anthropic. Claude Fable 5 与 Mythos 5 发布说明. https://www.anthropic.com/news/claude-fable-5-mythos-5
Anthropic. Project Glasswing. https://www.anthropic.com/glasswing
Fast Company. Google co-founder Sergey Brin's unretirement lesson. https://www.fastcompany.com/91495296/google-co-founder-sergey-brins-unretirement-lesson-rest-us
Dario Amodei. Policy on the AI Exponential. https://darioamodei.com/post/policy-on-the-ai-exponential
METR. Measuring AI Ability to Complete Long Tasks（time horizons）. https://metr.org/time-horizons/
The Decoder. Claude Mythos can autonomously compromise weakly defended enterprise networks end-to-end. https://the-decoder.com/claude-mythos-can-autonomously-compromise-weakly-defended-enterprise-networks-end-to-end/
Scientific American. What Is Mythos, and Why Are Experts Worried About Anthropic's AI Model?（图 1 来源）. https://www.scientificamerican.com/article/what-is-mythos-and-why-are-experts-worried-about-anthropics-ai-model/
36氪 / 暗涌. 梁文锋专访：DeepSeek 的 AGI 路径. https://36kr.com/p/3804517800959747
OpenAI. Function calling and other API updates. https://openai.com/index/function-calling-and-other-api-updates/
OpenAI. GPT-4V(ision) System Card. https://openai.com/index/gpt-4v-system-card/
Yann LeCun. 论自回归 LLM 的局限（推文）. https://x.com/ylecun/status/1793680385403957295
AI Futures Model. Timelines & Takeoff. https://www.aifuturesmodel.com/
AI2.work. Google's Brin forms DeepMind strike team to close Anthropic coding gap. https://ai2.work/blog/google-s-brin-forms-deepmind-strike-team-to-close-anthropic-coding-gap
MSN（中文报道）. 谷歌再响"红色警报"：布林挂帅组攻坚队，力图反超 Anthropic 编程优势. https://www.msn.com/zh-cn/news/other/ar-AA21qGzi

一、神坛之上

二、METR 的曲线，与那句话里的玄机

三、我怀疑剧本是这样的

四、强是真强，偶尔也会犯蠢

五、coding，是不是通往 AGI 的正道

六、奇点、Skynet 与人性

参考