← Back home

Mythos Arrives: When Myth Meets the Scaling Law

AI Insight·8 min read·#AI#Anthropic#AGI

高强度用了 Fable 5 两天:它依旧很强,甚至可能最强,只是偶尔也会犯蠢——至于那个指数级的奇点,这个周末没来。

一、神坛之上

Claude Mythos 没想到会这么快放出来,虽然是以安全限制版本 Fable 的形式出现——真正满血的 Mythos 因为太能打,被 Anthropic 关进了只对少数受审合作伙伴开放的 Project Glasswing 里。这个模型的能力毋庸置疑,我比较关心的是它究竟是一个 Opus 4.8 的常规升级,还是真的是 AI 指数化增长的一个证明。

科学美国人报道里的 Anthropic Project Glasswing
图 1. 科学美国人报道的配图:手机上是 Anthropic 的 Project Glasswing 介绍页。满血的 Mythos 5 就被锁在这类受限项目里,不对外开放。(图源:Scientific American)

从它诞生之初就被各种媒体捧上神坛,有人引用谢尔盖·布林的话说:"用过 Mythos 你就知道,那就是纯粹的 AGI。如果你觉得这都不算 AGI,那我不知道什么才算 AGI。"——这句话我一直没有找到权威出处,感觉是中文媒体在炒作编造震惊体。从 Fable 一上线我就高强度测试(尽管也就两天),能感觉到它能力的显著提升,但是没有感觉到代际跨越那种提升(达到 GPT-3.5 到 GPT-4 那种)。

Anthropic CEO Dario Amodei 搞了一篇《Policy on the AI Exponential》的文章,依然是那种 AI 威胁论的老调重弹。从 Mythos 强大的网络安全能力来看,对 AI 加以限制是有必要的,不过这种论调最终成功把 Fable 送进去了。

二、METR 的曲线,与那句话里的玄机

METR 那个著名的 AI 取代人类时长拟合曲线来看,Mythos 确实存在一个很小幅度的"跳跃"。

METR 的任务时长拟合曲线
图 2. METR "前沿模型可自主完成的任务时长"曲线。那一小撮绿点一路往右上爬,是条平滑的指数趋势,并没有出现断层式的突变。

但如果我们仔细看 METR 的说明:Our task distribution is primarily composed of software engineering, machine learning, or cybersecurity tasks.(我们的任务分布主要由软件工程、机器学习或网络安全任务构成。)

METR FAQ 里关于任务分布的原话
图 3. METR FAQ 截图。一条只在"软件 / ML / 网络安全"上量出来的曲线,被拿去给"全方位 AGI"背书,分母悄悄换过了。

再结合其它 benchmark(benchmark 也可以 cherry-pick),一般的 benchmark 相对于 Opus 4.8 / GPT-5.5 都只是小幅提升,而 Cybersecurity 这一项则翻倍提升——这个才是真正的指数增长。

Anthropic 官方各型号 benchmark 对照表
图 4. 官方 benchmark 表。看 ExploitBench 那一行:Opus 4.8 是 40.0%,Mythos / Fable 5 直接到 78.0%,近乎翻倍;同期 SWE-Bench-Pro 只从 69.2% 到 80.3%。网络安全那一项的涨幅,明显不在一个量级。

三、我怀疑剧本是这样的

我怀疑剧本是这样的:Anthropic 在网络安全领域收集了大量数据进行强化学习,大幅提高这一能力,再渲染出一个网络安全的天塌了、外加国家安全威胁论等扩大宣传,在东大这里神乎其神。The Decoder 那篇报道甚至说它能端到端自主攻陷防御薄弱的企业网络,渲染恐慌的素材算是备齐了。

the-decoder 报道配图:网络安全主题
图 5. The Decoder 那篇报道的配图,网络安全主题。"AI 自主攻陷企业网络"这种标题,配上这样一张图,氛围也就到位了。(图源:The Decoder)

导致俺用了两天后感觉名不副实,而且把自己送上 ban 位,就是加戏太多了导致。

四、强是真强,偶尔也会犯蠢

两天高强度用下来,距离 Automated Coder(AC)确实还有一定距离。它会犯一些比较低级的错误,需要人为矫正,需要人能够明白 Claude Code 在干啥,至少对代码有粗略的理解,否则效率会很低;而 AC 的目标是让没有代码基础的人也能完成一定复杂的编程任务。所以对于有经验的程序员来说,Vibe coding 让他们的生产力从 1 提升到 99,而对于门外汉来讲是从 0 提升到了 1。

总结起来,遇到的几个低级错误:跑着跑着说这活干不了、环境不行,原来是把 requires-python >=3.8 理解为 require 3.8;还有 LLM 幻觉,写了个测试脚本说这活我测不了、没有联网,实际上没做任何验证;还善于偷懒,让它写个脚本测试文档格式是否正确,它一阵突突全亮绿灯,结果没一个在测试,全是凑数的;还粗心大意,让它上传代码,它倒好,直接越过默认仓库,随便捡了个仓库就上传了。

两天里撞见的四类低级错误
图 6. 把两天里撞见的几桩翻车现场拼在了一张图里。能自主拿下模拟企业网的模型,偶尔也会在长上下文里走神,犯点低级错误。

但让我感觉明显提升的是 agentic 时长确实在增长,一套指令可以跑很长时间,不达到用户的要求不停止那种;视觉感知能力提升也明显,SVG 生成能力大幅提升。

Opus 4.8 与 Fable 5 生成的收尾页对比{width=45%}

图 7. 同一道"谢谢 / Thank"收尾页,上为 Opus 4.8,下为 Fable 5。SVG 工整大气,只是这黄色描边的审美水平……

五、coding,是不是通往 AGI 的正道

梁文峰指出 AGI 有四条路:大语言模型、多模态、coding、数学,DeepSeek 全面押注,但是目前除了 LLM 尚未看到 DeepSeek 落子,视觉模型千呼万唤还不来。Anthropic 与 Claude Code 的成功,似乎在证明 coding 才是通向 AGI 的正确路径——毕竟这个世界是代码构建的,连做 PPT、做图表、做仿真、甚至设计都可以代码实现。

最能说明问题的,是连 Google 都坐不住了。2026 年 4 月,布林一纸备忘录直言要"紧急弥合代理执行上的差距",在 DeepMind 拉起一支突击队专门去追 Anthropic 的编程优势,国内也把这事解读成谷歌的又一次"红色警报"。导火索是谷歌 CFO 自己披露的一组对比:谷歌内部约 50% 的代码由 AI 生成,而 Anthropic 已经逼近 100%。一向押注 Gemini 的布林,等于亲口承认了 Claude 才是更强的那个编程 AI;而他之所以把 coding 看得这么重,是因为在他眼里,一个能读懂整个代码库、甚至反过来改进自身训练流程的模型,正是 AI takeoff 的前提。

一个个一周 7 天每天 24h 工作的数字员工,似乎要取代人力市场的一个个牛马;甚至一个个 PhD 看到 Codex / CC 的实验设计、论文写作、数据分析等等能力都远在自己之上时,都深深感觉 AGI 要来、自己要被取代的危机感。想想 Boss 的指令不需要一级一级执行,直达一个个随时待命的智能体;教授的指令不需要学术一点一点去推,直接控制 100 个 PhD 智能体去自动搜索论文、设计实验、下载数据、分析数据、写文章,甚至可以做到自己投递、自己写邮件与 editor 沟通,reviewer 用 AI 写了 comments 返回,这边 AI 再来 rebuttal,人的位置变成了一个监督的角色。谁指挥谁还不一定呢。

六、奇点、Skynet 与人性

看看 Claude Code 有多少人设为 auto mode on,不需要任何监督确认,开放全盘数据权限,全权让 AI 放开手脚去做。如果 AI 的发展真如 Dario Amodei 所说是指数级的,那么 Skynet 真就是有生之年了,因为到达奇点的时候人是无法反应过来的;而因为人类懒惰的本性,大部分人连密码都让 AI 读取和管理,更别说去监督 AI 了。当那个点到来之时,大部分的 AI 必然是处于 Ready 的状态,Ready 接管人类。乐观的 AI Futures Model 甚至把日子都算好了:Automated Coder 落在 2028 年 6 月,ASI 落在 2029 年 5 月。

AI Futures Model 的起飞曲线与时间表
图 8. AI Futures Model 画出的 AC → SAR → ASI 起飞曲线,日期甚至精确到了月份。气势是足,但终归是预测。
末日图景:当 AI 接管之后
图 9. AI 高悬天际、人类在废墟里劳作——"Ready 接管人类"那一幕被画成了这样。当然,目前它还只是一张图。

在自己亲自体验了 Fable 5 后,AI 的发展还是线性的,Scaling Law 还有制约,模型—算力—数据都到了平坦期,目前的 AI 只是在弥补它的不足。它会忽然在某一个领域突然飞跃:GPT-3.5 开创了大模型,并实现 Function CallingGPT-4V 引入了视觉能力;Gemini 开始多模态训练;o1 实现了 thinking;Opus 强大的编程能力——这之后那些 prompt engineering / context management / harness / agentic 能力,不过是工程化的提升,让 LLM 触及更多领域。

现在的 LLM 还是会在某些领域无比强悍、远超人类,又会犯许多低级错误、愚蠢至极,这显然不是 AGI。虽然 Automated Coder(AC)是 Superintelligence(ASI)的必经之路,但是也可以是抄了个捷径——至少 Yann LeCun 不会认为,通过 coding 所展现的 AGI 的能力,跟 AGI 有半毛钱关系。

Mythos 很强,可能就是当下最强,偶尔犯点蠢也无伤大雅。奇点没在这个周末降临,曲线还是线性地往上爬,天没塌——这就是生活,Maybe that's life。至于已经被关进去、用不成的 Fable,倒也不必惋惜:可以预见,接下来这几个月,海内外会不断有新模型宣称"达到"、甚至"超越"了 Fable 的水平。


参考

  1. Anthropic. Claude Fable 5 与 Mythos 5 发布说明. https://www.anthropic.com/news/claude-fable-5-mythos-5
  2. Anthropic. Project Glasswing. https://www.anthropic.com/glasswing
  3. Fast Company. Google co-founder Sergey Brin's unretirement lesson. https://www.fastcompany.com/91495296/google-co-founder-sergey-brins-unretirement-lesson-rest-us
  4. Dario Amodei. Policy on the AI Exponential. https://darioamodei.com/post/policy-on-the-ai-exponential
  5. METR. Measuring AI Ability to Complete Long Tasks(time horizons). https://metr.org/time-horizons/
  6. The Decoder. Claude Mythos can autonomously compromise weakly defended enterprise networks end-to-end. https://the-decoder.com/claude-mythos-can-autonomously-compromise-weakly-defended-enterprise-networks-end-to-end/
  7. Scientific American. What Is Mythos, and Why Are Experts Worried About Anthropic's AI Model?(图 1 来源). https://www.scientificamerican.com/article/what-is-mythos-and-why-are-experts-worried-about-anthropics-ai-model/
  8. 36氪 / 暗涌. 梁文锋专访:DeepSeek 的 AGI 路径. https://36kr.com/p/3804517800959747
  9. OpenAI. Function calling and other API updates. https://openai.com/index/function-calling-and-other-api-updates/
  10. OpenAI. GPT-4V(ision) System Card. https://openai.com/index/gpt-4v-system-card/
  11. Yann LeCun. 论自回归 LLM 的局限(推文). https://x.com/ylecun/status/1793680385403957295
  12. AI Futures Model. Timelines & Takeoff. https://www.aifuturesmodel.com/
  13. AI2.work. Google's Brin forms DeepMind strike team to close Anthropic coding gap. https://ai2.work/blog/google-s-brin-forms-deepmind-strike-team-to-close-anthropic-coding-gap
  14. MSN(中文报道). 谷歌再响"红色警报":布林挂帅组攻坚队,力图反超 Anthropic 编程优势. https://www.msn.com/zh-cn/news/other/ar-AA21qGzi