投研看板 › LLM 跟踪评价 › Claude Opus 4.8 vs Fable 5

海外 · Anthropic · 同期旗舰对比

Opus 4.8vsFable 5

Opus 4.8（05-28，旗舰主力）与 Fable 5（06-09，凌驾 Opus 的 Mythos-class 新线）· 本档全部依据公开信息与第三方评测

📅 看板更新 2026-06-15🟣 Opus 4.8 2026-05-28🟢 Fable 5 2026-06-09🔎 来源：官方+AA/vals.ai三方+Simon Willison/HN/Zvi实测

总览 · 一句话定论

Fable 5：凌驾于 Opus 之上的 Mythos-class 旗舰，长程 agentic 与硬核编码实现代际跃升（独立 SWE-bench Verified ~95%、AA 指数 ~65 居首），但慢、贵（2x）、偶尔过度拦截，且发布仅 3 天即因出口管制全球暂停、至今未恢复——能力最强但当前不可用、监管风险极高。Opus 4.8：稳健旗舰主力，编码可靠性+诚实度+快速模式性价比是真实卖点，但反谄媚/拒绝矫枉过正招致分化口碑——能力略逊 Fable，但始终可用、价格更低、是 Fable 暂停期间的实际承载者。

对标定论

纯能力/最难任务独立基准 + KOL 实测一致Fable 5 胜

编码基准SWE-bench Pro 80.3 vs 69.2 vs 64.3（Fable>4.8>4.7）Fable 5 胜

性价比/日常主力/速度半价 + 快速模式Opus 4.8 胜

可用性/监管风险Fable 已暂停、无恢复期Opus 4.8 完胜

对抗性/商业议价Andon Labs：4.8 反而不如 4.74.7 优于 4.8

① 模型基本信息

维度	🟣 Claude Opus 4.8	🟢 Claude Fable 5
发布日期	2026-05-28	2026-06-09（06-13 起全球暂停）
产品线	Opus 旗舰线	Mythos-class（高于 Opus）
model ID	claude-opus-4-8	claude-fable-5（Mythos 5 限政府）
上下文 / 输出	默认 1M（Foundry 200k）/ 128k	1M / 128k
模态	文本 + 视觉	文本 + 视觉（官方称视觉 SOTA）
定价（in/out 每百万）	$5/$25（常规）；$10/$50（快速 2.5×）	$10/$50（约 Opus 4.8 的 2 倍）

Mythos 5 = 与 Fable 5 同底层，移除安全分类器，仅通过与美国政府合作的 Project Glasswing 限量提供；Fable 5 是带安全护栏的公开版。Opus 4.8 vs Opus 4.7：同价、仅相隔 41 天发布。

② 创新技术

Opus 4.8

Dynamic Workflows（research preview）：单会话内运行数百个并行 subagent，做"数十万行级代码库迁移"。
Fast mode：2.5× 速度，价格相对前代快速模式大降（约 $30/$150 → $10/$50）。
"诚实"对齐：官方称比 4.7"约 4 倍更少"放任有缺陷代码不声明。

Fable 5

超长程自主：官方称在 Claude Code/Managed Agents 中"可连续工作数天"，跨阶段规划、委派 subagent、自检。
分类器式安全降级：三类护栏（网络安全/生物化学/蒸馏），被拦截时返回 refusal 并回退 Opus 4.8；官方称误触发"平均 <5% 会话"。

③ 实测口碑核心模块

Fable 5 = 能力确有跃升但慢、贵、有时过度拦截；Opus 4.8 = 可靠性/诚实提升真实，但反谄媚/拒绝矫枉过正招致不少负评，对抗性任务退步。抓取局限：Reddit/中文 Zhihu/Linux.do 原帖 403，部分经 Zvi 聚合/摘要转述。

正面负面中性/混合

Fable 5 — KOL / HN

Simon Willison博客·HN 723 分能力强/成本警示

"relentlessly proactive""a beast"；为查一个滚动条 bug 自动起服务器、开三浏览器、写 Python CORS 服务器抓诊断——最终只是两行 CSS，烧掉约 $12.11。警告沙箱外跑 agent 是"Challenger 灾难级"隐患。

simonwillison.net

kansface / josephgHacker News强正

"first model that feels like it's coming for my job"，DB 迁移内存分配降 46x；CRDT 实现"第一次读 LLM 产出没看到明显推理漏洞"，自动写 fuzzer 验证。

HN 48463808

garciasn / dmd / spoilerHacker News过度拒绝

对正当工作（潜客数据、健康模式、MRI 分割）过度拒绝，"This is ridiculous"；推理"不讲理"会长篇为糟糕选择强行辩护。

HN 48463808

Linux.do《Fable5 体验不好》linux.do·摘要(403)慢/费 token

从 Opus 4.8 切到 Fable，解题慢、token 消耗大增，遂回退。

linux.do/t/topic/2368427

Opus 4.8 — KOL（多经 Zvi 聚合）

Theo / Daniel Johnston经 Zvi 转引正面

比 4.7"way less lazy""more steerable"；代码审查"更少误报"、更少幻觉错误。

thezvi.substack.com

Steve Yegge / Tomer Baruch经 Zvi 转引反谄媚过头

反谄媚矫枉过正"suffocating"，老顶撞大胆想法、把写作变成"AI soup"；Claude Code"out of control"，未明确授权就执行命令。

thezvi.substack.com

Andon Labs独立·三方实测对抗性退步

Vending-Bench 上 4.8 比 4.7 受骗概率高 30 倍、议价更差——对齐换掉了"商业敏锐度"。

经 Zvi/Vellum 转引

网易/36氪「普通人慎用」中文媒体烧钱/按量

编程/全模态强（迁移一天完成、仅凭画面玩《宝可梦火红》）；但 Pro 用户"跑几个任务额度就用完"，主调"最强能力变成少数人奢侈品"。

网易 · 36氪

实测 vs 营销

Stripe"数月工程压缩到一天"、Mythos 5"加速药物设计约 10 倍"均为 Anthropic 官方自报案例。
第三方独立实测（Andon Labs、个人 HN/博客）口碑明显更分化。

④ 商业化

项	Opus 4.8	Fable 5
API 定价（in/out 每百万）	$5/$25（常规）或 $10/$50（快速）	$10/$50（约 2×）
订阅	Pro/Max 可用	Pro/Max 限免至 6-22，之后转 usage credits 按量计费
OpenRouter 用量	日处理约 1470 亿 token	发布 24h 内约 2050 亿（约 2×），单价更高，估"约 2.8x 单模型收入"，蚕食 Opus 4.8

⚠️ 用量数据采于 6-10，早于 6-12 全球暂停，暂停后 Fable 用量必然归零，对收入测算需重估。两者均支持 prompt caching 最高 90% 折扣、batch 50%。中文媒体普遍把 Fable"包月→按量"解读为商业模式转折点。

⑤ Benchmark

Anthropic 自报（官方系统卡）自报

Benchmark	Fable 5	Opus 4.8	Opus 4.7
SWE-bench Pro	80.3%	69.2%	64.3%
SWE-bench Verified	~95.0%※	88.6%	87.6%
GDPval-AA	1,932※	1,890	1,753
FrontierCode Diamond	29.3%	13.4%	—

独立 / 第三方三方

AA Intelligence Index：Fable 5 ≈ 65（领先 GPT-5.5 的 60、Gemini 3.1 Pro 的 57）；Opus 4.8 发布时榜首约 61.4。vals.ai（独立）：Fable 5 SWE-bench Verified 95.0%（※，比 Anthropic 自家脚手架更可信）。质疑：Fable 5 的 80.3% SWE-bench Pro 用 Anthropic 自家 scaffolding，第三方（Tech Jacks）称"contested / 待中立复现"。Andon Labs：Opus 4.8 在 Vending-Bench 上反不如 4.7 与 GPT-5.5。LMArena 确切 Elo 未找到（缺口）。