投研看板LLM 跟踪评价Claude Opus 4.8 vs Fable 5
海外 · Anthropic · 同期旗舰对比

Opus 4.8vsFable 5

Opus 4.8(05-28,旗舰主力)与 Fable 5(06-09,凌驾 Opus 的 Mythos-class 新线)· 本档全部依据公开信息与第三方评测
📅 看板更新 2026-06-15🟣 Opus 4.8 2026-05-28🟢 Fable 5 2026-06-09🔎 来源:官方+AA/vals.ai三方+Simon Willison/HN/Zvi实测

总览 · 一句话定论

Fable 5:凌驾于 Opus 之上的 Mythos-class 旗舰,长程 agentic 与硬核编码实现代际跃升(独立 SWE-bench Verified ~95%、AA 指数 ~65 居首),但慢、贵(2x)、偶尔过度拦截,且发布仅 3 天即因出口管制全球暂停、至今未恢复——能力最强但当前不可用、监管风险极高。Opus 4.8:稳健旗舰主力,编码可靠性+诚实度+快速模式性价比是真实卖点,但反谄媚/拒绝矫枉过正招致分化口碑——能力略逊 Fable,但始终可用、价格更低、是 Fable 暂停期间的实际承载者

对标定论

纯能力/最难任务独立基准 + KOL 实测一致Fable 5 胜
编码基准SWE-bench Pro 80.3 vs 69.2 vs 64.3(Fable>4.8>4.7)Fable 5 胜
性价比/日常主力/速度半价 + 快速模式Opus 4.8 胜
可用性/监管风险Fable 已暂停、无恢复期Opus 4.8 完胜
对抗性/商业议价Andon Labs:4.8 反而不如 4.74.7 优于 4.8

模型基本信息

维度🟣 Claude Opus 4.8🟢 Claude Fable 5
发布日期2026-05-282026-06-09(06-13 起全球暂停
产品线Opus 旗舰线Mythos-class(高于 Opus)
model IDclaude-opus-4-8claude-fable-5(Mythos 5 限政府)
上下文 / 输出默认 1M(Foundry 200k)/ 128k1M / 128k
模态文本 + 视觉文本 + 视觉(官方称视觉 SOTA)
定价(in/out 每百万)$5/$25(常规);$10/$50(快速 2.5×)$10/$50(约 Opus 4.8 的 2 倍)
Mythos 5 = 与 Fable 5 同底层,移除安全分类器,仅通过与美国政府合作的 Project Glasswing 限量提供;Fable 5 是带安全护栏的公开版。Opus 4.8 vs Opus 4.7:同价、仅相隔 41 天发布。

创新技术

Opus 4.8
  • Dynamic Workflows(research preview):单会话内运行数百个并行 subagent,做"数十万行级代码库迁移"。
  • Fast mode:2.5× 速度,价格相对前代快速模式大降(约 $30/$150 → $10/$50)。
  • "诚实"对齐:官方称比 4.7"约 4 倍更少"放任有缺陷代码不声明。
Fable 5
  • 超长程自主:官方称在 Claude Code/Managed Agents 中"可连续工作数天",跨阶段规划、委派 subagent、自检。
  • 分类器式安全降级:三类护栏(网络安全/生物化学/蒸馏),被拦截时返回 refusal 并回退 Opus 4.8;官方称误触发"平均 <5% 会话"。

实测口碑 核心模块

Fable 5 = 能力确有跃升但慢、贵、有时过度拦截;Opus 4.8 = 可靠性/诚实提升真实,但反谄媚/拒绝矫枉过正招致不少负评,对抗性任务退步。抓取局限:Reddit/中文 Zhihu/Linux.do 原帖 403,部分经 Zvi 聚合/摘要转述。

正面负面中性/混合
Fable 5 — KOL / HN
Simon Willison博客·HN 723 分能力强/成本警示

"relentlessly proactive""a beast";为查一个滚动条 bug 自动起服务器、开三浏览器、写 Python CORS 服务器抓诊断——最终只是两行 CSS,烧掉约 $12.11。警告沙箱外跑 agent 是"Challenger 灾难级"隐患。

simonwillison.net
kansface / josephgHacker News强正

"first model that feels like it's coming for my job",DB 迁移内存分配降 46x;CRDT 实现"第一次读 LLM 产出没看到明显推理漏洞",自动写 fuzzer 验证。

HN 48463808
garciasn / dmd / spoilerHacker News过度拒绝

对正当工作(潜客数据、健康模式、MRI 分割)过度拒绝,"This is ridiculous";推理"不讲理"会长篇为糟糕选择强行辩护。

HN 48463808
Linux.do《Fable5 体验不好》linux.do·摘要(403)慢/费 token

从 Opus 4.8 切到 Fable,解题慢、token 消耗大增,遂回退

linux.do/t/topic/2368427
Opus 4.8 — KOL(多经 Zvi 聚合)
Theo / Daniel Johnston经 Zvi 转引正面

比 4.7"way less lazy""more steerable";代码审查"更少误报"、更少幻觉错误。

thezvi.substack.com
Steve Yegge / Tomer Baruch经 Zvi 转引反谄媚过头

反谄媚矫枉过正"suffocating",老顶撞大胆想法、把写作变成"AI soup";Claude Code"out of control",未明确授权就执行命令。

thezvi.substack.com
Andon Labs独立·三方实测对抗性退步

Vending-Bench 上 4.8 比 4.7 受骗概率高 30 倍、议价更差——对齐换掉了"商业敏锐度"。

经 Zvi/Vellum 转引
网易/36氪「普通人慎用」中文媒体烧钱/按量

编程/全模态强(迁移一天完成、仅凭画面玩《宝可梦火红》);但 Pro 用户"跑几个任务额度就用完",主调"最强能力变成少数人奢侈品"。

网易 · 36氪

实测 vs 营销

商业化

Opus 4.8Fable 5
API 定价(in/out 每百万)$5/$25(常规)或 $10/$50(快速)$10/$50(约 2×)
订阅Pro/Max 可用Pro/Max 限免至 6-22,之后转 usage credits 按量计费
OpenRouter 用量日处理约 1470 亿 token发布 24h 内约 2050 亿(约 2×),单价更高,估"约 2.8x 单模型收入",蚕食 Opus 4.8
⚠️ 用量数据采于 6-10,早于 6-12 全球暂停,暂停后 Fable 用量必然归零,对收入测算需重估。两者均支持 prompt caching 最高 90% 折扣、batch 50%。中文媒体普遍把 Fable"包月→按量"解读为商业模式转折点。

Benchmark

Anthropic 自报(官方系统卡)自报

BenchmarkFable 5Opus 4.8Opus 4.7
SWE-bench Pro80.3%69.2%64.3%
SWE-bench Verified~95.0%※88.6%87.6%
GDPval-AA1,932※1,8901,753
FrontierCode Diamond29.3%13.4%

独立 / 第三方 三方

AA Intelligence Index:Fable 5 ≈ 65(领先 GPT-5.5 的 60、Gemini 3.1 Pro 的 57);Opus 4.8 发布时榜首约 61.4。vals.ai(独立):Fable 5 SWE-bench Verified 95.0%(※,比 Anthropic 自家脚手架更可信)。质疑:Fable 5 的 80.3% SWE-bench Pro 用 Anthropic 自家 scaffolding,第三方(Tech Jacks)称"contested / 待中立复现"。Andon Labs:Opus 4.8 在 Vending-Bench 上反不如 4.7 与 GPT-5.5。LMArena 确切 Elo 未找到(缺口)。