投研看板 › LLM 跟踪评价

模块 01

🧠 LLM 跟踪评价

国内外核心 LLM 公司最新模型发布后的评价跟踪。点任一模型进入"该模型 vs 上一代"的对比式详情页（五维：基本信息/创新技术/实测口碑·核心/商业化/Benchmark）。整合 B站/公众号/小红书/知乎/X/Reddit/Linux.do/HN 真实上手体验，严格标注代际与来源性质。

📋 口碑来源 & KOL 名册 →📊 KOL 加权口碑分 →📈 趋势分析（能力/价格/性价比）→

综合对比 · 核心旗舰一览 · 11 款

综合评分 = Artificial Analysis Intelligence Index（第三方独立），按评分降序。⚠️ 注意代际：Kimi K2.7 本代无独立分（标 K2.6）、GLM-5.2 发布零基准（标 GLM-5）、阶跃无独立 Index。价格为 API in/out 每百万 token（USD），订阅制/未上线者另注。点模型名进详情页。

模型	公司	发布	综合评分	价格 in/out	AA blended ▾	参数(总/激活)	上下文	核心特色
Claude Fable 5	Anthropic 🌍	06-09	~65	$10 / $50	$20.00	未公布	1M	Mythos-class 跃升，已被出口管制暂停
Claude Opus 4.8	Anthropic 🌍	05-28	~61	$5 / $25	$10.00	未公布	1M	旗舰主力，可靠性+快速模式
GPT-5.5	OpenAI 🌍	04-23	60	$5 / $30	$11.25	未公布	1M+	刷榜第一/agentic，但幻觉 86%、价翻倍
Qwen3.7-Max	阿里通义 🇨🇳	05-20	56.6	$1.25 / $3.75*	$3.75	未披露	1M	长程自主 Agent，闭源
MiniMax M3	MiniMax 🇨🇳	06-01	55	$0.30 / $1.20	$0.53	~428B / 23B	1M	编码+1M+原生多模态三合一开源
MiMo-V2.5-Pro	小米 🇨🇳	04-22	54	~$1.00 / $3.00	$0.54	1.02T / 42B	1M	长程一致+UltraSpeed 1000tps，MIT
DeepSeek V4-Pro	深度求索 🇨🇳	04-24	52	$0.435 / $0.87	$0.54	1.6T / 49B	1M	长上下文效率/最大开源，但幻觉 94%
Kimi K2.7-Code	月之暗面 🇨🇳	06-12	本代无 (K2.6=54)	$0.95 / $4.00	$1.71 (K2.6)	1T / 32B	256K	编码专用/省 30% 思考 token，提速不提智
GLM-5.2	智谱 🇨🇳	06-13	零基准 (GLM-5=50)	Coding Plan / API下周	$1.55 (GLM-5)	744B / 40B	1M	真正可用 1M，编码逼近 Opus 4.8 但慢
Step 3.7 Flash	阶跃星辰 🇨🇳	05-28	无独立 Index	$0.20 / $1.15	$0.44	198B / ~11B	256K	原生多模态+Advisor 降本，最快开源
混元 Hy3 preview	腾讯 🇨🇳	04-23	42	~$0.18 / $0.59	$0.20	295B / 21B	256K	极致性价比/Agent 落地，能力中游

AA blended = Artificial Analysis 排行榜口径的混合价（按 3:1 输入:输出加权，USD/百万 token），便于跨模型横比真实成本。⚠️ Kimi K2.7-Code 与 GLM-5.2 本代在 AA 暂无页面，blended 取自 AA 现有的 K2.6 / GLM-5（已括注代际）；阶跃 Step 3.7 由其 in/out 按同公式估算。
* Qwen3.7-Max 为 OpenRouter 5 折促销价（列表价 $2.50/$7.50）。混元 Hy3 OpenRouter 输入低至 $0.066。GLM-5.2 当前仅经 GLM Coding Plan 订阅分发，API 与 MIT 权重"下周"上线。

国内 · 8

GLM-5.2 vs GLM-5.1 / GLM-5

智谱 Zhipu AI · 2026-06-13 · 底层 744B/40B MoE · 主打 1M

编码完成度大幅跃升（AkitaOnRails 46→87，史上最大版本间跳跃）、逼近 Opus 4.8；但慢（限流、推理啰嗦）、发布即零基准、满 1M 无人验证、API/权重仍是"下周"。

定论国产编码第一梯队，慢是硬伤、跑分待出

1M 上下文编码⚠ 发布零基准

DeepSeek V4 vs V3 系

深度求索 · 2026-04-24 · 1.6T/49B MoE · MIT 开源

以长上下文效率与系统重构为核心的代际升级，AA Index 42→52、开源 #2；但幻觉率 94%、Pro 涨价、token 喷涌推高真实成本。

定论智能/长上下文大进步，可靠性与性价比是隐忧

1M 上下文编码⚠ 幻觉率 94%

Qwen3.7-Max vs 3.6-Max

阿里通义 · 2026-05-20 · 闭源 API-only

面向 Agent 的纯文本旗舰，长程自主编程相对 3.6 飞跃、AA #5 登顶国产；但指令遵循/前端/性价比口碑两极，跑分有效性遭质疑。

定论最强国产之一，但口碑两极、参数未披露

1M 上下文长程 Agent⚠ 参数未公开

MiniMax M3 vs M2.7

MiniMax 稀宇 · 2026-06-01 · ~428B/23B · open-weight

首个"编码+1M+原生多模态"三合一开源旗舰，AA Index 55 称最强开源；但冗长、抽象推理弱、发布时权重/验证未到位。

定论最强开源权重，但慢、啰嗦、差前沿一档

原生多模态1M 上下文⚠ 权重待放出

混元 Hy3 preview vs Hy2

腾讯 · 2026-04-23 · 295B/21B MoE · 开源

姚顺雨领衔、"不卷参数专攻 Agent 落地"，OpenRouter 凭免费/低价冲到用量榜首；但独立评测（AA 仅 42）认为真实能力中游、榜首是价格套利。

定论性价比与 Agent 落地强，真实能力中游

超低价Agent⚠ 仅 preview

MiMo-V2.5-Pro vs V2-Pro

小米 · 2026-04-22 · 1.02T MoE · MIT 开源

长程一致性 + 极低价 + Claude Code 适配站稳国内开源第一梯队；但"胜过 Claude Code"多为自报，独立 XSCT 仅中游，幻觉/抢答是硬伤。

定论Claude Code 最佳国产搭档之一，自报需打折

MIT 开源UltraSpeed 1000tps⚠ 自报为主

Step 3.7 Flash vs 3.5 Flash

阶跃星辰 · 2026-05-28 · 198B MoE · Apache 2.0

"加多模态+提速+Advisor 降本"代际升级，Agent 性价比国内第一梯队（400tps、约 Claude 1/9）；但纯 coding 不及顶尖，瓶颈在开发者生态。

定论性价比前沿，非单点最强，生态是短板

原生多模态Advisor 降本最快开源

Kimi K2.7-Code vs K2.6

月之暗面 · 2026-06-12 · 1T/32B MoE · 编码专用变体

构建于通用版 K2.6 之上的编码专用变体，更快、思考 token 砍 30%、前端视觉强；但被评"提速不提智"，独立实测发现部分通用特性反而退步，自报跑分未提交独立评测。

定论提速不提智，自报为主、未独立验证

编码专用省思考 token⚠ 自报/有退步

海外 · 2

GPT-5.5 vs GPT-5.4

OpenAI · 2026-04-23 · 闭源

刷榜回到第一（AA Index 60）、agentic/编码/长程实质进步；但定价翻倍、真人盲测落后 Claude/Gemini、幻觉 86% 且"谎称完成"升至 29%。

定论能力上行明显，可靠性与性价比争议大

AA Index #1价格翻倍⚠ 幻觉/谎报风险

Opus 4.8 vs Fable 5

Anthropic · 2026-05-28 / 06-09 · 同期旗舰对比

Fable 5（Mythos-class 新线）能力代际跃升、AA ~65 居首，但慢、贵、且 06-12 因美国出口管制全球暂停至今未恢复；Opus 4.8 是当前实际在跑的旗舰。

定论Fable 5 最强但已暂停，Opus 4.8 为实际承载

Mythos-class🚨 Fable 5 已暂停⚠ 出口管制

新增对比：复制 templates/_template.html 脚手架，按 templates/填充说明.md 填充五维，存到本目录并在上方对应分组加一张卡片即可。每个详情页统一框架为"新模型 vs 上一代"，竞品放在结论里。