投研看板LLM 跟踪评价
模块 01

🧠 LLM 跟踪评价

国内外核心 LLM 公司最新模型发布后的评价跟踪。点任一模型进入"该模型 vs 上一代"的对比式详情页(五维:基本信息/创新技术/实测口碑·核心/商业化/Benchmark)。整合 B站/公众号/小红书/知乎/X/Reddit/Linux.do/HN 真实上手体验,严格标注代际与来源性质。

综合对比 · 核心旗舰一览 · 11 款

综合评分 = Artificial Analysis Intelligence Index(第三方独立),按评分降序。⚠️ 注意代际:Kimi K2.7 本代无独立分(标 K2.6)、GLM-5.2 发布零基准(标 GLM-5)、阶跃无独立 Index。价格为 API in/out 每百万 token(USD),订阅制/未上线者另注。点模型名进详情页。
模型公司发布综合评分价格 in/outAA blended ▾参数(总/激活)上下文核心特色
Claude Fable 5Anthropic 🌍06-09~65$10 / $50$20.00未公布1MMythos-class 跃升,已被出口管制暂停
Claude Opus 4.8Anthropic 🌍05-28~61$5 / $25$10.00未公布1M旗舰主力,可靠性+快速模式
GPT-5.5OpenAI 🌍04-2360$5 / $30$11.25未公布1M+刷榜第一/agentic,但幻觉 86%、价翻倍
Qwen3.7-Max阿里通义 🇨🇳05-2056.6$1.25 / $3.75*$3.75未披露1M长程自主 Agent,闭源
MiniMax M3MiniMax 🇨🇳06-0155$0.30 / $1.20$0.53~428B / 23B1M编码+1M+原生多模态三合一开源
MiMo-V2.5-Pro小米 🇨🇳04-2254~$1.00 / $3.00$0.541.02T / 42B1M长程一致+UltraSpeed 1000tps,MIT
DeepSeek V4-Pro深度求索 🇨🇳04-2452$0.435 / $0.87$0.541.6T / 49B1M长上下文效率/最大开源,但幻觉 94%
Kimi K2.7-Code月之暗面 🇨🇳06-12本代无 (K2.6=54)$0.95 / $4.00$1.71 (K2.6)1T / 32B256K编码专用/省 30% 思考 token,提速不提智
GLM-5.2智谱 🇨🇳06-13零基准 (GLM-5=50)Coding Plan / API下周$1.55 (GLM-5)744B / 40B1M真正可用 1M,编码逼近 Opus 4.8 但慢
Step 3.7 Flash阶跃星辰 🇨🇳05-28无独立 Index$0.20 / $1.15$0.44198B / ~11B256K原生多模态+Advisor 降本,最快开源
混元 Hy3 preview腾讯 🇨🇳04-2342~$0.18 / $0.59$0.20295B / 21B256K极致性价比/Agent 落地,能力中游
AA blended = Artificial Analysis 排行榜口径的混合价(按 3:1 输入:输出加权,USD/百万 token),便于跨模型横比真实成本。⚠️ Kimi K2.7-Code 与 GLM-5.2 本代在 AA 暂无页面,blended 取自 AA 现有的 K2.6 / GLM-5(已括注代际);阶跃 Step 3.7 由其 in/out 按同公式估算。
* Qwen3.7-Max 为 OpenRouter 5 折促销价(列表价 $2.50/$7.50)。混元 Hy3 OpenRouter 输入低至 $0.066。GLM-5.2 当前仅经 GLM Coding Plan 订阅分发,API 与 MIT 权重"下周"上线。

国内 · 8

GLM-5.2 vs GLM-5.1 / GLM-5
智谱 Zhipu AI · 2026-06-13 · 底层 744B/40B MoE · 主打 1M
06-13
编码完成度大幅跃升(AkitaOnRails 46→87,史上最大版本间跳跃)、逼近 Opus 4.8;但慢(限流、推理啰嗦)、发布即零基准、满 1M 无人验证、API/权重仍是"下周"。
定论国产编码第一梯队,慢是硬伤、跑分待出
1M 上下文编码⚠ 发布零基准
DeepSeek V4 vs V3 系
深度求索 · 2026-04-24 · 1.6T/49B MoE · MIT 开源
04-24
以长上下文效率与系统重构为核心的代际升级,AA Index 42→52、开源 #2;但幻觉率 94%、Pro 涨价、token 喷涌推高真实成本。
定论智能/长上下文大进步,可靠性与性价比是隐忧
1M 上下文编码⚠ 幻觉率 94%
Qwen3.7-Max vs 3.6-Max
阿里通义 · 2026-05-20 · 闭源 API-only
05-20
面向 Agent 的纯文本旗舰,长程自主编程相对 3.6 飞跃、AA #5 登顶国产;但指令遵循/前端/性价比口碑两极,跑分有效性遭质疑。
定论最强国产之一,但口碑两极、参数未披露
1M 上下文长程 Agent⚠ 参数未公开
MiniMax M3 vs M2.7
MiniMax 稀宇 · 2026-06-01 · ~428B/23B · open-weight
06-01
首个"编码+1M+原生多模态"三合一开源旗舰,AA Index 55 称最强开源;但冗长、抽象推理弱、发布时权重/验证未到位。
定论最强开源权重,但慢、啰嗦、差前沿一档
原生多模态1M 上下文⚠ 权重待放出
混元 Hy3 preview vs Hy2
腾讯 · 2026-04-23 · 295B/21B MoE · 开源
04-23
姚顺雨领衔、"不卷参数专攻 Agent 落地",OpenRouter 凭免费/低价冲到用量榜首;但独立评测(AA 仅 42)认为真实能力中游、榜首是价格套利。
定论性价比与 Agent 落地强,真实能力中游
超低价Agent⚠ 仅 preview
MiMo-V2.5-Pro vs V2-Pro
小米 · 2026-04-22 · 1.02T MoE · MIT 开源
04-22
长程一致性 + 极低价 + Claude Code 适配站稳国内开源第一梯队;但"胜过 Claude Code"多为自报,独立 XSCT 仅中游,幻觉/抢答是硬伤。
定论Claude Code 最佳国产搭档之一,自报需打折
MIT 开源UltraSpeed 1000tps⚠ 自报为主
Step 3.7 Flash vs 3.5 Flash
阶跃星辰 · 2026-05-28 · 198B MoE · Apache 2.0
05-28
"加多模态+提速+Advisor 降本"代际升级,Agent 性价比国内第一梯队(400tps、约 Claude 1/9);但纯 coding 不及顶尖,瓶颈在开发者生态。
定论性价比前沿,非单点最强,生态是短板
原生多模态Advisor 降本最快开源
Kimi K2.7-Code vs K2.6
月之暗面 · 2026-06-12 · 1T/32B MoE · 编码专用变体
06-12
构建于通用版 K2.6 之上的编码专用变体,更快、思考 token 砍 30%、前端视觉强;但被评"提速不提智",独立实测发现部分通用特性反而退步,自报跑分未提交独立评测。
定论提速不提智,自报为主、未独立验证
编码专用省思考 token⚠ 自报/有退步

海外 · 2

GPT-5.5 vs GPT-5.4
OpenAI · 2026-04-23 · 闭源
04-23
刷榜回到第一(AA Index 60)、agentic/编码/长程实质进步;但定价翻倍、真人盲测落后 Claude/Gemini、幻觉 86% 且"谎称完成"升至 29%。
定论能力上行明显,可靠性与性价比争议大
AA Index #1价格翻倍⚠ 幻觉/谎报风险
Opus 4.8 vs Fable 5
Anthropic · 2026-05-28 / 06-09 · 同期旗舰对比
06-09
Fable 5(Mythos-class 新线)能力代际跃升、AA ~65 居首,但慢、贵、且 06-12 因美国出口管制全球暂停至今未恢复;Opus 4.8 是当前实际在跑的旗舰。
定论Fable 5 最强但已暂停,Opus 4.8 为实际承载
Mythos-class🚨 Fable 5 已暂停⚠ 出口管制
新增对比:复制 templates/_template.html 脚手架,按 templates/填充说明.md 填充五维,存到本目录并在上方对应分组加一张卡片即可。每个详情页统一框架为"新模型 vs 上一代",竞品放在结论里。