国内外核心 LLM 公司最新模型发布后的评价跟踪。点任一模型进入"该模型 vs 上一代"的对比式详情页(五维:基本信息/创新技术/实测口碑·核心/商业化/Benchmark)。整合 B站/公众号/小红书/知乎/X/Reddit/Linux.do/HN 真实上手体验,严格标注代际与来源性质。
| 模型 | 公司 | 发布 | 综合评分 | 价格 in/out | AA blended ▾ | 参数(总/激活) | 上下文 | 核心特色 |
|---|---|---|---|---|---|---|---|---|
| Claude Fable 5 | Anthropic 🌍 | 06-09 | ~65 | $10 / $50 | $20.00 | 未公布 | 1M | Mythos-class 跃升,已被出口管制暂停 |
| Claude Opus 4.8 | Anthropic 🌍 | 05-28 | ~61 | $5 / $25 | $10.00 | 未公布 | 1M | 旗舰主力,可靠性+快速模式 |
| GPT-5.5 | OpenAI 🌍 | 04-23 | 60 | $5 / $30 | $11.25 | 未公布 | 1M+ | 刷榜第一/agentic,但幻觉 86%、价翻倍 |
| Qwen3.7-Max | 阿里通义 🇨🇳 | 05-20 | 56.6 | $1.25 / $3.75* | $3.75 | 未披露 | 1M | 长程自主 Agent,闭源 |
| MiniMax M3 | MiniMax 🇨🇳 | 06-01 | 55 | $0.30 / $1.20 | $0.53 | ~428B / 23B | 1M | 编码+1M+原生多模态三合一开源 |
| MiMo-V2.5-Pro | 小米 🇨🇳 | 04-22 | 54 | ~$1.00 / $3.00 | $0.54 | 1.02T / 42B | 1M | 长程一致+UltraSpeed 1000tps,MIT |
| DeepSeek V4-Pro | 深度求索 🇨🇳 | 04-24 | 52 | $0.435 / $0.87 | $0.54 | 1.6T / 49B | 1M | 长上下文效率/最大开源,但幻觉 94% |
| Kimi K2.7-Code | 月之暗面 🇨🇳 | 06-12 | 本代无 (K2.6=54) | $0.95 / $4.00 | $1.71 (K2.6) | 1T / 32B | 256K | 编码专用/省 30% 思考 token,提速不提智 |
| GLM-5.2 | 智谱 🇨🇳 | 06-13 | 零基准 (GLM-5=50) | Coding Plan / API下周 | $1.55 (GLM-5) | 744B / 40B | 1M | 真正可用 1M,编码逼近 Opus 4.8 但慢 |
| Step 3.7 Flash | 阶跃星辰 🇨🇳 | 05-28 | 无独立 Index | $0.20 / $1.15 | $0.44 | 198B / ~11B | 256K | 原生多模态+Advisor 降本,最快开源 |
| 混元 Hy3 preview | 腾讯 🇨🇳 | 04-23 | 42 | ~$0.18 / $0.59 | $0.20 | 295B / 21B | 256K | 极致性价比/Agent 落地,能力中游 |
templates/_template.html 脚手架,按 templates/填充说明.md 填充五维,存到本目录并在上方对应分组加一张卡片即可。每个详情页统一框架为"新模型 vs 上一代",竞品放在结论里。