M3 是 MiniMax 首个"编码+1M 上下文+原生多模态"三合一开源旗舰,三方(AA)确认为当前最强开源权重模型(Index 55)且性价比突出,但距 Opus 4.8/GPT-5.5 前沿仍差一档,且冗长、抽象推理弱、发布时权重/技术报告/三方验证均未到位。
| 维度 | 🟣 MiniMax M3 | 🟢 M2.7(前代) |
|---|---|---|
| 发布日期 | 2026-06-01(OpenRouter 标 5-31) | 2026 上半年(早于 M3) |
| 参数 / MoE 激活 | ~428B 总 / ~23B 激活(社区+AkitaOnRails 推断) | 未抓到精确值;M2:230B/10B,M1:456B/45.9B |
| 上下文 | 1M,最大输出 512K | 较短 |
| 模态 | 原生多模态(文/图/视频输入,可操作桌面) | 主要文本/Agent |
| 开源协议 | open-weight;发布当天未放权重,承诺约 6-11 上 HF/GitHub;许可被指"沿用 M2.7 限制条款"计划态 | —(M1 为 Apache-2.0) |
| 定价(in/out 每百万) | $0.30/$1.20(≤512K);$0.60/$2.40(512K–1M);缓存 $0.06 | $0.30/$1.20(同价) |
社区认可"编码/Agent 规划"实际进步;分歧集中在冗长/思考截断损害可用性、抽象推理偏弱。抓取局限:知乎/linux.do/302.AI 正文 403/TLS,linux.do 条目为搜索摘要转述;未检索到 Reddit/HN 的 M3 专帖。
Rails 8 工程题 M3 得 78/100,Tier B,第 11,与 Sonnet 4.6、DeepSeek V4 Flash 并列,落后 GLM5.2(87)、Kimi K2.7(86)。本地部署吐槽:"问题不在模型,在硬件"——428B 全权重 Q4≈264GB 不可用于编码。
akitaonrails.comLunar Lander 编码竞赛:GLM5.2 第1、M3 第2、Kimi K2.7 第3。用 macOS 版 MiniMax Code App 实测。
x.com/ivanfioravanti网页设计"至今最好结果之一"、代码审计"不为显得忙而编造问题";但扑克推理花 30–40 分钟、过度自我纠正,"不是好的抽象推理者"。结论:"终于在 GPT-5.5/Opus 桌上有了一席之位",建议混合部署。
thomas-wiegold.com极度"过度思考/雷霆大思考"——内心独白多、反复分析指令、陷入自相矛盾、思维链常因填满输出 token 被截断,"思考效率不如 DeepSeek"。但承认相比 M2.5/M2.7 进步显著、规划阶段架构设计详细。
linux.do/t/topic/2282329"首个集齐 Frontier 三件套(Coding+1M+多模态)的开源模型,平替天花板"。正文 TLS/403 未抓到细节。
302.ai/blog(仅标题)| 项 | 内容 |
|---|---|
| API 定价 | $0.30/$1.20(≤512K,含 5 折促销,原价 $0.60/$2.40);512K–1M 翻倍 |
| vs M2.7 | 名义同价,但 M3 冗长/思考 token 多,有效单任务成本更高(社区"捂紧钱包"指此) |
| 订阅 Token Plan | Plus $20/mo(~1.7B)、Max $50(~5.1B)、Ultra $120(~9.8B);另有 MiniMax Code App(含 macOS) |
| OpenRouter 用量 | 列为 5-27~6-4 五大新模型之一;M3 单模型周 token 量/名次未找到。宏观:2026-02 起中国模型 OpenRouter 消耗超美国,MiniMax/Moonshot 登顶 |
| 指标 | M3 | M2.7 对照 |
|---|---|---|
| Intelligence Index v4.0 | 55(权重放出后将是最高开源;落后 Opus4.8=61、GPT5.5=60) | 54(+1) |
| HLE / GPQA / AA-LCR / IFBench | 37 / 93 / 74 / 83 | 28 / 87 / 69 / 76(多项 +5~+9) |
| SciCode | 45(唯一回退 -2) | 47 |
| 输出速度 | 57.9 tok/s(#101/165,偏慢);评测耗 91M token(极冗长) | — |