投研看板LLM 跟踪评价MiniMax M3
国内 · MiniMax 稀宇科技 · 代际评测

MiniMax M3vsM2.7

2026-06-01 发布 · 首个"编码+1M 上下文+原生多模态"三合一开源旗舰
📅 看板更新 2026-06-15🟣 M3 发布 2026-06-01🟢 前代 M2.7🔎 来源:AA三方+AkitaOnRails/Wiegold/linux.do实测

总览 · 一句话定论

M3 是 MiniMax 首个"编码+1M 上下文+原生多模态"三合一开源旗舰,三方(AA)确认为当前最强开源权重模型(Index 55)且性价比突出,但距 Opus 4.8/GPT-5.5 前沿仍差一档,且冗长、抽象推理弱、发布时权重/技术报告/三方验证均未到位

对标定论(vs M2.7)

多模态M2.7 无 → M3 原生多模态(文/图/视频输入)M3 优
长上下文效率MSA 稀疏注意力,1M 上下文 per-token 约上代 1/20M3 优
编码 / Agent 规划AA 多项 +5~+9;规划阶段架构设计详细M3 优
抽象推理 / 冗长"过度思考"严重、思维链常被截断、ARC 弱软肋
速度 / 有效成本57.9 tok/s 偏慢;评测耗 91M token(极冗长),单任务有效成本更高退步

模型基本信息

维度🟣 MiniMax M3🟢 M2.7(前代)
发布日期2026-06-01(OpenRouter 标 5-31)2026 上半年(早于 M3)
参数 / MoE 激活~428B 总 / ~23B 激活(社区+AkitaOnRails 推断)未抓到精确值;M2:230B/10B,M1:456B/45.9B
上下文1M,最大输出 512K较短
模态原生多模态(文/图/视频输入,可操作桌面)主要文本/Agent
开源协议open-weight;发布当天未放权重,承诺约 6-11 上 HF/GitHub;许可被指"沿用 M2.7 限制条款"计划态—(M1 为 Apache-2.0)
定价(in/out 每百万)$0.30/$1.20(≤512K);$0.60/$2.40(512K–1M);缓存 $0.06$0.30/$1.20(同价)

创新技术

实测口碑 核心模块

社区认可"编码/Agent 规划"实际进步;分歧集中在冗长/思考截断损害可用性、抽象推理偏弱。抓取局限:知乎/linux.do/302.AI 正文 403/TLS,linux.do 条目为搜索摘要转述;未检索到 Reddit/HN 的 M3 专帖。

正面负面中性/混合
海外 / 英文圈
AkitaOnRails独立横评·6-14务实/略失望

Rails 8 工程题 M3 得 78/100,Tier B,第 11,与 Sonnet 4.6、DeepSeek V4 Flash 并列,落后 GLM5.2(87)、Kimi K2.7(86)。本地部署吐槽:"问题不在模型,在硬件"——428B 全权重 Q4≈264GB 不可用于编码。

akitaonrails.com
Ivan FioravantiX KOL正面

Lunar Lander 编码竞赛:GLM5.2 第1、M3 第2、Kimi K2.7 第3。用 macOS 版 MiniMax Code App 实测。

x.com/ivanfioravanti
Thomas Wiegold独立博客推荐有保留

网页设计"至今最好结果之一"、代码审计"不为显得忙而编造问题";但扑克推理花 30–40 分钟、过度自我纠正,"不是好的抽象推理者"。结论:"终于在 GPT-5.5/Opus 桌上有了一席之位",建议混合部署。

thomas-wiegold.com
中文圈
linux.do《进步了,但雷霆大思考》linux.do·摘要过度思考

极度"过度思考/雷霆大思考"——内心独白多、反复分析指令、陷入自相矛盾、思维链常因填满输出 token 被截断,"思考效率不如 DeepSeek"。但承认相比 M2.5/M2.7 进步显著、规划阶段架构设计详细。

linux.do/t/topic/2282329
302.AI 基准实验室摘要平替天花板

"首个集齐 Frontier 三件套(Coding+1M+多模态)的开源模型,平替天花板"。正文 TLS/403 未抓到细节。

302.ai/blog(仅标题)
CSDN 深测 / 知乎质疑CSDN / 知乎涨价/稀释

"技术登顶第一梯队,但老用户请捂紧钱包"(实际花费涨);知乎质疑"500B+ 堆多模态/长上下文是否稀释了基础推理"。

CSDN 深测

实测共识

商业化

内容
API 定价$0.30/$1.20(≤512K,含 5 折促销,原价 $0.60/$2.40);512K–1M 翻倍
vs M2.7名义同价,但 M3 冗长/思考 token 多,有效单任务成本更高(社区"捂紧钱包"指此)
订阅 Token PlanPlus $20/mo(~1.7B)、Max $50(~5.1B)、Ultra $120(~9.8B);另有 MiniMax Code App(含 macOS)
OpenRouter 用量列为 5-27~6-4 五大新模型之一;M3 单模型周 token 量/名次未找到。宏观:2026-02 起中国模型 OpenRouter 消耗超美国,MiniMax/Moonshot 登顶

Benchmark

独立第三方 Artificial Analysis

指标M3M2.7 对照
Intelligence Index v4.055(权重放出后将是最高开源;落后 Opus4.8=61、GPT5.5=60)54(+1)
HLE / GPQA / AA-LCR / IFBench37 / 93 / 74 / 8328 / 87 / 69 / 76(多项 +5~+9)
SciCode45(唯一回退 -2)47
输出速度57.9 tok/s(#101/165,偏慢);评测耗 91M token(极冗长)

厂商自报 发布时无技术报告

SWE-Bench Pro 59.0% / Terminal-Bench 2.1 66.0% / MCP Atlas 74.2% / OSWorld-Verified 70.06% / BrowseComp 83.5(自称超 Opus 4.7 的 79.3)。LMArena Elo 发布时未公布。