国内 · MiniMax 稀宇科技 · 代际评测

MiniMax M3vsM2.7

2026-06-01 发布 · 首个"编码+1M 上下文+原生多模态"三合一开源旗舰

📅 看板更新 2026-06-15🟣 M3 发布 2026-06-01🟢 前代 M2.7🔎 来源：AA三方+AkitaOnRails/Wiegold/linux.do实测

总览 · 一句话定论

M3 是 MiniMax 首个"编码+1M 上下文+原生多模态"三合一开源旗舰，三方（AA）确认为当前最强开源权重模型（Index 55）且性价比突出，但距 Opus 4.8/GPT-5.5 前沿仍差一档，且冗长、抽象推理弱、发布时权重/技术报告/三方验证均未到位。

对标定论（vs M2.7）

多模态M2.7 无 → M3 原生多模态（文/图/视频输入）M3 优

长上下文效率MSA 稀疏注意力，1M 上下文 per-token 约上代 1/20M3 优

编码 / Agent 规划AA 多项 +5~+9；规划阶段架构设计详细M3 优

抽象推理 / 冗长"过度思考"严重、思维链常被截断、ARC 弱软肋

速度 / 有效成本57.9 tok/s 偏慢；评测耗 91M token（极冗长），单任务有效成本更高退步

① 模型基本信息

维度	🟣 MiniMax M3	🟢 M2.7（前代）
发布日期	2026-06-01（OpenRouter 标 5-31）	2026 上半年（早于 M3）
参数 / MoE 激活	~428B 总 / ~23B 激活（社区+AkitaOnRails 推断）	未抓到精确值；M2:230B/10B，M1:456B/45.9B
上下文	1M，最大输出 512K	较短
模态	原生多模态（文/图/视频输入，可操作桌面）	主要文本/Agent
开源协议	open-weight；发布当天未放权重，承诺约 6-11 上 HF/GitHub；许可被指"沿用 M2.7 限制条款"计划态	—（M1 为 Apache-2.0）
定价（in/out 每百万）	$0.30/$1.20（≤512K）；$0.60/$2.40（512K–1M）；缓存 $0.06	$0.30/$1.20（同价）

② 创新技术

MSA（MiniMax Sparse Attention）：从 M1/M2 早期线性注意力，到 M2 一度回退全注意力（曾撰文称线性在推理/多轮上精度差），M3 改走稀疏注意力（KV-block 选择）——注意力路线第三次转向。
效率自报：1M 下 per-token 计算约上代 1/20；prefill >9×、decode >15× 提速。发布时技术报告未出，三方无法独立验证
原生多模态：Step-0 起图文混合训练（大规模 Interleaved Data），而非后挂视觉模块。

③ 实测口碑核心模块

社区认可"编码/Agent 规划"实际进步；分歧集中在冗长/思考截断损害可用性、抽象推理偏弱。抓取局限：知乎/linux.do/302.AI 正文 403/TLS，linux.do 条目为搜索摘要转述；未检索到 Reddit/HN 的 M3 专帖。

正面负面中性/混合

海外 / 英文圈

AkitaOnRails独立横评·6-14务实/略失望

Rails 8 工程题 M3 得 78/100，Tier B，第 11，与 Sonnet 4.6、DeepSeek V4 Flash 并列，落后 GLM5.2(87)、Kimi K2.7(86)。本地部署吐槽："问题不在模型，在硬件"——428B 全权重 Q4≈264GB 不可用于编码。

akitaonrails.com

Ivan FioravantiX KOL正面

Lunar Lander 编码竞赛：GLM5.2 第1、M3 第2、Kimi K2.7 第3。用 macOS 版 MiniMax Code App 实测。

x.com/ivanfioravanti

Thomas Wiegold独立博客推荐有保留

网页设计"至今最好结果之一"、代码审计"不为显得忙而编造问题"；但扑克推理花 30–40 分钟、过度自我纠正，"不是好的抽象推理者"。结论："终于在 GPT-5.5/Opus 桌上有了一席之位"，建议混合部署。

thomas-wiegold.com

中文圈

linux.do《进步了，但雷霆大思考》linux.do·摘要过度思考

极度"过度思考/雷霆大思考"——内心独白多、反复分析指令、陷入自相矛盾、思维链常因填满输出 token 被截断，"思考效率不如 DeepSeek"。但承认相比 M2.5/M2.7 进步显著、规划阶段架构设计详细。

linux.do/t/topic/2282329

302.AI 基准实验室摘要平替天花板

"首个集齐 Frontier 三件套（Coding+1M+多模态）的开源模型，平替天花板"。正文 TLS/403 未抓到细节。

302.ai/blog（仅标题）

CSDN 深测 / 知乎质疑CSDN / 知乎涨价/稀释

"技术登顶第一梯队，但老用户请捂紧钱包"（实际花费涨）；知乎质疑"500B+ 堆多模态/长上下文是否稀释了基础推理"。

CSDN 深测

SmallMainlinux.do·逐字(86赞)Tier 2

Unity C# 横评（42 模型同题）：MiniMax M3 完成度列 Tier 2（"明显功能错误/遗漏"），落后 GLM5.2/Kimi K2.7（Tier 1）；速度 25 分钟居中。与 AkitaOnRails 的"第 11、落后 GLM5.2/Kimi"判断一致。

linux.do/t/topic/2395506

实测共识

编码/Agent 长程规划相对 M2.7 进步明显。
冗长/思考截断损可用性；抽象推理偏弱；本地部署门槛高（428B）。
官方跑分用 Opus 4.7 旧基准、发布时纯自测无三方验证。

④ 商业化

项	内容
API 定价	$0.30/$1.20（≤512K，含 5 折促销，原价 $0.60/$2.40）；512K–1M 翻倍
vs M2.7	名义同价，但 M3 冗长/思考 token 多，有效单任务成本更高（社区"捂紧钱包"指此）
订阅 Token Plan	Plus $20/mo(~1.7B)、Max $50(~5.1B)、Ultra $120(~9.8B)；另有 MiniMax Code App（含 macOS）
OpenRouter 用量	列为 5-27~6-4 五大新模型之一；M3 单模型周 token 量/名次未找到。宏观：2026-02 起中国模型 OpenRouter 消耗超美国，MiniMax/Moonshot 登顶

⑤ Benchmark

独立第三方 Artificial Analysis

指标	M3	M2.7 对照
Intelligence Index v4.0	55（权重放出后将是最高开源；落后 Opus4.8=61、GPT5.5=60）	54（+1）
HLE / GPQA / AA-LCR / IFBench	37 / 93 / 74 / 83	28 / 87 / 69 / 76（多项 +5~+9）
SciCode	45（唯一回退 -2）	47
输出速度	57.9 tok/s（#101/165，偏慢）；评测耗 91M token（极冗长）	—

厂商自报发布时无技术报告

SWE-Bench Pro 59.0% / Terminal-Bench 2.1 66.0% / MCP Atlas 74.2% / OSWorld-Verified 70.06% / BrowseComp 83.5（自称超 Opus 4.7 的 79.3）。LMArena Elo 发布时未公布。