国内 · 阿里通义 · 代际评测

Qwen3.7-MaxvsQwen3.6-Max

2026-05-20 发布 · 闭源 / API-only 纯文本旗舰，主打长程自主 Agent

📅 看板更新 2026-06-15🟣 3.7-Max 发布 2026-05-20🟢 前代 3.6-Max-Preview（04-20）🔎 来源：AA三方+V2EX/HN/知乎实测

总览 · 一句话定论

Qwen3.7-Max 是阿里面向 Agent 时代的闭源纯文本旗舰，长程自主编程相对 3.6 有公认"飞跃式"提升、登顶最强国产并进入全球第一梯队尾部（AA #5），但跑分有效性遭多平台质疑、指令遵循/前端/冷门知识/性价比口碑两极。

对标定论（vs 3.6-Max-Preview）

上下文256K → 1M优

智能指数AA 51.8 → 56.6优

长程 AgentYC-Bench 创收翻倍、35h 自主演示、社区公认明显优

知识/事实准确率AA-Omniscience 原始准确率下降，靠"拒答"粉饰幻觉率退步

定价输入价上涨、输出价持平，token 消耗大、实际成本恶化退步

开放性延续闭源 only持平

① 模型基本信息

维度	🟣 Qwen3.7-Max	🟢 Qwen3.6-Max-Preview（前代）
发布日期	2026-05-20（阿里云峰会），5/21 上 OpenRouter	2026-04-20
参数 / MoE	未披露（官方+多家媒体均"not disclosed"）	三方称 ">1T MoE"
上下文	1M	256K
模态	纯文本（无图像）；多模态由同代 3.7-Plus 承担	纯文本
开 / 闭源	闭源 / API-only，无 HF 权重	闭源（延续 3.6-Max 策略）
定价（in/out 每百万）	列表 $2.50/$7.50；OpenRouter 限时 5 折 $1.25/$3.75	$1.30/$7.80

缺口：参数/MoE 激活数官方从未披露；训练/数据/infra 无技术报告；是否会放开源权重仅传闻未证实。

② 创新技术（多为厂商自报）

超长程自主执行：官方演示自主优化 GPU attention kernel 运行 ~35 小时、1,158 次工具调用、几何平均 10× 加速，宣称优于 GLM5.1(7.3×)/Kimi K2.6(5.0×)/DeepSeek V4 Pro(3.3×)。厂商自报
扩展思考：推理模式 token 量巨大（AA 评测约 9700 万 tokens，远超中位 2400 万），agent 场景实际成本被推高。三方
跨框架泛化：在 Claude Code / OpenClaw / Qwen Code 表现一致（刘聪NLP）。
算法/数据/MoE 结构的具体创新点官方未披露 —— 缺口。

③ 实测口碑核心模块

口碑两极分化：Agent/长程编程场景强（vs 3.6 提升被广泛承认）；但指令遵循、前端、冷门知识、性价比遭实打实吐槽，跑分有效性被多平台质疑。抓取局限：知乎/IT之家 403、视频仅标题；可直读原话以 V2EX/HN 为主。

正面负面中性/混合

正面 / 实测

@cubecubeV2EX·可直读正面

"高强度用了一天，体感上和 glm-5.1 不相上下了。相对于 3.6 自主分析和解决能力飞跃。""中国人不骗中国人……和 glm5.1 不相上下"。槽点：价格与响应速度不如 Claude。

v2ex.com/t/1214878

刘聪NLP知乎·NLP KOL偏正面克制

编程工程能力"C+~B 档"，前端审美较前代提升；吃豆人修复了前代"穿墙"逻辑 bug、《剑来》卡牌游戏流程更顺。

zhihu.com/answer/...

@goldenarmHacker News正面

"The non-hallucination rate in AA-omniscience is SOTA, better than Opus 4.7"。

HN item?id=48205626

负面 / 质疑

@skuuhuiV2EX强烈负面

"太垃圾了。指令遵循垃圾，推理能力也很差……编码水平充其量也就是 minimax2.7 水准。"

v2ex.com/t/1214878

刘聪NLP（短板）知乎三大短板

① 上下文逼近 100K 时幻觉上升、后段易忘开头约束；② Debug 能力只够用；③ 知识分布不均，冷门领域可能掉到 D 档。前端是短板。

知乎（摘要转述）

@jampekka / @herozzmHN / V2EX跑分质疑

"幻觉率低=拒答多，非真本事"；"x 上一堆吹 Qwen3.7max 的，还附各种测试图……什么超过 claude4.6"（疑营销刷量）。多名用户更愿用 DeepSeek V4 Pro。

HN 讨论

区分：实测翻车 vs 跑分质疑

实测认可：长程 Agent 编程、自主分析能力相对 3.6 飞跃。
实测翻车：指令遵循、前端、冷门知识、性价比。
跑分质疑：AA-Omniscience 低幻觉靠"拒答"粉饰；官方不与最新竞品对比。

④ 商业化

模型	定价（in/out 每百万）	OpenRouter 排名
3.7-Max	列表 $2.50/$7.50；现 5 折 $1.25/$3.75；支持 prompt caching	智能 #8/378、编码 #11/315、Agentic #7/289
3.6-Max-Preview	$1.30/$7.80	3.6-Plus 仍在 top3

vs 上一代：输入价近翻倍、输出价略降；约为 Claude Opus 4.7 价目表的"一半"。⚠️ 推理 token 量极大（~97M），agent 场景实际账单可能远超单价直觉。C 端订阅价、真实 OpenRouter token 绝对量未找到（缺口）。

⑤ Benchmark

基准	Qwen3.7-Max	对照 / 来源
AA Intelligence Index 三方	56.6（全球 #5）	前代 51.8（+4.8）；GPT-5.5 60.2 / Opus 4.7 57.3
GPQA Diamond 自报	92.4	Claude Opus 4.6 Max 91.3
YC-Bench（创收）自报	$2.08M	前代 3.6-Plus $1.05M（约 2×）
AA-Omniscience 三方·反例	原始准确率跌 7.6pt（37.7→30.1%）	尝试率 67.3%→48.0%（靠拒答降幻觉）

⚠️ 关键陷阱：AA-Omniscience 分数提升部分来自"更爱说不知道"（拒答率升）而非知识增强——HN/AA 双方均点破。35h/10×/YC-Bench 等为厂商自报、未独立复现。