国内 · 阿里通义 · 代际评测
Qwen3.7-MaxvsQwen3.6-Max
2026-05-20 发布 · 闭源 / API-only 纯文本旗舰,主打长程自主 Agent
📅 看板更新 2026-06-15🟣 3.7-Max 发布 2026-05-20🟢 前代 3.6-Max-Preview(04-20)🔎 来源:AA三方+V2EX/HN/知乎实测
⚠️ 命名陷阱:Qwen3.7 家族 = Max(纯文本旗舰) / Plus(多模态、更便宜);独立榜上"3.6-Max-Preview 51.8 分"是上一代,勿与 3.7 的 56.6 混淆;HF 上 Qwen3.6-27B/35B-A3B 是开源小模型,非 Max。参数规模官方从未披露。
总览 · 一句话定论
Qwen3.7-Max 是阿里面向 Agent 时代的闭源纯文本旗舰,长程自主编程相对 3.6 有公认"飞跃式"提升、登顶最强国产并进入全球第一梯队尾部(AA #5),但跑分有效性遭多平台质疑、指令遵循/前端/冷门知识/性价比口碑两极。
对标定论(vs 3.6-Max-Preview)
上下文256K → 1M优
智能指数AA 51.8 → 56.6优
长程 AgentYC-Bench 创收翻倍、35h 自主演示、社区公认明显优
知识/事实准确率AA-Omniscience 原始准确率下降,靠"拒答"粉饰幻觉率退步
定价输入价上涨、输出价持平,token 消耗大、实际成本恶化退步
开放性延续闭源 only持平
① 模型基本信息
| 维度 | 🟣 Qwen3.7-Max | 🟢 Qwen3.6-Max-Preview(前代) |
| 发布日期 | 2026-05-20(阿里云峰会),5/21 上 OpenRouter | 2026-04-20 |
| 参数 / MoE | 未披露(官方+多家媒体均"not disclosed") | 三方称 ">1T MoE" |
| 上下文 | 1M | 256K |
| 模态 | 纯文本(无图像);多模态由同代 3.7-Plus 承担 | 纯文本 |
| 开 / 闭源 | 闭源 / API-only,无 HF 权重 | 闭源(延续 3.6-Max 策略) |
| 定价(in/out 每百万) | 列表 $2.50/$7.50;OpenRouter 限时 5 折 $1.25/$3.75 | $1.30/$7.80 |
缺口:参数/MoE 激活数官方从未披露;训练/数据/infra 无技术报告;是否会放开源权重仅传闻未证实。
② 创新技术(多为厂商自报)
- 超长程自主执行:官方演示自主优化 GPU attention kernel 运行 ~35 小时、1,158 次工具调用、几何平均 10× 加速,宣称优于 GLM5.1(7.3×)/Kimi K2.6(5.0×)/DeepSeek V4 Pro(3.3×)。厂商自报
- 扩展思考:推理模式 token 量巨大(AA 评测约 9700 万 tokens,远超中位 2400 万),agent 场景实际成本被推高。三方
- 跨框架泛化:在 Claude Code / OpenClaw / Qwen Code 表现一致(刘聪NLP)。
- 算法/数据/MoE 结构的具体创新点官方未披露 —— 缺口。
③ 实测口碑 核心模块
口碑两极分化:Agent/长程编程场景强(vs 3.6 提升被广泛承认);但指令遵循、前端、冷门知识、性价比遭实打实吐槽,跑分有效性被多平台质疑。抓取局限:知乎/IT之家 403、视频仅标题;可直读原话以 V2EX/HN 为主。
正面负面中性/混合
正面 / 实测
@cubecubeV2EX·可直读正面
"高强度用了一天,体感上和 glm-5.1 不相上下了。相对于 3.6 自主分析和解决能力飞跃。""中国人不骗中国人……和 glm5.1 不相上下"。槽点:价格与响应速度不如 Claude。
v2ex.com/t/1214878
@goldenarmHacker News正面
"The non-hallucination rate in AA-omniscience is SOTA, better than Opus 4.7"。
HN item?id=48205626
负面 / 质疑
刘聪NLP(短板)知乎三大短板
① 上下文逼近 100K 时幻觉上升、后段易忘开头约束;② Debug 能力只够用;③ 知识分布不均,冷门领域可能掉到 D 档。前端是短板。
知乎(摘要转述)
@jampekka / @herozzmHN / V2EX跑分质疑
"幻觉率低=拒答多,非真本事";"x 上一堆吹 Qwen3.7max 的,还附各种测试图……什么超过 claude4.6"(疑营销刷量)。多名用户更愿用 DeepSeek V4 Pro。
HN 讨论
区分:实测翻车 vs 跑分质疑
- 实测认可:长程 Agent 编程、自主分析能力相对 3.6 飞跃。
- 实测翻车:指令遵循、前端、冷门知识、性价比。
- 跑分质疑:AA-Omniscience 低幻觉靠"拒答"粉饰;官方不与最新竞品对比。
④ 商业化
| 模型 | 定价(in/out 每百万) | OpenRouter 排名 |
| 3.7-Max | 列表 $2.50/$7.50;现 5 折 $1.25/$3.75;支持 prompt caching | 智能 #8/378、编码 #11/315、Agentic #7/289 |
| 3.6-Max-Preview | $1.30/$7.80 | 3.6-Plus 仍在 top3 |
vs 上一代:输入价近翻倍、输出价略降;约为 Claude Opus 4.7 价目表的"一半"。⚠️ 推理 token 量极大(~97M),agent 场景实际账单可能远超单价直觉。C 端订阅价、真实 OpenRouter token 绝对量未找到(缺口)。
⑤ Benchmark
| 基准 | Qwen3.7-Max | 对照 / 来源 |
| AA Intelligence Index 三方 | 56.6(全球 #5) | 前代 51.8(+4.8);GPT-5.5 60.2 / Opus 4.7 57.3 |
| GPQA Diamond 自报 | 92.4 | Claude Opus 4.6 Max 91.3 |
| YC-Bench(创收)自报 | $2.08M | 前代 3.6-Plus $1.05M(约 2×) |
| AA-Omniscience 三方·反例 | 原始准确率跌 7.6pt(37.7→30.1%) | 尝试率 67.3%→48.0%(靠拒答降幻觉) |
⚠️ 关键陷阱:AA-Omniscience 分数提升部分来自"更爱说不知道"(拒答率升)而非知识增强——HN/AA 双方均点破。35h/10×/YC-Bench 等为厂商自报、未独立复现。