投研看板LLM 跟踪评价千问 3.7 Max
国内 · 阿里通义 · 代际评测

Qwen3.7-MaxvsQwen3.6-Max

2026-05-20 发布 · 闭源 / API-only 纯文本旗舰,主打长程自主 Agent
📅 看板更新 2026-06-15🟣 3.7-Max 发布 2026-05-20🟢 前代 3.6-Max-Preview(04-20)🔎 来源:AA三方+V2EX/HN/知乎实测

总览 · 一句话定论

Qwen3.7-Max 是阿里面向 Agent 时代的闭源纯文本旗舰,长程自主编程相对 3.6 有公认"飞跃式"提升、登顶最强国产并进入全球第一梯队尾部(AA #5),但跑分有效性遭多平台质疑、指令遵循/前端/冷门知识/性价比口碑两极

对标定论(vs 3.6-Max-Preview)

上下文256K → 1M
智能指数AA 51.8 → 56.6
长程 AgentYC-Bench 创收翻倍、35h 自主演示、社区公认明显优
知识/事实准确率AA-Omniscience 原始准确率下降,靠"拒答"粉饰幻觉率退步
定价输入价上涨、输出价持平,token 消耗大、实际成本恶化退步
开放性延续闭源 only持平

模型基本信息

维度🟣 Qwen3.7-Max🟢 Qwen3.6-Max-Preview(前代)
发布日期2026-05-20(阿里云峰会),5/21 上 OpenRouter2026-04-20
参数 / MoE未披露(官方+多家媒体均"not disclosed")三方称 ">1T MoE"
上下文1M256K
模态纯文本(无图像);多模态由同代 3.7-Plus 承担纯文本
开 / 闭源闭源 / API-only,无 HF 权重闭源(延续 3.6-Max 策略)
定价(in/out 每百万)列表 $2.50/$7.50;OpenRouter 限时 5 折 $1.25/$3.75$1.30/$7.80
缺口:参数/MoE 激活数官方从未披露;训练/数据/infra 无技术报告;是否会放开源权重仅传闻未证实。

创新技术(多为厂商自报)

实测口碑 核心模块

口碑两极分化:Agent/长程编程场景强(vs 3.6 提升被广泛承认);但指令遵循、前端、冷门知识、性价比遭实打实吐槽,跑分有效性被多平台质疑。抓取局限:知乎/IT之家 403、视频仅标题;可直读原话以 V2EX/HN 为主。

正面负面中性/混合
正面 / 实测
@cubecubeV2EX·可直读正面

"高强度用了一天,体感上和 glm-5.1 不相上下了。相对于 3.6 自主分析和解决能力飞跃。""中国人不骗中国人……和 glm5.1 不相上下"。槽点:价格与响应速度不如 Claude。

v2ex.com/t/1214878
刘聪NLP知乎·NLP KOL偏正面克制

编程工程能力"C+~B 档",前端审美较前代提升;吃豆人修复了前代"穿墙"逻辑 bug、《剑来》卡牌游戏流程更顺。

zhihu.com/answer/...
@goldenarmHacker News正面

"The non-hallucination rate in AA-omniscience is SOTA, better than Opus 4.7"。

HN item?id=48205626
负面 / 质疑
@skuuhuiV2EX强烈负面

"太垃圾了。指令遵循垃圾,推理能力也很差……编码水平充其量也就是 minimax2.7 水准。"

v2ex.com/t/1214878
刘聪NLP(短板)知乎三大短板

① 上下文逼近 100K 时幻觉上升、后段易忘开头约束;② Debug 能力只够用;③ 知识分布不均,冷门领域可能掉到 D 档。前端是短板

知乎(摘要转述)
@jampekka / @herozzmHN / V2EX跑分质疑

"幻觉率低=拒答多,非真本事";"x 上一堆吹 Qwen3.7max 的,还附各种测试图……什么超过 claude4.6"(疑营销刷量)。多名用户更愿用 DeepSeek V4 Pro。

HN 讨论

区分:实测翻车 vs 跑分质疑

商业化

模型定价(in/out 每百万)OpenRouter 排名
3.7-Max列表 $2.50/$7.50;现 5 折 $1.25/$3.75;支持 prompt caching智能 #8/378、编码 #11/315、Agentic #7/289
3.6-Max-Preview$1.30/$7.803.6-Plus 仍在 top3
vs 上一代:输入价近翻倍、输出价略降;约为 Claude Opus 4.7 价目表的"一半"。⚠️ 推理 token 量极大(~97M),agent 场景实际账单可能远超单价直觉。C 端订阅价、真实 OpenRouter token 绝对量未找到(缺口)。

Benchmark

基准Qwen3.7-Max对照 / 来源
AA Intelligence Index 三方56.6(全球 #5)前代 51.8(+4.8);GPT-5.5 60.2 / Opus 4.7 57.3
GPQA Diamond 自报92.4Claude Opus 4.6 Max 91.3
YC-Bench(创收)自报$2.08M前代 3.6-Plus $1.05M(约 2×)
AA-Omniscience 三方·反例原始准确率跌 7.6pt(37.7→30.1%)尝试率 67.3%→48.0%(靠拒答降幻觉)
⚠️ 关键陷阱:AA-Omniscience 分数提升部分来自"更爱说不知道"(拒答率升)而非知识增强——HN/AA 双方均点破。35h/10×/YC-Bench 等为厂商自报、未独立复现。