Step 3.7 Flash 是阶跃在 3.5 Flash 上"加多模态 + 提速 + Advisor 降本"的代际升级——把 Agent/工具调用的性价比做到国内开源第一梯队(速度 400tps、成本约 Claude 1/9),但纯 coding 实力与顶尖闭源仍有差距,真正瓶颈在开发者生态而非模型本身。
| 维度 | 🟣 Step 3.7 Flash | 🟢 Step 3.5 Flash(前代) |
|---|---|---|
| 发布日期 | 2026-05-28/29 | 2026-02-02 |
| 架构 | 稀疏 MoE,196B 语言 + 1.8B ViT ≈ 198B,激活 ~11B | 稀疏 MoE,196B / 11B(纯文本) |
| 上下文 | 256K(3:1 滑窗 SWA) | 256K |
| 模态 | 原生多模态(图像/GUI/文档/图表)+ 联网视觉搜索 | 纯文本 |
| 开 / 闭源 | ✅ 开源 · Apache 2.0(可商用) | 开源(HF 有 Int4/GGUF) |
| 吞吐 / 定价 | 400–416 tps;输入 $0.20(cache $0.04)/ 输出 $1.15 | 100–350 tps;官方价未找到 |
跑分亮眼(速度/性价比/Agent 工具调用),但纯 coding 能力被多方一致认为不及 Claude/顶尖模型;价值主张是"性价比前沿"而非"单点最强"。抓取局限:知乎 403、302.ai TLS、B站视频未取字幕。
24h 内部署,IQ4_XS 下 ~27 tps、131K 上下文 prompt 处理 ~425 tps;工具调用 100% 成功率——"A 100% success rate ... is unprecedented""a generational leap in agent capability",取代 MiniMax M2.7 成主力。
flowtivity.aiM1 Mac Studio 跑 Q4_K_S "very good 35 tps";有人盛赞上一代 3.5 "blown away""daily driver";亦有人吐槽官网"assumes I speak chinese"、英文化"half baked",国际可用性差。
HN item?id=48322451标题"不惊艳但顺手,Agent 不用省着用了"。速度是最大亮点(几何题 10 秒、复杂任务 ~1.5 分钟),但"编程能力距顶尖模型仍有距离"。
302.ai/blog(TLS 失败-摘要)核心卖点速度 400tps + 多模态,但承认 coding 与第一梯队有差距。
zhuanlan.zhihu.com(摘要)"产品触达层与开发者生态仍存在系统性空缺,而非模型技术本身的落差";生态联盟"止步于硬件调试未落地规模化";发布一周周 Token 仅 566K(中等活跃)。
nbd.com.cn| 项 | 内容 |
|---|---|
| API 定价 | 输入 $0.20(cache $0.04)/ 输出 $1.15——OpenRouter 评近期发布潮中输入价最低;Advisor 单任务 $0.19(vs Opus 4.6 $1.76,约 1/9) |
| vs 上一代 | 3.7 新增多模态、提速至 400tps、引入 Advisor 成本模式;3.5 未找到明确公开价 |
| OpenRouter 用量 | 3.7 登 AA 榜速度/性价比/端到端三项第一;具体周 token 量/排名未找到,每经称首周仅 566K。3.5 发布两天即登顶 Trending。中国开源整体占 OpenRouter token >45% |
| 生态短板 | 相比智谱(CodeGeex+MaaS 注册 400 万)、MiniMax(企业客户超百万),阶跃缺乏用户粘性积累 |
| 基准 | Step 3.7 Flash | 3.5 Flash / 对照 |
|---|---|---|
| SWE-Bench Pro 三方 | 56.26%(第二,仅次 Opus 4 的 64.3) | 51.3% |
| SWE-bench Verified(+Advisor)自报 | 76.3% | 74.4% |
| ClawEval-1.1 自报 | 67.1(第一) | 43.6(DeepSeek V4 Flash 57.8 / Kimi K2.6 62.3) |
| GDPval / Toolathlon 自报 | 45.8 / 49.5 | 28.0(+63%)/ 33.3(+48%) |
| 视觉 V* | 95.3 | Gemini 3 Flash 96.3 |