国内 · 阶跃星辰 StepFun · 代际评测

Step 3.7 FlashvsStep 3.5 Flash

2026-05-28/29 发布并开源（Apache 2.0）· "加多模态 + 提速 + Advisor 降本"的代际升级

📅 看板更新 2026-06-15🟣 3.7 Flash 发布 2026-05-28🟢 前代 3.5 Flash（02-02）🔎 来源：MarkTechPost三方+Flowtivity/302.AI/HN实测

总览 · 一句话定论

Step 3.7 Flash 是阶跃在 3.5 Flash 上"加多模态 + 提速 + Advisor 降本"的代际升级——把 Agent/工具调用的性价比做到国内开源第一梯队（速度 400tps、成本约 Claude 1/9），但纯 coding 实力与顶尖闭源仍有差距，真正瓶颈在开发者生态而非模型本身。

对标定论（vs 3.5 Flash）

模态纯文本 → 原生多模态（图像/GUI/文档/图表）3.7 胜

速度~350 → 400–416 tps3.7 胜

Agent / 编码 benchmarkGDPval/Toolathlon/SWE 均显著提升3.7 胜

成本模式新增 Advisor 模式（单任务约 Claude Opus 1/9）3.7 胜

早期市场热度3.5 两天登顶 OpenRouter Trending；3.7 首周仅 566K token3.5 更亮眼

① 模型基本信息

维度	🟣 Step 3.7 Flash	🟢 Step 3.5 Flash（前代）
发布日期	2026-05-28/29	2026-02-02
架构	稀疏 MoE，196B 语言 + 1.8B ViT ≈ 198B，激活 ~11B	稀疏 MoE，196B / 11B（纯文本）
上下文	256K（3:1 滑窗 SWA）	256K
模态	原生多模态（图像/GUI/文档/图表）+ 联网视觉搜索	纯文本
开 / 闭源	✅ 开源 · Apache 2.0（可商用）	开源（HF 有 Int4/GGUF）
吞吐 / 定价	400–416 tps；输入 $0.20（cache $0.04）/ 输出 $1.15	100–350 tps；官方价未找到

② 创新技术

原生视觉编码器：196B 语言骨干 + 1.8B ViT，原生理解 UI/图表/文档（上一代纯文本）。
Advisor 模式（核心成本创新）：小模型做执行官跑任务流，仅在关键拐点"请教"大模型——以约 1/9 单任务成本实现 Claude Opus 4.6 编码能力的 97%。
跨 harness 一致性：3.5 在不同框架下波动 43–73%，3.7 收窄至 64.5–71.5%。
继承 3.5 的 3:1 SWA 长上下文 + MTP-3 多 token 预测加速。

③ 实测口碑核心模块

跑分亮眼（速度/性价比/Agent 工具调用），但纯 coding 能力被多方一致认为不及 Claude/顶尖模型；价值主张是"性价比前沿"而非"单点最强"。抓取局限：知乎 403、302.ai TLS、B站视频未取字幕。

正面负面中性/混合

海外 / 工程师

FlowtivityDGX Spark 本地部署·实测极正面

24h 内部署，IQ4_XS 下 ~27 tps、131K 上下文 prompt 处理 ~425 tps；工具调用 100% 成功率——"A 100% success rate ... is unprecedented""a generational leap in agent capability"，取代 MiniMax M2.7 成主力。

flowtivity.ai

Hacker News论坛·混合混合

M1 Mac Studio 跑 Q4_K_S "very good 35 tps"；有人盛赞上一代 3.5 "blown away""daily driver"；亦有人吐槽官网"assumes I speak chinese"、英文化"half baked"，国际可用性差。

HN item?id=48322451

国内

302.AI 基准实验室摘要转述不惊艳但顺手

标题"不惊艳但顺手，Agent 不用省着用了"。速度是最大亮点（几何题 10 秒、复杂任务 ~1.5 分钟），但"编程能力距顶尖模型仍有距离"。

302.ai/blog（TLS 失败-摘要）

知乎"目前最快的开源模型"知乎·403正面

核心卖点速度 400tps + 多模态，但承认 coding 与第一梯队有差距。

zhuanlan.zhihu.com（摘要）

每经网（专家田丰）媒体·批评生态缺口

"产品触达层与开发者生态仍存在系统性空缺，而非模型技术本身的落差"；生态联盟"止步于硬件调试未落地规模化"；发布一周周 Token 仅 566K（中等活跃）。

nbd.com.cn

实测 vs 跑分共识

速度/性价比/Agent 工具调用获一致好评。
纯 coding 不及 Claude/顶尖模型；国际化/英文体验"half baked"。
真正瓶颈在开发者生态与商业化（相比智谱/MiniMax 缺粘性）。

④ 商业化

项	内容
API 定价	输入 $0.20（cache $0.04）/ 输出 $1.15——OpenRouter 评近期发布潮中输入价最低；Advisor 单任务 $0.19（vs Opus 4.6 $1.76，约 1/9）
vs 上一代	3.7 新增多模态、提速至 400tps、引入 Advisor 成本模式；3.5 未找到明确公开价
OpenRouter 用量	3.7 登 AA 榜速度/性价比/端到端三项第一；具体周 token 量/排名未找到，每经称首周仅 566K。3.5 发布两天即登顶 Trending。中国开源整体占 OpenRouter token >45%
生态短板	相比智谱（CodeGeex+MaaS 注册 400 万）、MiniMax（企业客户超百万），阶跃缺乏用户粘性积累

⑤ Benchmark

基准	Step 3.7 Flash	3.5 Flash / 对照
SWE-Bench Pro 三方	56.26%（第二，仅次 Opus 4 的 64.3）	51.3%
SWE-bench Verified（+Advisor）自报	76.3%	74.4%
ClawEval-1.1 自报	67.1（第一）	43.6（DeepSeek V4 Flash 57.8 / Kimi K2.6 62.3）
GDPval / Toolathlon 自报	45.8 / 49.5	28.0（+63%）/ 33.3（+48%）
视觉 V*	95.3	Gemini 3 Flash 96.3

多数代际增幅（GDPval +63%、Toolathlon +48%、ClawEval +54%）为厂商自报；独立第三方完整复测未找到。