投研看板LLM 跟踪评价阶跃 Step 3.7 Flash
国内 · 阶跃星辰 StepFun · 代际评测

Step 3.7 FlashvsStep 3.5 Flash

2026-05-28/29 发布并开源(Apache 2.0)· "加多模态 + 提速 + Advisor 降本"的代际升级
📅 看板更新 2026-06-15🟣 3.7 Flash 发布 2026-05-28🟢 前代 3.5 Flash(02-02)🔎 来源:MarkTechPost三方+Flowtivity/302.AI/HN实测

总览 · 一句话定论

Step 3.7 Flash 是阶跃在 3.5 Flash 上"加多模态 + 提速 + Advisor 降本"的代际升级——把 Agent/工具调用的性价比做到国内开源第一梯队(速度 400tps、成本约 Claude 1/9),但纯 coding 实力与顶尖闭源仍有差距,真正瓶颈在开发者生态而非模型本身

对标定论(vs 3.5 Flash)

模态纯文本 → 原生多模态(图像/GUI/文档/图表)3.7 胜
速度~350 → 400–416 tps3.7 胜
Agent / 编码 benchmarkGDPval/Toolathlon/SWE 均显著提升3.7 胜
成本模式新增 Advisor 模式(单任务约 Claude Opus 1/9)3.7 胜
早期市场热度3.5 两天登顶 OpenRouter Trending;3.7 首周仅 566K token3.5 更亮眼

模型基本信息

维度🟣 Step 3.7 Flash🟢 Step 3.5 Flash(前代)
发布日期2026-05-28/292026-02-02
架构稀疏 MoE,196B 语言 + 1.8B ViT ≈ 198B,激活 ~11B稀疏 MoE,196B / 11B(纯文本)
上下文256K(3:1 滑窗 SWA)256K
模态原生多模态(图像/GUI/文档/图表)+ 联网视觉搜索纯文本
开 / 闭源✅ 开源 · Apache 2.0(可商用)开源(HF 有 Int4/GGUF)
吞吐 / 定价400–416 tps;输入 $0.20(cache $0.04)/ 输出 $1.15100–350 tps;官方价未找到

创新技术

实测口碑 核心模块

跑分亮眼(速度/性价比/Agent 工具调用),但纯 coding 能力被多方一致认为不及 Claude/顶尖模型;价值主张是"性价比前沿"而非"单点最强"。抓取局限:知乎 403、302.ai TLS、B站视频未取字幕。

正面负面中性/混合
海外 / 工程师
FlowtivityDGX Spark 本地部署·实测极正面

24h 内部署,IQ4_XS 下 ~27 tps、131K 上下文 prompt 处理 ~425 tps;工具调用 100% 成功率——"A 100% success rate ... is unprecedented""a generational leap in agent capability",取代 MiniMax M2.7 成主力。

flowtivity.ai
Hacker News论坛·混合混合

M1 Mac Studio 跑 Q4_K_S "very good 35 tps";有人盛赞上一代 3.5 "blown away""daily driver";亦有人吐槽官网"assumes I speak chinese"、英文化"half baked",国际可用性差。

HN item?id=48322451
国内
302.AI 基准实验室摘要转述不惊艳但顺手

标题"不惊艳但顺手,Agent 不用省着用了"。速度是最大亮点(几何题 10 秒、复杂任务 ~1.5 分钟),但"编程能力距顶尖模型仍有距离"。

302.ai/blog(TLS 失败-摘要)
知乎"目前最快的开源模型"知乎·403正面

核心卖点速度 400tps + 多模态,但承认 coding 与第一梯队有差距。

zhuanlan.zhihu.com(摘要)
每经网(专家田丰)媒体·批评生态缺口

"产品触达层与开发者生态仍存在系统性空缺,而非模型技术本身的落差";生态联盟"止步于硬件调试未落地规模化";发布一周周 Token 仅 566K(中等活跃)。

nbd.com.cn

实测 vs 跑分共识

商业化

内容
API 定价输入 $0.20(cache $0.04)/ 输出 $1.15——OpenRouter 评近期发布潮中输入价最低;Advisor 单任务 $0.19(vs Opus 4.6 $1.76,约 1/9)
vs 上一代3.7 新增多模态、提速至 400tps、引入 Advisor 成本模式;3.5 未找到明确公开价
OpenRouter 用量3.7 登 AA 榜速度/性价比/端到端三项第一;具体周 token 量/排名未找到,每经称首周仅 566K。3.5 发布两天即登顶 Trending。中国开源整体占 OpenRouter token >45%
生态短板相比智谱(CodeGeex+MaaS 注册 400 万)、MiniMax(企业客户超百万),阶跃缺乏用户粘性积累

Benchmark

基准Step 3.7 Flash3.5 Flash / 对照
SWE-Bench Pro 三方56.26%(第二,仅次 Opus 4 的 64.3)51.3%
SWE-bench Verified(+Advisor)自报76.3%74.4%
ClawEval-1.1 自报67.1(第一)43.6(DeepSeek V4 Flash 57.8 / Kimi K2.6 62.3)
GDPval / Toolathlon 自报45.8 / 49.528.0(+63%)/ 33.3(+48%)
视觉 V*95.3Gemini 3 Flash 96.3
多数代际增幅(GDPval +63%、Toolathlon +48%、ClawEval +54%)为厂商自报;独立第三方完整复测未找到。