DeepSeek V4(1.6T/49B MoE,1M 上下文,MIT 开源)是一次以长上下文效率与工程系统重构为核心、而非跑分炸裂的代际升级——三方独立榜(AA Index 52、开源 #2)确较 V3.2 大幅前进,但 94% 的超高幻觉率、token 喷涌推高真实成本、Pro 明显涨价是投资视角必须盯住的负面信号。
两款变体:V4-Pro(旗舰)与 V4-Flash(轻量)。规格高可信(官方+AA 一致)。
| 维度 | 🟣 DeepSeek V4 | 🟢 V3 / V3.2(前代) |
|---|---|---|
| 发布日期 | 2026-04-24 预览版上线并开源 | V3:2024-12;V3.2:2025 迭代 |
| 参数 / MoE 激活 | Pro:1.6T 总 / 49B 激活;Flash:284B / 13B | V3:671B/37B;V3.2 约 685B |
| 上下文 | 原生 1M,最大输出 384K | 约 128K |
| 模态 | 纯文本(无原生多模态,AA 明确) | 纯文本 |
| 开源协议 | ✅ MIT · Base+Instruct 全开源(约最大开源权重模型) | MIT |
| 旧名停用 | deepseek-chat/reasoner 旧名 2026-07-24 停用,过渡指向 V4-Flash | — |
本代重心在长上下文推理效率与训练系统重构。
中英文实测整体认可编程/建站能力,但推理稳定性、长文档精确计数、复杂应用生成是公认短板;社区对"低单价被 token 喷涌抵消"质疑突出。抓取局限:知乎多篇 403 登录墙、302.AI TLS 失败,相关条目为摘要转述。
编程"效果确实比预想中更好",打地鼠/宠物养成游戏能自动补全规则;"镜子举手"推理题答对超过 ChatGPT-5.5。"熟悉的 D 老师又回来了"。但"亲生父母结婚"题答不全被 ChatGPT 击败。
hub.baai.ac.cn/view/54272"从参数竞赛回归场景适配",建站/PPT 专业;翻车点:长文档计数错误(3 个标记只数出 1 个)、复杂 Web-Excel 生成白屏。
302.ai/blog(抓取失败-摘要)《没想象中好,但看在便宜的份上能忍》《不炸裂了,但在做更重要的事》——能力不及预期但价格可接受,重心转向长上下文/效率。
zhuanlan.zhihu.com(仅标题转述)"鹈鹕骑自行车"SVG 测试:Flash 反而比 Pro 好——"Excellent bicycle, even has a reflector";Pro 版鹈鹕"身体超大、只有一只翅膀"。称 V4-Pro 是"最大的开源权重模型",按自评落后 SOTA"约 3–6 个月"。
simonwillison.net/2026/apr/24/deepseek-v41M 上下文被视为真正亮点;但"便宜的单 token 价不代表任务总成本低"——V4-Pro 跑一遍 AA 测试吐了 190M token;有工程师按参数折算认为"V4-Flash 其实更贵";架构"复杂到大多数实验室难以复现"。
latent.space AINews| 模型 | OpenRouter / 官方挂牌(in/out 每百万) | 备注 |
|---|---|---|
| V4-Pro | $0.435 / $0.87 | 缓存可再省 60–80%;⚠️ AA 文章按其测试给 $1.74/$3.48,口径差约 4 倍(待解) |
| V4-Flash | ~$0.14 / $0.28 | 部分页面输入 $0.09 |
| V3.2(前代) | 更便宜 | 跑一遍测试套件 $71 vs V4-Pro $1,071 |
| 基准 | V4 分数 | V3.2 对照 |
|---|---|---|
| Intelligence Index | Pro 52(开源 #2,仅次 Kimi K2.6=54);Flash 47 | 42(+10) |
| GDPval-AA(agentic) | Pro 1554(开源第一);Flash 1388 | — |
| 幻觉率(AA) | Pro 94% / Flash 96%(不确定时编造) | — |
| LMArena | 综合 #5;编程 #3(1287);视觉 #7 | — |
| SWE-bench Verified | Pro-Max 80.6%(llm-stats 单源称开源最高);V3.2 已验证基线 67.8% |
| GPQA Diamond | Pro-Max 90.1%(自报转述) |
| AIME 2025 | 87.5%(⚠️ 低于 V3.2 已验证 89.3,疑口径不同) |