国内 · 深度求索 DeepSeek · 代际评测

DeepSeek V4vsV3 / V3.2

2026-04-24 发布并开源（Pro + Flash 双款 MoE）· 以长上下文效率与系统重构为核心的代际升级

📅 看板更新 2026-06-15🟣 V4 发布 2026-04-24🟢 前代 V3（2024-12）/ V3.2🔎 来源：官方+AA三方+量子位/Simon Willison实测

总览 · 一句话定论

DeepSeek V4（1.6T/49B MoE，1M 上下文，MIT 开源）是一次以长上下文效率与工程系统重构为核心、而非跑分炸裂的代际升级——三方独立榜（AA Index 52、开源 #2）确较 V3.2 大幅前进，但 94% 的超高幻觉率、token 喷涌推高真实成本、Pro 明显涨价是投资视角必须盯住的负面信号。

对标定论（vs V3 / V3.2）

综合智能AA Index 42→52（+10，三方确认）V4 胜

长上下文/效率128K→1M；1M 下仅需 V3.2 的 27% FLOPs、10% KV 缓存V4 大胜

编程/agenticGDPval-AA 开源第一；中英实测认可建站/游戏能力V4 胜

知识可靠性幻觉率 94% 极高；自报 AIME 反低于 V3.2 已验证值含糊/可能退步

价格/性价比Pro 明显涨价 + token 量大；Flash 便宜但被质疑按参数折算"其实更贵"V4 退步

开源地位自称首个万亿级 MoE 全栈开源、最大开源权重模型V4 胜

① 模型基本信息

两款变体：V4-Pro（旗舰）与 V4-Flash（轻量）。规格高可信（官方+AA 一致）。

维度	🟣 DeepSeek V4	🟢 V3 / V3.2（前代）
发布日期	2026-04-24 预览版上线并开源	V3：2024-12；V3.2：2025 迭代
参数 / MoE 激活	Pro：1.6T 总 / 49B 激活；Flash：284B / 13B	V3：671B/37B；V3.2 约 685B
上下文	原生 1M，最大输出 384K	约 128K
模态	纯文本（无原生多模态，AA 明确）	纯文本
开源协议	✅ MIT · Base+Instruct 全开源（约最大开源权重模型）	MIT
旧名停用	deepseek-chat/reasoner 旧名 2026-07-24 停用，过渡指向 V4-Flash	—

可信度：发布日/型号/规格经 DeepSeek API 文档 + 钛媒体转述官微 + AA 三方一致；官方 53 页技术报告原文未直读，GPQA/SWE 等自报分为二手转述。

② 创新技术

本代重心在长上下文推理效率与训练系统重构。

混合注意力：Compressed Sparse Attention (CSA) + Heavily Compressed Attention (HCA)；Flash 部分层用滑动窗口替代 HCA。
Manifold-Constrained Hyper-Connections (mHC)：流形约束超连接，新结构。
Muon 优化器：更快收敛、更稳训练；保留 V3 的 DeepSeekMoE 框架 + Multi-Token Prediction (MTP)。
长上下文效率：1M 上下文下 Pro 仅需 V3.2 的 27% FLOPs、10% KV 缓存（Simon Willison 亦引用）。
国产算力适配：针对华为昇腾验证细粒度专家并行、自研 MegaMoE2 融合内核，昇腾上 1.5–1.7x 推理加速。
"Engram 条件记忆技术"仅见 SEO 聚合站，主源未证实，存疑。

③ 实测口碑核心模块

中英文实测整体认可编程/建站能力，但推理稳定性、长文档精确计数、复杂应用生成是公认短板；社区对"低单价被 token 喷涌抵消"质疑突出。抓取局限：知乎多篇 403 登录墙、302.AI TLS 失败，相关条目为摘要转述。

正面负面中性/混合

中文渠道

量子位 QbitAI公众号·已读全文正面

编程"效果确实比预想中更好"，打地鼠/宠物养成游戏能自动补全规则；"镜子举手"推理题答对超过 ChatGPT-5.5。"熟悉的 D 老师又回来了"。但"亲生父母结婚"题答不全被 ChatGPT 击败。

hub.baai.ac.cn/view/54272

302.AI 基准实验室摘要转述中性偏正

"从参数竞赛回归场景适配"，建站/PPT 专业；翻车点：长文档计数错误（3 个标记只数出 1 个）、复杂 Web-Excel 生成白屏。

302.ai/blog（抓取失败-摘要）

知乎实测两篇知乎·403中性偏负

《没想象中好，但看在便宜的份上能忍》《不炸裂了，但在做更重要的事》——能力不及预期但价格可接受，重心转向长上下文/效率。

zhuanlan.zhihu.com（仅标题转述）

英文 / 工程师渠道

Simon Willison独立博客·已读全文中性偏正

"鹈鹕骑自行车"SVG 测试：Flash 反而比 Pro 好——"Excellent bicycle, even has a reflector"；Pro 版鹈鹕"身体超大、只有一只翅膀"。称 V4-Pro 是"最大的开源权重模型"，按自评落后 SOTA"约 3–6 个月"。

simonwillison.net/2026/apr/24/deepseek-v4

r/LocalLLaMA + X（latent.space 聚合）二手聚合质疑成本

1M 上下文被视为真正亮点；但"便宜的单 token 价不代表任务总成本低"——V4-Pro 跑一遍 AA 测试吐了 190M token；有工程师按参数折算认为"V4-Flash 其实更贵"；架构"复杂到大多数实验室难以复现"。

latent.space AINews

实测共识

对模型本身：编程/建站能力获普遍好评。
短板：推理稳定性、长文档精确计数、复杂应用生成。
对厂商：94%/96% 超高幻觉率（AA 三方实测）+ "token 喷涌"抵消低单价。

④ 商业化

模型	OpenRouter / 官方挂牌（in/out 每百万）	备注
V4-Pro	$0.435 / $0.87	缓存可再省 60–80%；⚠️ AA 文章按其测试给 $1.74/$3.48，口径差约 4 倍（待解）
V4-Flash	~$0.14 / $0.28	部分页面输入 $0.09
V3.2（前代）	更便宜	跑一遍测试套件 $71 vs V4-Pro $1,071

相对上一代：V4-Pro 明显涨价（AA 直言"比 R1/V3 贵得多"），主因 token 消耗大 + 推理长思考；官方称下半年昇腾 950 超节点量产后 Pro 将大幅降价计划态。OpenRouter 用量/排名：未找到 V4 的具体 token 量与排名（缺口）。

⑤ Benchmark

独立第三方 Artificial Analysis

基准	V4 分数	V3.2 对照
Intelligence Index	Pro 52（开源 #2，仅次 Kimi K2.6=54）；Flash 47	42（+10）
GDPval-AA（agentic）	Pro 1554（开源第一）；Flash 1388	—
幻觉率（AA）	Pro 94% / Flash 96%（不确定时编造）	—
LMArena	综合 #5；编程 #3（1287）；视觉 #7	—

厂商自报 / 单一追踪未独立复现

SWE-bench Verified	Pro-Max 80.6%（llm-stats 单源称开源最高）；V3.2 已验证基线 67.8%
GPQA Diamond	Pro-Max 90.1%（自报转述）
AIME 2025	87.5%（⚠️ 低于 V3.2 已验证 89.3，疑口径不同）

Macaron 等明确将 V4 一切跑分标为"仅内部声明"，建议在第三方复现前以 V3.2 已验证分为基线。