投研看板LLM 跟踪评价DeepSeek V4
国内 · 深度求索 DeepSeek · 代际评测

DeepSeek V4vsV3 / V3.2

2026-04-24 发布并开源(Pro + Flash 双款 MoE)· 以长上下文效率与系统重构为核心的代际升级
📅 看板更新 2026-06-15🟣 V4 发布 2026-04-24🟢 前代 V3(2024-12)/ V3.2🔎 来源:官方+AA三方+量子位/Simon Willison实测

总览 · 一句话定论

DeepSeek V4(1.6T/49B MoE,1M 上下文,MIT 开源)是一次以长上下文效率与工程系统重构为核心、而非跑分炸裂的代际升级——三方独立榜(AA Index 52、开源 #2)确较 V3.2 大幅前进,但 94% 的超高幻觉率、token 喷涌推高真实成本、Pro 明显涨价是投资视角必须盯住的负面信号。

对标定论(vs V3 / V3.2)

综合智能AA Index 42→52(+10,三方确认)V4 胜
长上下文/效率128K→1M;1M 下仅需 V3.2 的 27% FLOPs、10% KV 缓存V4 大胜
编程/agenticGDPval-AA 开源第一;中英实测认可建站/游戏能力V4 胜
知识可靠性幻觉率 94% 极高;自报 AIME 反低于 V3.2 已验证值含糊/可能退步
价格/性价比Pro 明显涨价 + token 量大;Flash 便宜但被质疑按参数折算"其实更贵"V4 退步
开源地位自称首个万亿级 MoE 全栈开源、最大开源权重模型V4 胜

模型基本信息

两款变体:V4-Pro(旗舰)与 V4-Flash(轻量)。规格高可信(官方+AA 一致)。

维度🟣 DeepSeek V4🟢 V3 / V3.2(前代)
发布日期2026-04-24 预览版上线并开源V3:2024-12;V3.2:2025 迭代
参数 / MoE 激活Pro:1.6T 总 / 49B 激活;Flash:284B / 13BV3:671B/37B;V3.2 约 685B
上下文原生 1M,最大输出 384K约 128K
模态纯文本(无原生多模态,AA 明确)纯文本
开源协议✅ MIT · Base+Instruct 全开源(约最大开源权重模型)MIT
旧名停用deepseek-chat/reasoner 旧名 2026-07-24 停用,过渡指向 V4-Flash
可信度:发布日/型号/规格经 DeepSeek API 文档 + 钛媒体转述官微 + AA 三方一致;官方 53 页技术报告原文未直读,GPQA/SWE 等自报分为二手转述。

创新技术

本代重心在长上下文推理效率与训练系统重构。

实测口碑 核心模块

中英文实测整体认可编程/建站能力,但推理稳定性、长文档精确计数、复杂应用生成是公认短板;社区对"低单价被 token 喷涌抵消"质疑突出。抓取局限:知乎多篇 403 登录墙、302.AI TLS 失败,相关条目为摘要转述。

正面负面中性/混合
中文渠道
量子位 QbitAI公众号·已读全文正面

编程"效果确实比预想中更好",打地鼠/宠物养成游戏能自动补全规则;"镜子举手"推理题答对超过 ChatGPT-5.5。"熟悉的 D 老师又回来了"。但"亲生父母结婚"题答不全被 ChatGPT 击败。

hub.baai.ac.cn/view/54272
302.AI 基准实验室摘要转述中性偏正

"从参数竞赛回归场景适配",建站/PPT 专业;翻车点:长文档计数错误(3 个标记只数出 1 个)、复杂 Web-Excel 生成白屏。

302.ai/blog(抓取失败-摘要)
知乎实测两篇知乎·403中性偏负

《没想象中好,但看在便宜的份上能忍》《不炸裂了,但在做更重要的事》——能力不及预期但价格可接受,重心转向长上下文/效率。

zhuanlan.zhihu.com(仅标题转述)
英文 / 工程师渠道
Simon Willison独立博客·已读全文中性偏正

"鹈鹕骑自行车"SVG 测试:Flash 反而比 Pro 好——"Excellent bicycle, even has a reflector";Pro 版鹈鹕"身体超大、只有一只翅膀"。称 V4-Pro 是"最大的开源权重模型",按自评落后 SOTA"约 3–6 个月"。

simonwillison.net/2026/apr/24/deepseek-v4
r/LocalLLaMA + X(latent.space 聚合)二手聚合质疑成本

1M 上下文被视为真正亮点;但"便宜的单 token 价不代表任务总成本低"——V4-Pro 跑一遍 AA 测试吐了 190M token;有工程师按参数折算认为"V4-Flash 其实更贵";架构"复杂到大多数实验室难以复现"。

latent.space AINews

实测共识

商业化

模型OpenRouter / 官方挂牌(in/out 每百万)备注
V4-Pro$0.435 / $0.87缓存可再省 60–80%;⚠️ AA 文章按其测试给 $1.74/$3.48,口径差约 4 倍(待解)
V4-Flash~$0.14 / $0.28部分页面输入 $0.09
V3.2(前代)更便宜跑一遍测试套件 $71 vs V4-Pro $1,071
相对上一代:V4-Pro 明显涨价(AA 直言"比 R1/V3 贵得多"),主因 token 消耗大 + 推理长思考;官方称下半年昇腾 950 超节点量产后 Pro 将大幅降价计划态OpenRouter 用量/排名:未找到 V4 的具体 token 量与排名(缺口)。

Benchmark

独立第三方 Artificial Analysis

基准V4 分数V3.2 对照
Intelligence IndexPro 52(开源 #2,仅次 Kimi K2.6=54);Flash 4742(+10)
GDPval-AA(agentic)Pro 1554(开源第一);Flash 1388
幻觉率(AA)Pro 94% / Flash 96%(不确定时编造)
LMArena综合 #5;编程 #3(1287);视觉 #7

厂商自报 / 单一追踪 未独立复现

SWE-bench VerifiedPro-Max 80.6%(llm-stats 单源称开源最高);V3.2 已验证基线 67.8%
GPQA DiamondPro-Max 90.1%(自报转述)
AIME 202587.5%(⚠️ 低于 V3.2 已验证 89.3,疑口径不同)
Macaron 等明确将 V4 一切跑分标为"仅内部声明",建议在第三方复现前以 V3.2 已验证分为基线。