国内 · 腾讯混元 · 代际评测

混元 Hy3 previewvsHy2 / TurboS

2026-04-23 发布并开源 · 姚顺雨领衔、"不卷参数、专攻 Agent 落地与性价比"

📅 看板更新 2026-06-15🟣 Hy3 preview 发布 2026-04-23🟢 前代 Hy2（2025-12）/ TurboS🔎 来源：官方+AA三方+钛媒体/InfoQ/Max Woolf实测

总览 · 一句话定论

混元 Hy3 preview（295B/21B MoE，开源）是腾讯重建 AI 基建后、姚顺雨领衔的首个语言模型，走"不卷参数、专攻 Agent 落地与极致性价比"路线——官方代际跑分跃升显著、OpenRouter 凭免费/低价冲到用量榜首，但独立评测（AA 仅 42 分、Max Woolf）一致认为其真实能力属中国模型中游、明显落后第一梯队闭源模型，榜单领先更像价格套利。

对标定论（vs Hy2/TurboS）

代码 / AgentSWE-bench 53→74.4、Terminal-Bench 23→54、BrowseComp 29→67全面优

推理效率+40%、首 token 延迟 -54%、最长 495 步 Agent 工作流优

上下文 / 开源→256K；开源策略（前代偏闭源）优

真实能力（三方）AA Index 仅 42、Max Woolf 评"中游、远逊 Opus4.7/GPT5.5"中游

创意/翻译/深度创意一板一眼、翻译术语不一致、事实核查缺风险标注弱项

① 模型基本信息

维度	🟣 Hy3 preview	🟢 Hy2 / TurboS（前代）
发布日期	2026-04-22/23 发布并开源	Hy2：2025-12；TurboS：2025-02
架构 / 参数	MoE，295B 总 / 21B 激活；192 专家 top-8；80 层 +1 MTP（3.8B）	TurboS：560B/56B，Hybrid-Mamba-Transformer
上下文	256K（262,144）	—
模态	纯文本（无多模态）	—
开 / 闭源	✅ 开源 · Tencent Hy Community License（HF/ModelScope/GitCode）	Hy2 闭源为主
定价（腾讯云 TokenHub）	输入 ¥1.2 / 输出 ¥4 每百万；发布后两周免费	TurboS：¥0.8 / ¥2

领衔人：前 OpenAI 研究员姚顺雨（2025-12 任腾讯首席 AI 科学家），这是其在腾讯首个模型，定位"不卷参数、做听话打工人"（强调 in-context learning 与 agent 落地）。

② 创新技术（厂商自报为主）

基础设施重建：2025 下半年全面重组研发流程、重建预训练与 RL 基础设施，Hy3 preview 是重建后首个大模型，从重置到发布不到三个月。
快慢思考融合 MoE：支持三档推理强度（disabled/low/high），OpenRouter 确认可调。
MTP 层 + 投机采样：1 个 3.8B MTP 层，服务推理效率。
效率指标：推理效率 +40%、首 token 延迟 -54%、端到端 -47%、可稳定驱动最长 495 步 Agent 工作流。厂商自报

③ 实测口碑核心模块

官方跑分与真实上手存在明显落差：独立机构认为真实能力属中国模型中游、显著落后第一梯队；中文实测更认可其 Agent 稳定性/成本/结构化输出，但批评深度洞察、创意、翻译细节。抓取局限：知乎正文、AA/X 原帖因 403/402 付费墙仅得摘要；未找到 B站/公众号/小红书可引用一手内容。

正面负面中性/混合

中文媒体 / 社区

钛媒体公众号·实测专业谨慎

事实核查任务成功调用 5 信源交叉验证，但"收得多、核得少"，缺主动风险标注；文档可视化生成符合财经标准的 HTML 仪表盘（自评 4.5/5）。结论"是信号而非结论"。

tmtpost.com/7964254

InfoQ媒体·实测正面偏务实

"用理性解决问题的帮手"，研究报告信息搜集准确度不错、抽检数据符合出处。缺点：翻译部分词汇未翻、术语不一致、说话人识别错位；创意"一板一眼"。

infoq.cn

知乎专栏知乎·403标题正面

《实测 Hy3 preview 后我发现小看腾讯做大模型决心了》——正文 403 未抓取。

zhuanlan.zhihu.com（仅标题）

SmallMainlinux.do·逐字(86赞)完成度 Tier 3

Unity C# 横评（42 模型同题）：Hy3 Preview 速度快（13 分钟，第 16 快），但完成度列最低的 Tier 3（"问题很多且无法编译，或存在不少幻觉"），与 Step-3.5/Mimo V2 同档——印证"快但能力中游偏弱"。

linux.do/t/topic/2395506

海外 KOL / 三方

Max Woolf（BuzzFeed 数据科学家）独立博客·实测榜首≠能力

"与其他中国产模型持平，远逊于 Claude Opus 4.7 和 GPT-5.5"。榜首主要靠价格（$0.066/百万输入），并指若用 prompt 缓存，DeepSeek V4 Flash 反而更便宜。

minimaxir.com

Artificial Analysis三方·X(付费墙)42 分

Intelligence Index 仅 42 分，"trailing recent open weights peers"；综合排名智能 #49/378。（原帖 402，分数建议人工复核）

x.com/ArtificialAnlys

HN / Gigazine论坛 / 媒体刷量质疑

HN 用户怀疑大客户刷量推高 token 数；Gigazine 指免费期造成榜首"可能被人为抬高"，免费结束后仍居第二。

gigazine.net

实测 vs 跑分质疑

中文实测认可：Agent 稳定性、结构化输出、成本。
独立评测：真实能力中游，远逊第一梯队闭源。
弱项：创意/写作多样性、翻译细节、事实核查风险标注、深度产业洞察。

④ 商业化

项	内容
API 定价	腾讯云 ¥1.2/¥4 每百万（约 $0.18/$0.59）；OpenRouter $0.066/百万输入（含 free 版）
vs 上一代	TurboS ¥0.8/¥2 → 单价更高但能力代差大、推理效率 +40%，定位从"快思考廉价"转向"中型 Agent 落地"
OpenRouter 用量需打折看	官方称两周内总 token #1、代码 #1、工具调用 #1、份额 15.4%，单周 3.66T（+298%），连续三周榜首；但普遍认为是免费/低价套利

注：你的预判"混元主要走腾讯云、OpenRouter 可能没有"在本代不成立——Hy3 preview 因开源+免费策略反而在 OpenRouter 高调冲榜。

⑤ Benchmark

官方自报（Instruct 版，vs Hy2）厂商自报

基准	Hy3 preview	Hy2（前代）
SWE-bench Verified	74.4%	53.0%（+21pt）
Terminal-Bench 2.0	54.4%	23.2%
BrowseComp	67.1%	28.7%
LiveCodeBench-v6	34.86（偏低）	—

独立分与官方反差大

Artificial Analysis Intelligence Index：42 分，落后近期同类开源模型；综合 #49/378。Max Woolf 实测：真实能力中游、远逊 Opus 4.7/GPT-5.5。⚠️ Yahoo Tech 一处称 74.4% "above GLM-5 (77.8%)"自相矛盾（74.4<77.8），不可采信。官方称参数效率优于 DeepSeek-V3.2/Kimi-K2.5，属厂商口径。