国内 · 腾讯混元 · 代际评测
混元 Hy3 previewvsHy2 / TurboS
2026-04-23 发布并开源 · 姚顺雨领衔、"不卷参数、专攻 Agent 落地与性价比"
📅 看板更新 2026-06-15🟣 Hy3 preview 发布 2026-04-23🟢 前代 Hy2(2025-12)/ TurboS🔎 来源:官方+AA三方+钛媒体/InfoQ/Max Woolf实测
⚠️ 命名陷阱:媒体早期称"混元3.0/HY3.0",但官方最终采用 "Hy"品牌且发布的是 preview 预览版,正式版 HY3 尚未发布(计划态)。勿与文生图模型 HunyuanImage 3.0 混淆。OpenRouter 用量榜首被独立分析普遍认为是免费/低价驱动的价格套利,而非能力领先。
总览 · 一句话定论
混元 Hy3 preview(295B/21B MoE,开源)是腾讯重建 AI 基建后、姚顺雨领衔的首个语言模型,走"不卷参数、专攻 Agent 落地与极致性价比"路线——官方代际跑分跃升显著、OpenRouter 凭免费/低价冲到用量榜首,但独立评测(AA 仅 42 分、Max Woolf)一致认为其真实能力属中国模型中游、明显落后第一梯队闭源模型,榜单领先更像价格套利。
对标定论(vs Hy2/TurboS)
代码 / AgentSWE-bench 53→74.4、Terminal-Bench 23→54、BrowseComp 29→67全面优
推理效率+40%、首 token 延迟 -54%、最长 495 步 Agent 工作流优
上下文 / 开源→256K;开源策略(前代偏闭源)优
真实能力(三方)AA Index 仅 42、Max Woolf 评"中游、远逊 Opus4.7/GPT5.5"中游
创意/翻译/深度创意一板一眼、翻译术语不一致、事实核查缺风险标注弱项
① 模型基本信息
| 维度 | 🟣 Hy3 preview | 🟢 Hy2 / TurboS(前代) |
| 发布日期 | 2026-04-22/23 发布并开源 | Hy2:2025-12;TurboS:2025-02 |
| 架构 / 参数 | MoE,295B 总 / 21B 激活;192 专家 top-8;80 层 +1 MTP(3.8B) | TurboS:560B/56B,Hybrid-Mamba-Transformer |
| 上下文 | 256K(262,144) | — |
| 模态 | 纯文本(无多模态) | — |
| 开 / 闭源 | ✅ 开源 · Tencent Hy Community License(HF/ModelScope/GitCode) | Hy2 闭源为主 |
| 定价(腾讯云 TokenHub) | 输入 ¥1.2 / 输出 ¥4 每百万;发布后两周免费 | TurboS:¥0.8 / ¥2 |
领衔人:前 OpenAI 研究员姚顺雨(2025-12 任腾讯首席 AI 科学家),这是其在腾讯首个模型,定位"不卷参数、做听话打工人"(强调 in-context learning 与 agent 落地)。
② 创新技术(厂商自报为主)
- 基础设施重建:2025 下半年全面重组研发流程、重建预训练与 RL 基础设施,Hy3 preview 是重建后首个大模型,从重置到发布不到三个月。
- 快慢思考融合 MoE:支持三档推理强度(disabled/low/high),OpenRouter 确认可调。
- MTP 层 + 投机采样:1 个 3.8B MTP 层,服务推理效率。
- 效率指标:推理效率 +40%、首 token 延迟 -54%、端到端 -47%、可稳定驱动最长 495 步 Agent 工作流。厂商自报
③ 实测口碑 核心模块
官方跑分与真实上手存在明显落差:独立机构认为真实能力属中国模型中游、显著落后第一梯队;中文实测更认可其 Agent 稳定性/成本/结构化输出,但批评深度洞察、创意、翻译细节。抓取局限:知乎正文、AA/X 原帖因 403/402 付费墙仅得摘要;未找到 B站/公众号/小红书可引用一手内容。
正面负面中性/混合
中文媒体 / 社区
钛媒体公众号·实测专业谨慎
事实核查任务成功调用 5 信源交叉验证,但"收得多、核得少",缺主动风险标注;文档可视化生成符合财经标准的 HTML 仪表盘(自评 4.5/5)。结论"是信号而非结论"。
tmtpost.com/7964254
InfoQ媒体·实测正面偏务实
"用理性解决问题的帮手",研究报告信息搜集准确度不错、抽检数据符合出处。缺点:翻译部分词汇未翻、术语不一致、说话人识别错位;创意"一板一眼"。
infoq.cn
知乎专栏知乎·403标题正面
《实测 Hy3 preview 后我发现小看腾讯做大模型决心了》——正文 403 未抓取。
zhuanlan.zhihu.com(仅标题)
海外 KOL / 三方
Max Woolf(BuzzFeed 数据科学家)独立博客·实测榜首≠能力
"与其他中国产模型持平,远逊于 Claude Opus 4.7 和 GPT-5.5"。榜首主要靠价格($0.066/百万输入),并指若用 prompt 缓存,DeepSeek V4 Flash 反而更便宜。
minimaxir.com
Artificial Analysis三方·X(付费墙)42 分
Intelligence Index 仅 42 分,"trailing recent open weights peers";综合排名智能 #49/378。(原帖 402,分数建议人工复核)
x.com/ArtificialAnlys
HN / Gigazine论坛 / 媒体刷量质疑
HN 用户怀疑大客户刷量推高 token 数;Gigazine 指免费期造成榜首"可能被人为抬高",免费结束后仍居第二。
gigazine.net
实测 vs 跑分质疑
- 中文实测认可:Agent 稳定性、结构化输出、成本。
- 独立评测:真实能力中游,远逊第一梯队闭源。
- 弱项:创意/写作多样性、翻译细节、事实核查风险标注、深度产业洞察。
④ 商业化
| 项 | 内容 |
| API 定价 | 腾讯云 ¥1.2/¥4 每百万(约 $0.18/$0.59);OpenRouter $0.066/百万输入(含 free 版) |
| vs 上一代 | TurboS ¥0.8/¥2 → 单价更高但能力代差大、推理效率 +40%,定位从"快思考廉价"转向"中型 Agent 落地" |
| OpenRouter 用量 需打折看 | 官方称两周内总 token #1、代码 #1、工具调用 #1、份额 15.4%,单周 3.66T(+298%),连续三周榜首;但普遍认为是免费/低价套利 |
注:你的预判"混元主要走腾讯云、OpenRouter 可能没有"在本代不成立——Hy3 preview 因开源+免费策略反而在 OpenRouter 高调冲榜。
⑤ Benchmark
官方自报(Instruct 版,vs Hy2)厂商自报
| 基准 | Hy3 preview | Hy2(前代) |
| SWE-bench Verified | 74.4% | 53.0%(+21pt) |
| Terminal-Bench 2.0 | 54.4% | 23.2% |
| BrowseComp | 67.1% | 28.7% |
| LiveCodeBench-v6 | 34.86(偏低) | — |
独立分 与官方反差大
Artificial Analysis Intelligence Index:42 分,落后近期同类开源模型;综合 #49/378。Max Woolf 实测:真实能力中游、远逊 Opus 4.7/GPT-5.5。⚠️ Yahoo Tech 一处称 74.4% "above GLM-5 (77.8%)"自相矛盾(74.4<77.8),不可采信。官方称参数效率优于 DeepSeek-V3.2/Kimi-K2.5,属厂商口径。