投研看板LLM 跟踪评价腾讯混元 Hy3
国内 · 腾讯混元 · 代际评测

混元 Hy3 previewvsHy2 / TurboS

2026-04-23 发布并开源 · 姚顺雨领衔、"不卷参数、专攻 Agent 落地与性价比"
📅 看板更新 2026-06-15🟣 Hy3 preview 发布 2026-04-23🟢 前代 Hy2(2025-12)/ TurboS🔎 来源:官方+AA三方+钛媒体/InfoQ/Max Woolf实测

总览 · 一句话定论

混元 Hy3 preview(295B/21B MoE,开源)是腾讯重建 AI 基建后、姚顺雨领衔的首个语言模型,走"不卷参数、专攻 Agent 落地与极致性价比"路线——官方代际跑分跃升显著、OpenRouter 凭免费/低价冲到用量榜首,但独立评测(AA 仅 42 分、Max Woolf)一致认为其真实能力属中国模型中游、明显落后第一梯队闭源模型,榜单领先更像价格套利

对标定论(vs Hy2/TurboS)

代码 / AgentSWE-bench 53→74.4、Terminal-Bench 23→54、BrowseComp 29→67全面优
推理效率+40%、首 token 延迟 -54%、最长 495 步 Agent 工作流
上下文 / 开源→256K;开源策略(前代偏闭源)
真实能力(三方)AA Index 仅 42、Max Woolf 评"中游、远逊 Opus4.7/GPT5.5"中游
创意/翻译/深度创意一板一眼、翻译术语不一致、事实核查缺风险标注弱项

模型基本信息

维度🟣 Hy3 preview🟢 Hy2 / TurboS(前代)
发布日期2026-04-22/23 发布并开源Hy2:2025-12;TurboS:2025-02
架构 / 参数MoE,295B 总 / 21B 激活;192 专家 top-8;80 层 +1 MTP(3.8B)TurboS:560B/56B,Hybrid-Mamba-Transformer
上下文256K(262,144)
模态纯文本(无多模态)
开 / 闭源✅ 开源 · Tencent Hy Community License(HF/ModelScope/GitCode)Hy2 闭源为主
定价(腾讯云 TokenHub)输入 ¥1.2 / 输出 ¥4 每百万;发布后两周免费TurboS:¥0.8 / ¥2
领衔人:前 OpenAI 研究员姚顺雨(2025-12 任腾讯首席 AI 科学家),这是其在腾讯首个模型,定位"不卷参数、做听话打工人"(强调 in-context learning 与 agent 落地)。

创新技术(厂商自报为主)

实测口碑 核心模块

官方跑分与真实上手存在明显落差:独立机构认为真实能力属中国模型中游、显著落后第一梯队;中文实测更认可其 Agent 稳定性/成本/结构化输出,但批评深度洞察、创意、翻译细节。抓取局限:知乎正文、AA/X 原帖因 403/402 付费墙仅得摘要;未找到 B站/公众号/小红书可引用一手内容。

正面负面中性/混合
中文媒体 / 社区
钛媒体公众号·实测专业谨慎

事实核查任务成功调用 5 信源交叉验证,但"收得多、核得少",缺主动风险标注;文档可视化生成符合财经标准的 HTML 仪表盘(自评 4.5/5)。结论"是信号而非结论"。

tmtpost.com/7964254
InfoQ媒体·实测正面偏务实

"用理性解决问题的帮手",研究报告信息搜集准确度不错、抽检数据符合出处。缺点:翻译部分词汇未翻、术语不一致、说话人识别错位;创意"一板一眼"。

infoq.cn
知乎专栏知乎·403标题正面

《实测 Hy3 preview 后我发现小看腾讯做大模型决心了》——正文 403 未抓取。

zhuanlan.zhihu.com(仅标题)
海外 KOL / 三方
Max Woolf(BuzzFeed 数据科学家)独立博客·实测榜首≠能力

"与其他中国产模型持平,远逊于 Claude Opus 4.7 和 GPT-5.5"。榜首主要靠价格($0.066/百万输入),并指若用 prompt 缓存,DeepSeek V4 Flash 反而更便宜。

minimaxir.com
Artificial Analysis三方·X(付费墙)42 分

Intelligence Index 仅 42 分,"trailing recent open weights peers";综合排名智能 #49/378。(原帖 402,分数建议人工复核)

x.com/ArtificialAnlys
HN / Gigazine论坛 / 媒体刷量质疑

HN 用户怀疑大客户刷量推高 token 数;Gigazine 指免费期造成榜首"可能被人为抬高",免费结束后仍居第二。

gigazine.net

实测 vs 跑分质疑

商业化

内容
API 定价腾讯云 ¥1.2/¥4 每百万(约 $0.18/$0.59);OpenRouter $0.066/百万输入(含 free 版)
vs 上一代TurboS ¥0.8/¥2 → 单价更高但能力代差大、推理效率 +40%,定位从"快思考廉价"转向"中型 Agent 落地"
OpenRouter 用量 需打折看官方称两周内总 token #1、代码 #1、工具调用 #1、份额 15.4%,单周 3.66T(+298%),连续三周榜首;但普遍认为是免费/低价套利
注:你的预判"混元主要走腾讯云、OpenRouter 可能没有"在本代不成立——Hy3 preview 因开源+免费策略反而在 OpenRouter 高调冲榜。

Benchmark

官方自报(Instruct 版,vs Hy2)厂商自报

基准Hy3 previewHy2(前代)
SWE-bench Verified74.4%53.0%(+21pt)
Terminal-Bench 2.054.4%23.2%
BrowseComp67.1%28.7%
LiveCodeBench-v634.86(偏低)

独立分 与官方反差大

Artificial Analysis Intelligence Index:42 分,落后近期同类开源模型;综合 #49/378。Max Woolf 实测:真实能力中游、远逊 Opus 4.7/GPT-5.5。⚠️ Yahoo Tech 一处称 74.4% "above GLM-5 (77.8%)"自相矛盾(74.4<77.8),不可采信。官方称参数效率优于 DeepSeek-V3.2/Kimi-K2.5,属厂商口径。