投研看板 LLM 跟踪评价 Kimi K2.7-Code vs GLM-5.2
投资研究 · 新模型追踪看板

Kimi K2.7-CodevsGLM-5.2

2026 年 6 月中旬国产开源大模型对标 · 五维综合对比(含实测口碑深挖)
📅 看板生成 2026-06-15 🟣 Kimi K2.7-Code 发布 06-12(月之暗面 Moonshot) 🟢 GLM-5.2 发布 06-13(智谱 Zhipu AI) 🔎 源自 130+ agent 多源检索 + 三票对抗式核验 + 5 路定向口碑挖掘

总览 · 一句话定论

综合多源实测(HN、X、独立评测者、中文公众号一手稿、B站、linux.do),两个模型走了截然不同的路线:GLM-5.2 在编码完成度/工程稳定性上领先、逼近 Opus 4.8,但慢;Kimi K2.7-Code 主打更快、思考 token 更省、前端视觉强,被普遍评为"提速不提智"。

对标定论(按维度判优)

综合编码完成度多源一致:GLM-5.2 真实项目(Unity/Ruby/全栈)完成度更高、稳定性更好GLM 占优
前端 / 视觉审美B站横评:Kimi 纯前端视觉效果突出;GLM 界面审美偏弱Kimi 占优
速度 / 延迟Kimi 砍 30% 思考 token、显著更快(独测约快一倍);GLM 推理 30–60s、限流、被吐槽"慢/啰嗦"Kimi 占优
长上下文GLM 主打 1M(实测 ~400–500k 内可靠),Kimi 仅 256K;但 GLM 1M 满载无人独立验证GLM 占优待验证
性价比两者都极便宜;Kimi 约 Opus 1/3、GLM Coding Plan 约 Claude Max 1/10各有所长
多模态Kimi 含 MoonViT 视觉编码器(文/图/视频);GLM-5.2 纯文本Kimi 占优
跑分可信度双方本代独立基准都缺:Kimi 全为自报、GLM 发布零基准。结论不应据厂商数字下均需打折

两条独立实测的横评结果(目前最可靠的一手信号)

🧪 ivanfioravanti(X,本地 LLM 实测者)
"Lunar Lander" 编程小游戏三模型对比
  • 🥇 GLM-5.2
  • 🥈 MiniMax M3
  • 🥉 Kimi K2.7-Code(垫底)
🧪 AkitaOnRails(独立博客,Ruby 真实工程任务)
RubyLLM 集成 · A 级梯队
  • GLM-5.2:87/100("全场最干净的依赖注入"),但最慢 43 分钟、被限流
  • Kimi K2.7:86/100,约 $0.30、快近一倍(22 分钟),但相对 K2.6 退步(不发系统提示)
本看板可复用:这是"新模型追踪看板"的模板实例。五个标签页(基本信息 / 创新技术 / 实测口碑 / 商业化 / Benchmark)即为固定字段结构,下次有新模型发布,按同样的栏目和来源标注体系填充即可。实测口碑(③)为核心模块,按渠道分组、标注情绪与原帖链接。

模型基本信息

参数规模、上下文、模态、开源协议、发布时间。Kimi 侧为高可信主源(HF 模型卡 / OpenRouter / 官网);GLM-5.2 部分规格依赖中文二手媒体多源交叉(非一手技术报告)。

维度🟣 Kimi K2.7-Code🟢 GLM-5.2
定位编码专用变体(构建于通用版 K2.6 之上)通用 + 编码,主打"真正可用的 1M 上下文"
发布日期2026-06-122026-06-13
架构MoE · 1T 总参 / 32B 激活MoE · 底层GLM-5系 744B 总参 / 40B 激活
专家配置384 专家(8 选 1 + 1 共享)· 61 层 · MLA 注意力256 专家 · DSA 稀疏注意力 + MLA
上下文长度256K1,000,000(输出上限 131,072)
模态多模态 · MoonViT 400M 视觉编码器(文/图/视频,视频标注 experimental)纯文本(无多模态)
开源 / 协议✅ 开源 · Modified MIT(HF 已放出,约 595GB 磁盘)计划 MIT 开源 · 权重"下周"放出(当前仅 Coding Plan 可用)
采样参数固定 temp 1.0 / top_p 0.95(强制 thinking)未特别约束
前代K2.6(2026-04-20)/ K2.5GLM-5(02-11)/ GLM-5.1
可信度:Kimi 架构(1T/32B、384 专家、61 层、256K)经 Moonshot 官网 + HF 模型卡 + MarkTechPost 多源核实(3-0)。GLM-5.2 上下文 1M / 输出 131072 经 models.dev + 多家中英媒体确认;但其底层是否仍为 744B/40B、5.2 相对 5.1 的具体改动 本轮未取得一手技术报告(见底部待解问题)。

创新技术(算法 / Infra / 数据)

两家本代的差异化技术卖点。Kimi 侧重推理效率工程化,GLM 侧重长上下文与稀疏注意力。

🟣 Kimi K2.7-Code
核心:推理效率 + 强制思考
  • 强制 thinking 推理模式:模型卡硬编码 forces thinking / preserve_thinking = True;在 Kimi Code 内手动关闭会回退到 K2.6而非直接报错。
  • 思考 token 砍约 30%:在保持/提升能力的同时显著降低 production agent loop 的推理开销 —— 这是被实测者(Handy AI)认可"真正解决成本问题"的点。
  • 固定采样参数(temp 1.0 / top_p 0.95),降低调参不确定性。
  • 继承 MoonViT 原生多模态(400M 视觉编码器)。
  • 编码任务上据报道能写出真正手写的 Triton kernel(而非套库封装)。
🟢 GLM-5.2
核心:1M 长上下文 + 稀疏注意力
  • "真正可用的 1M 上下文"为官方主推升级(措辞强调"可用"而非仅"能塞下")。
  • DSA(DeepSeek Sparse Attention)稀疏注意力 + MLA —— 来自底层 GLM-5 系技术栈(arxiv 技术报告逐字确认)。
  • Muon Split 优化器:按注意力头独立正交化 MLA 投影矩阵。
  • ⚠️ 5.2 相对 5.1 的具体架构改动、1M 如何实现本轮未取得一手资料,"1M 可用"无数据背书,遭海外博客质疑。
来源性质:GLM-5 的 DSA/MLA/Muon Split 来自 arxiv 技术报告(高可信,但属底层 GLM-5 而非 5.2 专属)。"1M 可用"为官方话术,截至 6/15 无独立长上下文压测佐证。

实测口碑 核心模块

本看板的重点。按渠道分组(HN / X / 独立评测 / 公众号 / B站 / linux.do),区分"对模型本身的实测" vs "对厂商跑分的质疑",每条标注情绪与原帖链接。抓取限制已诚实标注:Reddit 在本环境被拦截;linux.do / 知乎 / 小红书正文有登录墙,相关引述为搜索引擎索引摘要而非逐字原话。

正面负面中性/混合 · 渠道标注于每条卡片右上
🟣 Kimi K2.7-Code 上手声音
pizlonatorHacker News正面

用 K2.7-Code 把一个 177KB 的 OpenSSL 补丁从 3.3.1 rebase 到 3.5.7,指令很少却完成了这种非平凡 rebase,整个 API 约 $5–$10。

news.ycombinator.com/item?id=48502347
nobleachHacker News正面

为 ZenC 生成 libpq 封装,称其推理"像工程师在白板上推演",约 1 小时花 ~$4。但比 Claude 更啰嗦/解释型,Claude 更直接。

news.ycombinator.com/item?id=48502347
智东西 / 陈骏达微信公众号·一手正面

"一种更为果断的感受,过度思考反复自我质疑的问题少了很多";复刻 macOS demo 有完整开机动画,"智能体小镇"文件架构清晰、分工合理。

智东西原文(网易转载)
智东西 / 陈骏达微信公众号·一手槽点

SVG 开机动画反复修改多次仍不理想,"和苹果 logo 没太大关系";one-shot 生成有 bug、画面无法渲染需多轮迭代;"距 GPT-5.5、Opus 4.8 仍有差距"。

智东西原文
ivanfioravantiX / Twitter负面

"Lunar Lander" 编程小游戏三模型对比,K2.7 垫底(GLM-5.2 🥇 > MiniMax M3 🥈 > K2.7 🥉)。

x.com/ivanfioravanti
AkitaOnRails独立评测博客退步

Ruby 工程实测 86/100、约 $0.30、快近一倍;但不通过 with_instructions 发系统提示,相对 K2.6 是退步——"标榜 Code 专精版,却在通用版 K2.6 能处理的特性上退步"。

akitaonrails.com 全文
linux.do(摘要转述)linux.do混合

横评帖给 K2.7 打 75 分,"能力原地踏步(相比 K2.6 无大跃进),但速度明显更快"——"提速不提智"是论坛代表性定调。另有帖称"过度思考明显减少,不弱于 DSv4Pro"。

linux.do/t/topic/2389471 · 2390290
橘鸦JuyaB站 UP主差评

实测做完整落地页:"开发耗时增加,没有明显惊艳的提升。"——目前对 K2.7 最直接的负面体感。

B站搜索"橘鸦Juya Kimi K2.7 Code"
AI随风随风B站·37万播放前端强

"GLM5.2 VS Kimi 2.7 Code"双任务横评:K2.7 在纯前端视觉效果(Canvas 火焰焚信动画)上表现突出;但全栈电商项目稳定性/完成度不及 GLM-5.2。

bilibili.com/video/BV1ecJp6zEzi
Handy AI / VentureBeat质疑·非实测跑分质疑

"K2.7 更诚实但并没更强(more honest but not more capable)";自报跑分只对比 K2.6、回避对 Fable 5 的 SWE-Bench,"是刻意选择,不是疏忽",不会用于高风险架构决策。

handyai.substack.com · VentureBeat
🟢 GLM-5.2 上手声音
ivanfioravantiX / Twitter正面·第一

"YES!!! GLM-5.2 is here! I loved 5.1!" 三模型编码对比中 GLM-5.2 拿第一(胜 MiniMax M3、Kimi K2.7);用 Claude Code 复刻 Space Invaders 约用 2M tokens(含 cache)。

对比推文 · 实测推文
AkitaOnRails独立评测博客大跃升

Ruby 工程 87/100,A 级第 6 名,史上最大版本间跃升(GLM-5.1 仅 46 → 5.2 达 87);"全场最干净的依赖注入",API 用法对照源码零幻觉。

akitaonrails.com 全文
AkitaOnRails独立评测博客

A 级里最慢,耗时 43 分钟,因端点被限流(仅 12–55 tokens/秒);状态存储无容量上限、重启即失效、多 worker 不安全。

akitaonrails.com 全文
硅星人Pro / 董道力微信公众号·一手正面

机械天文钟"第一发就一口气写完整整 900 行骨架"、首版可直接运行、能自主发现 bug 后重写;3D 点球守门员动作"参考西甲门将生物力学论文、每帧旋转方向数值验证";实现 30+ 函数公式引擎、60 步撤销重做。

硅星人Pro原文(虎嗅转载)
硅星人Pro / 董道力微信公众号·一手槽点

执行节奏失衡——"14 分钟仅停留在设计讨论和零散代码阶段",需手动触发"继续"才推进,易误以为卡死;界面审美偏弱;与 Claude 等顶尖模型"仍存在差距"。

硅星人Pro原文
linux.do 横评(摘要转述)linux.do第一梯队

Unity C# 真实项目横评:GLM-5.2 明确超过 Kimi K2.7 Code,成为当前最强国产模型,完成质量逼近 Opus 4.8;"跻身第一梯队,长任务表现尤好"。

linux.do/t/topic/2395506 · 2394670
linux.do "西游记后传"(摘要转述)linux.do啰嗦/死循环

代表性吐槽帖:推理链冗长、慢;会出现"模型自己意识到陷入死循环却跳不出来",思考过程让人难受;不过最终产出和工具调用正常。

linux.do/t/topic/2395375
linux.do 1M 配置坑(摘要转述)linux.do需正确配置

要吃满 1M 须把模型名填成 glm-5.2[1m] 并把上下文压缩配到 80%,否则用不到 1M;实测 ~400–500k 内准确性/指令遵循与 Claude 差距不大、幻觉极低,但满 1M 无人验证。

linux.do/t/topic/2397628 · 2397962
省流评测B站不敌顶模

标题即结论:"速度快、幻觉低、不扯淡,但 Coding 能力不敌顶模"——与论坛"第一梯队但不及 Opus/Fable 5"判断一致。

bilibili.com/video/BV1sxJs6cEMS
⚠️ 营销噪声预警小红书/公众号可信度打折

智谱发起"6/13–6/14 用 GLM-5.2 并在公众号/小红书/抖音晒体验抽 100 名送 1 月 Max"活动 —— 近两日小红书/公众号上的 GLM 正面"晒单"带奖励动机,原创实测可信度需显著打折。知乎多篇 zhuanlan(如"非常棒""测评汇总")疑似 AI 营销软文。

甄别提示,非具体评测

实测共识小结

商业化(定价 / 订阅 / 用量)

API 定价、订阅方案、相对上一代变化、OpenRouter 用量。⚠️ GLM-5.2 专属 API 价本轮未公布("下周"上线),下表 GLM 的 OpenRouter 价为上一代 GLM-5

API 价格对比(每百万 token,input / output)

模型官方价OpenRouter 价备注
Kimi K2.7-Code$0.95 / $4.00(缓存命中 $0.19)$0.75 / $3.50人民币约 6.5元 / 27元;缓存 1.3元。与 K2.6 同价。
Kimi K2.6(前代)$0.68 / $3.41一代前
GLM-5.2下周上线未上架当前仅经 GLM Coding Plan 订阅分发
GLM-5(前代)$0.60 / $1.92一代前·GLM 系明显更便宜

GLM Coding Plan 订阅(GLM-5.2 当前主要分发方式)

套餐价格含 GLM-5/5.2额度(社区实测)
Lite¥49/月(年付≈¥34)❌ 仅 GLM-4.7/4.6
Pro¥149/月(年付≈¥104)5h 非高峰约 6000 万 token
Max¥469/月(年付≈¥328)5h 约 2 亿 token、周上限约 10 亿,"够全职开发"
计费坑:高峰时段(北京时间 14:00–18:00)调用 ×3 计费、非高峰 ×2;1M 上下文打开后 token 消耗变快。
性价比口碑分歧:正面——"Claude Code 的体验,Claude Max 1/10 的价格"(博客园),Lite $18/月 vs Claude Max $100–200;反面——有博客实测认为真实可用量低于宣传、叠加海外访问/支付门槛后不一定强过 Claude Pro。
白嫖入口:社区(linux.do)反复提到 ZCode 3.0 可免费尝鲜(新用户每天约 300 万 token GLM-5.2 + 200 万 turbo,5 天试用)。

相对上一代变化

Kimi:K2.6 → K2.7-Code
  • 价格持平 K2.6(标题"略微涨价"指相对更早版本)
  • 思考 token 砍约 30% → 实际成本下降
  • 预告 6 倍极速版 API(高速版约 180–260 Token/s)
  • 随 KimiCode 套餐上线,并接入 opencode go 等第三方
GLM:GLM-5/5.1 → GLM-5.2
  • 6/13 先向 Coding Plan 全量用户开放(Lite/Pro/Max/团队版)
  • API 与 MIT 开源权重"下周"上线 计划态
  • 兼容 Claude Code / Cline / Cursor / Roo Code 等 20+ 工具,仅换 API 端点
  • OpenRouter 实际用量/排名本轮未取得
OpenRouter 用量/排名:两家本代的真实用量与排名本轮均未核实到(待解问题)。仅确认 GLM 在 OpenRouter 上允许第三方 provider(含美国零数据留存 provider),开放策略优于多数中国闭源旗舰。

Benchmark

⚠️ 本代独立第三方分尚未沉淀:Kimi K2.7-Code 仅有厂商自报、GLM-5.2 发布即零基准。下方可比的独立分主要属一代前模型(K2.6 / GLM-5),务必按代际阅读。

独立第三方分(一代前 · 高可信) 注意代际

模型Artificial AnalysisLMArena其它
Kimi K2.6(非 K2.7!)Intelligence Index 54,排名 #4(落后 Anthropic/Google/OpenAI 的 57)GDPval-AA agentic Elo 1520(vs K2.5 的 1309,大涨)
智谱 GLM-5(非 5.2!)Intelligence Index v4.0 50开源权重榜首Text Arena & Code Arena 均 #1 开源模型

本代厂商自报分 厂商自报·仅对比上一代

Kimi K2.7-Code 自报分数(vs K2.6)
Kimi Code Bench v262.0 vs 50.9(+21.8%
MLS Bench Lite35.1 vs 26.7(+31.5%)
MCP Mark Verified81.1 vs 72.8(+8.3%,注:部分二手源误标 +11.4%)
Program Bench+11%(但绝对值 53.6,落后 GPT-5.5 的 69.1)
Kimi 自报的关键问题:三项跑分全为 Moonshot 自家闭源 benchmark、仅对比上一代、未提交 SWE-Bench / DeepSWE 等独立评测,回避对 Fable 5 / Opus 4.8 / GPT-5.5 的标准对比 —— 从业者据此质疑"benchmarks don't check out"。

GLM-5.2:发布即零基准,"真正可用 1M 上下文"无数据背书。发布一小时内 X 上主流反应即"where are the benchmarks?"。

独立横评中的本代相对位置(小样本,仅供参考)

GLM-5.2(AkitaOnRails Ruby)
87/100 · A级
慢43min
Kimi K2.7(AkitaOnRails Ruby)
86/100 · A级
快22min
GLM-5.1(同测·对照)
46/100
前代
ivanfioravanti 的 "Lunar Lander" 小游戏对比:GLM-5.2 🥇 > MiniMax M3 🥈 > Kimi K2.7 🥉。两项独测均指向 GLM-5.2 编码体感略优、Kimi 更快——但均为单人/小型测试,样本有限。