投研看板 › LLM 跟踪评价 › Kimi K2.7-Code vs GLM-5.2

投资研究 · 新模型追踪看板

Kimi K2.7-CodevsGLM-5.2

2026 年 6 月中旬国产开源大模型对标 · 五维综合对比（含实测口碑深挖）

📅 看板生成 2026-06-15 🟣 Kimi K2.7-Code 发布 06-12（月之暗面 Moonshot） 🟢 GLM-5.2 发布 06-13（智谱 Zhipu AI） 🔎 源自 130+ agent 多源检索 + 三票对抗式核验 + 5 路定向口碑挖掘

⚠️ 两个代际命名陷阱（看数时务必区分）： ① "Kimi 2.7" 的真身是编码专用变体 K2.7-Code，构建在 4 月发布的通用版 K2.6 之上 —— Artificial Analysis 的 #4/54 分、GDPval-AA Elo 1520 等独立分都属 K2.6，不能挂到 K2.7-Code 头上。 ② GLM-5.2 ≠ GLM-5 —— OpenRouter $0.60/$1.92、Intelligence Index 50 分、LMArena #1 开源都属 GLM-5（2 月发布）；GLM-5.2 自身发布时零基准、定价未公布。本看板每个数字都标注了代际与来源性质。

总览 · 一句话定论

综合多源实测（HN、X、独立评测者、中文公众号一手稿、B站、linux.do），两个模型走了截然不同的路线：GLM-5.2 在编码完成度/工程稳定性上领先、逼近 Opus 4.8，但慢；Kimi K2.7-Code 主打更快、思考 token 更省、前端视觉强，被普遍评为"提速不提智"。

对标定论（按维度判优）

综合编码完成度多源一致：GLM-5.2 真实项目（Unity/Ruby/全栈）完成度更高、稳定性更好GLM 占优

前端 / 视觉审美B站横评：Kimi 纯前端视觉效果突出；GLM 界面审美偏弱Kimi 占优

速度 / 延迟Kimi 砍 30% 思考 token、显著更快（独测约快一倍）；GLM 推理 30–60s、限流、被吐槽"慢/啰嗦"Kimi 占优

长上下文GLM 主打 1M（实测 ~400–500k 内可靠），Kimi 仅 256K；但 GLM 1M 满载无人独立验证GLM 占优待验证

性价比两者都极便宜；Kimi 约 Opus 1/3、GLM Coding Plan 约 Claude Max 1/10各有所长

多模态Kimi 含 MoonViT 视觉编码器（文/图/视频）；GLM-5.2 纯文本Kimi 占优

跑分可信度双方本代独立基准都缺：Kimi 全为自报、GLM 发布零基准。结论不应据厂商数字下均需打折

两条独立实测的横评结果（目前最可靠的一手信号）

🧪 ivanfioravanti（X，本地 LLM 实测者）

"Lunar Lander" 编程小游戏三模型对比

🥇 GLM-5.2
🥈 MiniMax M3
🥉 Kimi K2.7-Code（垫底）

🧪 AkitaOnRails（独立博客，Ruby 真实工程任务）

RubyLLM 集成 · A 级梯队

GLM-5.2：87/100（"全场最干净的依赖注入"），但最慢 43 分钟、被限流
Kimi K2.7：86/100，约 $0.30、快近一倍（22 分钟），但相对 K2.6 退步（不发系统提示）

本看板可复用：这是"新模型追踪看板"的模板实例。五个标签页（基本信息 / 创新技术 / 实测口碑 / 商业化 / Benchmark）即为固定字段结构，下次有新模型发布，按同样的栏目和来源标注体系填充即可。实测口碑（③）为核心模块，按渠道分组、标注情绪与原帖链接。

① 模型基本信息

参数规模、上下文、模态、开源协议、发布时间。Kimi 侧为高可信主源（HF 模型卡 / OpenRouter / 官网）；GLM-5.2 部分规格依赖中文二手媒体多源交叉（非一手技术报告）。

维度	🟣 Kimi K2.7-Code	🟢 GLM-5.2
定位	编码专用变体（构建于通用版 K2.6 之上）	通用 + 编码，主打"真正可用的 1M 上下文"
发布日期	2026-06-12	2026-06-13
架构	MoE · 1T 总参 / 32B 激活	MoE · 底层GLM-5系 744B 总参 / 40B 激活
专家配置	384 专家（8 选 1 + 1 共享）· 61 层 · MLA 注意力	256 专家 · DSA 稀疏注意力 + MLA
上下文长度	256K	1,000,000（输出上限 131,072）
模态	多模态 · MoonViT 400M 视觉编码器（文/图/视频，视频标注 experimental）	纯文本（无多模态）
开源 / 协议	✅ 开源 · Modified MIT（HF 已放出，约 595GB 磁盘）	计划 MIT 开源 · 权重"下周"放出（当前仅 Coding Plan 可用）
采样参数	固定 temp 1.0 / top_p 0.95（强制 thinking）	未特别约束
前代	K2.6（2026-04-20）/ K2.5	GLM-5（02-11）/ GLM-5.1

可信度：Kimi 架构（1T/32B、384 专家、61 层、256K）经 Moonshot 官网 + HF 模型卡 + MarkTechPost 多源核实（3-0）。GLM-5.2 上下文 1M / 输出 131072 经 models.dev + 多家中英媒体确认；但其底层是否仍为 744B/40B、5.2 相对 5.1 的具体改动 本轮未取得一手技术报告（见底部待解问题）。

② 创新技术（算法 / Infra / 数据）

两家本代的差异化技术卖点。Kimi 侧重推理效率工程化，GLM 侧重长上下文与稀疏注意力。

🟣 Kimi K2.7-Code

核心：推理效率 + 强制思考

强制 thinking 推理模式：模型卡硬编码 forces thinking / preserve_thinking = True；在 Kimi Code 内手动关闭会回退到 K2.6而非直接报错。
思考 token 砍约 30%：在保持/提升能力的同时显著降低 production agent loop 的推理开销 —— 这是被实测者（Handy AI）认可"真正解决成本问题"的点。
固定采样参数（temp 1.0 / top_p 0.95），降低调参不确定性。
继承 MoonViT 原生多模态（400M 视觉编码器）。
编码任务上据报道能写出真正手写的 Triton kernel（而非套库封装）。

🟢 GLM-5.2

核心：1M 长上下文 + 稀疏注意力

"真正可用的 1M 上下文"为官方主推升级（措辞强调"可用"而非仅"能塞下"）。
DSA（DeepSeek Sparse Attention）稀疏注意力 + MLA —— 来自底层 GLM-5 系技术栈（arxiv 技术报告逐字确认）。
Muon Split 优化器：按注意力头独立正交化 MLA 投影矩阵。
⚠️ 5.2 相对 5.1 的具体架构改动、1M 如何实现本轮未取得一手资料，"1M 可用"无数据背书，遭海外博客质疑。

来源性质：GLM-5 的 DSA/MLA/Muon Split 来自 arxiv 技术报告（高可信，但属底层 GLM-5 而非 5.2 专属）。"1M 可用"为官方话术，截至 6/15 无独立长上下文压测佐证。

③ 实测口碑核心模块

本看板的重点。按渠道分组（HN / X / 独立评测 / 公众号 / B站 / linux.do），区分"对模型本身的实测" vs "对厂商跑分的质疑"，每条标注情绪与原帖链接。抓取限制已诚实标注：Reddit 在本环境被拦截；linux.do / 知乎 / 小红书正文有登录墙，相关引述为搜索引擎索引摘要而非逐字原话。

正面负面中性/混合 ·　渠道标注于每条卡片右上

🟣 Kimi K2.7-Code 上手声音

pizlonatorHacker News正面

用 K2.7-Code 把一个 177KB 的 OpenSSL 补丁从 3.3.1 rebase 到 3.5.7，指令很少却完成了这种非平凡 rebase，整个 API 约 $5–$10。

news.ycombinator.com/item?id=48502347

nobleachHacker News正面

为 ZenC 生成 libpq 封装，称其推理"像工程师在白板上推演"，约 1 小时花 ~$4。但比 Claude 更啰嗦/解释型，Claude 更直接。

news.ycombinator.com/item?id=48502347

智东西 / 陈骏达微信公众号·一手正面

"一种更为果断的感受，过度思考反复自我质疑的问题少了很多"；复刻 macOS demo 有完整开机动画，"智能体小镇"文件架构清晰、分工合理。

智东西原文（网易转载）

智东西 / 陈骏达微信公众号·一手槽点

SVG 开机动画反复修改多次仍不理想，"和苹果 logo 没太大关系"；one-shot 生成有 bug、画面无法渲染需多轮迭代；"距 GPT-5.5、Opus 4.8 仍有差距"。

智东西原文

ivanfioravantiX / Twitter负面

"Lunar Lander" 编程小游戏三模型对比，K2.7 垫底（GLM-5.2 🥇 > MiniMax M3 🥈 > K2.7 🥉）。

x.com/ivanfioravanti

AkitaOnRails独立评测博客退步

Ruby 工程实测 86/100、约 $0.30、快近一倍；但不通过 with_instructions 发系统提示，相对 K2.6 是退步——"标榜 Code 专精版，却在通用版 K2.6 能处理的特性上退步"。

akitaonrails.com 全文

linux.do（摘要转述）linux.do混合

横评帖给 K2.7 打 75 分，"能力原地踏步（相比 K2.6 无大跃进），但速度明显更快"——"提速不提智"是论坛代表性定调。另有帖称"过度思考明显减少，不弱于 DSv4Pro"。

linux.do/t/topic/2389471 · 2390290

橘鸦JuyaB站 UP主差评

实测做完整落地页："开发耗时增加，没有明显惊艳的提升。"——目前对 K2.7 最直接的负面体感。

B站搜索"橘鸦Juya Kimi K2.7 Code"

AI随风随风B站·37万播放前端强

"GLM5.2 VS Kimi 2.7 Code"双任务横评：K2.7 在纯前端视觉效果（Canvas 火焰焚信动画）上表现突出；但全栈电商项目稳定性/完成度不及 GLM-5.2。

bilibili.com/video/BV1ecJp6zEzi

Handy AI / VentureBeat质疑·非实测跑分质疑

"K2.7 更诚实但并没更强（more honest but not more capable）"；自报跑分只对比 K2.6、回避对 Fable 5 的 SWE-Bench，"是刻意选择，不是疏忽"，不会用于高风险架构决策。

handyai.substack.com · VentureBeat

🟢 GLM-5.2 上手声音

ivanfioravantiX / Twitter正面·第一

"YES!!! GLM-5.2 is here! I loved 5.1!" 三模型编码对比中 GLM-5.2 拿第一（胜 MiniMax M3、Kimi K2.7）；用 Claude Code 复刻 Space Invaders 约用 2M tokens（含 cache）。

对比推文 · 实测推文

AkitaOnRails独立评测博客大跃升

Ruby 工程 87/100，A 级第 6 名，史上最大版本间跃升（GLM-5.1 仅 46 → 5.2 达 87）；"全场最干净的依赖注入"，API 用法对照源码零幻觉。

akitaonrails.com 全文

AkitaOnRails独立评测博客慢

A 级里最慢，耗时 43 分钟，因端点被限流（仅 12–55 tokens/秒）；状态存储无容量上限、重启即失效、多 worker 不安全。

akitaonrails.com 全文

硅星人Pro / 董道力微信公众号·一手正面

机械天文钟"第一发就一口气写完整整 900 行骨架"、首版可直接运行、能自主发现 bug 后重写；3D 点球守门员动作"参考西甲门将生物力学论文、每帧旋转方向数值验证"；实现 30+ 函数公式引擎、60 步撤销重做。

硅星人Pro原文（虎嗅转载）

硅星人Pro / 董道力微信公众号·一手槽点

执行节奏失衡——"14 分钟仅停留在设计讨论和零散代码阶段"，需手动触发"继续"才推进，易误以为卡死；界面审美偏弱；与 Claude 等顶尖模型"仍存在差距"。

硅星人Pro原文

linux.do 横评（摘要转述）linux.do第一梯队

Unity C# 真实项目横评：GLM-5.2 明确超过 Kimi K2.7 Code，成为当前最强国产模型，完成质量逼近 Opus 4.8；"跻身第一梯队，长任务表现尤好"。

linux.do/t/topic/2395506 · 2394670

linux.do "西游记后传"（摘要转述）linux.do啰嗦/死循环

代表性吐槽帖：推理链冗长、慢；会出现"模型自己意识到陷入死循环却跳不出来"，思考过程让人难受；不过最终产出和工具调用正常。

linux.do/t/topic/2395375

linux.do 1M 配置坑（摘要转述）linux.do需正确配置

要吃满 1M 须把模型名填成 glm-5.2[1m] 并把上下文压缩配到 80%，否则用不到 1M；实测 ~400–500k 内准确性/指令遵循与 Claude 差距不大、幻觉极低，但满 1M 无人验证。

linux.do/t/topic/2397628 · 2397962

省流评测B站不敌顶模

标题即结论："速度快、幻觉低、不扯淡，但 Coding 能力不敌顶模"——与论坛"第一梯队但不及 Opus/Fable 5"判断一致。

bilibili.com/video/BV1sxJs6cEMS

⚠️ 营销噪声预警小红书/公众号可信度打折

智谱发起"6/13–6/14 用 GLM-5.2 并在公众号/小红书/抖音晒体验抽 100 名送 1 月 Max"活动 —— 近两日小红书/公众号上的 GLM 正面"晒单"带奖励动机，原创实测可信度需显著打折。知乎多篇 zhuanlan（如"非常棒""测评汇总"）疑似 AI 营销软文。

甄别提示，非具体评测

实测共识小结

GLM-5.2 编码完成度/工程稳定性领先：X（ivanfioravanti #1）、独立博客（87 分大跃升）、linux.do（超 K2.7、逼近 Opus 4.8）、公众号（硅星人Pro 一手）多源方向一致。
GLM-5.2 的硬伤是慢：43 分钟/限流/30–60s 延迟/推理链冗长/偶发死循环，多源一致；界面审美弱、无多模态。
Kimi K2.7 的优势是快 + 省 token + 前端视觉：思考 token 砍 30%、独测快近一倍、B站认可前端审美。
Kimi K2.7 被评"提速不提智"：linux.do 75 分原地踏步、独立博客指其相对 K2.6 退步、X 实测垫底、B站"无惊艳提升"。
1M 上下文是 GLM 最大未验证点：~500k 内被验证可用，满 1M 截至 6/15 无任何独立压测。
抓取缺口：Reddit r/LocalLLaMA 一手帖因环境限制未取得；建议下周 GLM 开源权重落地后用带登录态浏览器补查 linux.do/知乎/小红书/Reddit 原文。

④ 商业化（定价 / 订阅 / 用量）

API 定价、订阅方案、相对上一代变化、OpenRouter 用量。⚠️ GLM-5.2 专属 API 价本轮未公布（"下周"上线），下表 GLM 的 OpenRouter 价为上一代 GLM-5。

API 价格对比（每百万 token，input / output）

模型	官方价	OpenRouter 价	备注
Kimi K2.7-Code	$0.95 / $4.00（缓存命中 $0.19）	$0.75 / $3.50	人民币约 6.5元 / 27元；缓存 1.3元。与 K2.6 同价。
Kimi K2.6（前代）	—	$0.68 / $3.41	一代前
GLM-5.2	下周上线	未上架	当前仅经 GLM Coding Plan 订阅分发
GLM-5（前代）	—	$0.60 / $1.92	一代前·GLM 系明显更便宜

GLM Coding Plan 订阅（GLM-5.2 当前主要分发方式）

套餐	价格	含 GLM-5/5.2	额度（社区实测）
Lite	¥49/月（年付≈¥34）	❌ 仅 GLM-4.7/4.6	—
Pro	¥149/月（年付≈¥104）	✅	5h 非高峰约 6000 万 token
Max	¥469/月（年付≈¥328）	✅	5h 约 2 亿 token、周上限约 10 亿，"够全职开发"

计费坑：高峰时段（北京时间 14:00–18:00）调用 ×3 计费、非高峰 ×2；1M 上下文打开后 token 消耗变快。
性价比口碑分歧：正面——"Claude Code 的体验，Claude Max 1/10 的价格"（博客园），Lite $18/月 vs Claude Max $100–200；反面——有博客实测认为真实可用量低于宣传、叠加海外访问/支付门槛后不一定强过 Claude Pro。
白嫖入口：社区（linux.do）反复提到 ZCode 3.0 可免费尝鲜（新用户每天约 300 万 token GLM-5.2 + 200 万 turbo，5 天试用）。

相对上一代变化

Kimi：K2.6 → K2.7-Code

价格持平 K2.6（标题"略微涨价"指相对更早版本）
思考 token 砍约 30% → 实际成本下降
预告 6 倍极速版 API（高速版约 180–260 Token/s）
随 KimiCode 套餐上线，并接入 opencode go 等第三方

GLM：GLM-5/5.1 → GLM-5.2

6/13 先向 Coding Plan 全量用户开放（Lite/Pro/Max/团队版）
API 与 MIT 开源权重"下周"上线计划态
兼容 Claude Code / Cline / Cursor / Roo Code 等 20+ 工具，仅换 API 端点
OpenRouter 实际用量/排名本轮未取得

OpenRouter 用量/排名：两家本代的真实用量与排名本轮均未核实到（待解问题）。仅确认 GLM 在 OpenRouter 上允许第三方 provider（含美国零数据留存 provider），开放策略优于多数中国闭源旗舰。

⑤ Benchmark

⚠️ 本代独立第三方分尚未沉淀：Kimi K2.7-Code 仅有厂商自报、GLM-5.2 发布即零基准。下方可比的独立分主要属一代前模型（K2.6 / GLM-5），务必按代际阅读。

独立第三方分（一代前 · 高可信）注意代际

模型	Artificial Analysis	LMArena	其它
Kimi K2.6（非 K2.7！）	Intelligence Index 54，排名 #4（落后 Anthropic/Google/OpenAI 的 57）	—	GDPval-AA agentic Elo 1520（vs K2.5 的 1309，大涨）
智谱 GLM-5（非 5.2！）	Intelligence Index v4.0 50，开源权重榜首	Text Arena & Code Arena 均 #1 开源模型	—

本代厂商自报分厂商自报·仅对比上一代

Kimi K2.7-Code 自报	分数（vs K2.6）
Kimi Code Bench v2	62.0 vs 50.9（+21.8%）
MLS Bench Lite	35.1 vs 26.7（+31.5%）
MCP Mark Verified	81.1 vs 72.8（+8.3%，注：部分二手源误标 +11.4%）
Program Bench	+11%（但绝对值 53.6，落后 GPT-5.5 的 69.1）

Kimi 自报的关键问题：三项跑分全为 Moonshot 自家闭源 benchmark、仅对比上一代、未提交 SWE-Bench / DeepSWE 等独立评测，回避对 Fable 5 / Opus 4.8 / GPT-5.5 的标准对比 —— 从业者据此质疑"benchmarks don't check out"。

GLM-5.2：发布即零基准，"真正可用 1M 上下文"无数据背书。发布一小时内 X 上主流反应即"where are the benchmarks?"。

独立横评中的本代相对位置（小样本，仅供参考）

GLM-5.2（AkitaOnRails Ruby）

87/100 · A级

慢43min

Kimi K2.7（AkitaOnRails Ruby）

86/100 · A级

快22min

GLM-5.1（同测·对照）

46/100

前代

ivanfioravanti 的 "Lunar Lander" 小游戏对比：GLM-5.2 🥇 > MiniMax M3 🥈 > Kimi K2.7 🥉。两项独测均指向 GLM-5.2 编码体感略优、Kimi 更快——但均为单人/小型测试，样本有限。

总览 · 一句话定论

对标定论（按维度判优）

两条独立实测的横评结果（目前最可靠的一手信号）

① 模型基本信息

② 创新技术（算法 / Infra / 数据）

③ 实测口碑 核心模块

实测共识小结

④ 商业化（定价 / 订阅 / 用量）

API 价格对比（每百万 token，input / output）

GLM Coding Plan 订阅（GLM-5.2 当前主要分发方式）

相对上一代变化

⑤ Benchmark

独立第三方分（一代前 · 高可信） 注意代际

本代厂商自报分 厂商自报·仅对比上一代

独立横评中的本代相对位置（小样本，仅供参考）

③ 实测口碑核心模块

独立第三方分（一代前 · 高可信）注意代际

本代厂商自报分厂商自报·仅对比上一代