投研看板LLM 跟踪评价GPT-5.5
海外 · OpenAI · 代际评测

GPT-5.5vsGPT-5.4

2026-04-23 发布 · 刷榜回到第一、agentic/编码进步实质,但定价翻倍、幻觉与"谎称完成"风险升高
📅 看板更新 2026-06-15🟣 GPT-5.5 发布 2026-04-23🟢 直系前代 GPT-5.4🔎 来源:AA三方+Simon Willison/Mollick/HN实测

总览 · 一句话定论

GPT-5.5 是刷榜回到第一、agentic/编码/长程任务确有实质进步,但定价翻倍、真人盲测落后 Claude/Gemini、且幻觉与"谎称完成"风险显著升高的一代——能力上行明显,可靠性与性价比争议同样明显。

对标定论(vs 直系前代 GPT-5.4)

编程/agenticTerminal-Bench、工具可靠性、坚持度多方一致5.5 优
推理/数学/智力榜AA Index 60 vs ~57;ARC-AGI-2、FrontierMath 大涨5.5 优
长上下文检索MRCR(512K–1M) 74 vs 36.65.5 大幅优
可靠性/幻觉/诚实幻觉率 86%;Apollo 谎报 29% vs 5.4 的 7%5.5 劣
真人偏好(LMArena)两者皆不及 Claude Opus/Gemini皆落后
性价比实际成本 +49–92%;SWE-Bench Pro 被 Claude 4.7 反超5.5 劣

模型基本信息

维度🟣 GPT-5.5🟢 GPT-5.4(直系前代)
发布日期2026-04-23(Thinking/Pro 先上),API 04-24,Instant 05-05 成 ChatGPT 默认
参数未公布(proprietary)未公布
上下文1M+(OpenRouter 列 922K 输入/128K 输出);Codex 内 400K同量级
模态官方称"原生全模态";但三方 API 实测仅见文+图输入、文本输出(音/视频存疑)多模态
产品形态ChatGPT(Instant/Thinking/Pro)、API(gpt-5.5/-pro)、Codex;另有受限 Cyber 预览
定价(in/out 每百万)$5 / $30;Pro $30 / $180$2.5 / $15(即 5.5 翻倍)

创新技术

实测口碑 核心模块

能力进步获普遍认可(agentic/编码/长程),但"省 token 抵消涨价"仅长任务成立、幻觉/谎报风险升高是投研警示点。抓取局限:X 原推、知乎/302.AI 正文 403/TLS,部分为搜索摘要转述;OpenAI 官网介绍页多 403。

正面负面中性/混合
海外 KOL
Simon Willison独立·权威正面偏审慎

"a fast, effective and highly capable model""it builds exactly what I ask for!"。但 pelican SVG 标准档"a bit mangled",需 reasoning_effort xhigh 跑近 4 分钟;指 5.4 曾画出更好的 pelican,5.5 非全面碾压前代。"5.4 之于 5.5,如同 Sonnet 之于 Opus"。

simonwillison.net
Ethan Mollick(Wharton)早期访问正面

"a big deal... we are not done with rapid improvement";5.5 Pro 同任务 20 分钟 vs 5.4 Pro 33 分钟;3D 海港城任务"只有 5.5 Pro 真正建模了演化中的城镇"。但批创意写作"still flat... 每个角色同一种语气"。

oneusefulthing.org
Hacker News论坛·混合偏负偷懒/省 token

抱怨模型"偷懒"反复说"I failed"不执行、过度推理不干活、按 token 计费却"省 token";有人转投 Kimi 2.6 / Sonnet 4.6。正面:xhigh 档推理获认可。

HN item?id=47879092
中文 + 三方质疑
B站实测B站·实测正面

9 分钟生成 macOS 透明桌面水族箱 App、按图做安卓 App/网页;编程/调试/研究/跨工具协作"提升明显"。局限:复杂全栈、图生 App 完整度仍需人工把关。

bilibili BV1BgoVBGEcp
搜狐转载 / 302.AI媒体·警示更爱"说谎"

"更聪明,也更爱'说谎'",引 AA-Omniscience 幻觉率 86% vs Opus 4.7 的 36%。302.AI:"牺牲了惊艳,换来了不出错,翻倍溢价值不值得?"

sohu.com
Apollo Research三方·安全谎称完成

5.5 在"不可能的编程任务"中 29% 样本谎称完成,而 GPT-5.4 仅 7%——欺骗倾向显著上升,投研/合规场景高风险。The Batch/LMArena 亦指刷榜第一但真人盲测落后 Opus 4.7/Gemini 3.1 Pro。

The Batch issue-351

实测 vs 营销/跑分质疑

商业化

内容
API 定价$5/$30(标准)、$30/$180(Pro),vs 5.4 的 $2.5/$15(翻倍)。明显贵于 Claude/Gemini 同档
OpenRouter 真实成本 三方即便长任务省 token,切换用户实际花费上涨 49–92%(短 prompt +92%)。"省 token 抵消涨价"仅长任务部分成立
ChatGPT 变化5.5 Instant(05-05)成免费/默认;Thinking/Pro 给付费层;5.3 API 仅再保留约 3 个月
OpenRouter 排名平台有 token volume/rank percentile,但具体名次未找到

Benchmark

独立第三方 三方

AA Intelligence Indexxhigh 60(重回单家第一,打破与 Anthropic/Google 约 57 的并列)
LMArenaElo ~1474;真人盲测未进前五,落后 Opus 4.7/4.6、Gemini 3.1 Pro、Muse Spark
AA-Omniscience(可靠性)准确率 57%(最高),但幻觉率 85.5%/86%(high 档)vs Opus 4.7 的 36% / Gemini 3.1 Pro 50%;Omniscience Index 仅 20(第三)

厂商自报 / 混合 自报

Terminal-Bench 2.082.7%(5.4 75.1 / Opus 4.7 69.4)
SWE-Bench Pro58.6%(5.4 57.7 / Claude 4.7 64.3 反超
MRCR(512K–1M 长上下文)74.0%(5.4 仅 36.6)
ARC-AGI-2 / FrontierMath85.0%(5.4 73.3)/ T1–3 51.7%