OpenAI 发布 GPT-5.5：更高智商，更低成本，Codex 才是真正的战场

2026 年 4 月 23 日，OpenAI 正式发布 GPT-5.5。与以往模型升级不同，这次的核心定位并非「更会聊天」，而是「更能干活」——OpenAI 将其定义为「面向真实工作的新一类智能」，强调模型在理解复杂任务意图、跨工具持续执行、结果检查以及多步骤工作流中的能力提升。

发布重点：从「对话」转向「执行」

GPT-5.5 的核心变化在于任务执行能力的显著提升。此前的大语言模型在处理复杂任务时，通常需要用户将工作拆解为多个步骤逐一输入。GPT-5.5 则能够接收完整的、未经拆解的多步骤任务，自主完成规划、执行、检查与纠错的全流程。

这意味着 AI 的应用场景正在从「回答问题」向「完成工作」迁移。OpenAI 在官方公告中重点强调的四个方向——写代码、在线研究、数据分析、生成文档与表格——均为企业级高频工作场景。

基准测试全面领先

OpenAI 公布的基准测试数据显示，GPT-5.5 在多个维度上实现了可观提升：

Terminal-Bench 2.0：82.7%（GPT-5.4 为 75.1%），衡量复杂命令行流程的执行能力
SWE-Bench Pro：58.6%，评估真实 GitHub Issue 修复能力
OSWorld-Verified：78.7%，测试操作软件的能力
FrontierMath Tier 4（Pro 版本）：39.6%，面向高难度数学推理

更值得关注的不是分数本身，而是效率的优化。OpenAI 指出，GPT-5.5 在完成相同任务时消耗的 token 更少，这意味着更低的成本和更快的响应速度。第三方评测机构 Artificial Analysis 的 Coding Index 显示，GPT-5.5 的「智商成本比」约为竞品模型的一半。

在长周期编程任务方面，OpenAI 内部评估集 Expert-SWE 的数据更具说服力。该基准测试针对人类工程师中位数耗时 20 小时的复杂编程任务，GPT-5.5 达到 73.1%，高于 GPT-5.4 的 68.5%。实际测试者的反馈也印证了这一进展：Every 的 CEO Dan Shipper 将 GPT-5.5 描述为「第一个具备真正概念清晰度的编程模型」，Cursor 联合创始人 Michael Truell 则评价其「明显更聪明、更持久」。

Codex：从开发者工具到全员基础设施

这次发布中最值得关注的信号并非 ChatGPT 的升级，而是 Codex 在 OpenAI 内部的全面落地。

OpenAI 披露的数据显示，内部超过 85% 的员工每周使用 Codex，覆盖软件工程、财务、传播、市场、数据科学、产品管理等岗位。财务部门用它审阅税务材料，市场团队用它分析演讲需求，产品经理用它撰写文档——Codex 已经从「程序员辅助工具」演变为全公司的默认工作方式。

这一数据的行业意义在于：它验证了 AI Agent 在非技术部门的可行性。Anthropic 的 Claude Code 在开发者群体中获得良好口碑，但其使用场景仍集中于开发流程。OpenAI 试图通过 Codex 将 AI Agent 推向全员使用，格局和路径有着根本区别。

上线安排与 API 计划

GPT-5.5 即日起向 ChatGPT 和 Codex 的 Plus、Pro、Business、Enterprise 用户开放。GPT-5.5 Pro 版本面向 Pro、Business、Enterprise 用户。API 方面，OpenAI 表示由于需要额外的安全措施，正在与合作伙伴推进部署，「很快」将对外开放。

行业观察：AI 竞争进入「执行层」

GPT-5.5 并非 GPT-4 到 GPT-5 那样的代际跨越，但它清晰传递了一个行业信号：AI 模型的竞争维度正在发生转移。从比拼「谁的模型更聪明」——即知识问答和文本生成能力——转向比拼「谁的模型更能把活干完」——即多步骤任务执行和跨工具协同能力。

OpenAI 与 Anthropic 的竞争焦点，已经从聊天机器人转向 Agent 平台。对于开发者而言，Cursor、Windsurf 等 AI 编程工具预计将快速接入 GPT-5.5，实际体验的提升可能比 benchmark 数据更为直接。对于企业而言，Codex 的跨部门应用案例表明，AI Agent 的落地已具备可复用的方法论。

原文：OpenAI Introducing GPT-5.5