OpenAI 发布 GPT-5.5:更高智商,更低成本,Codex 才是真正的战场

2026 年 4 月 23 日,OpenAI 正式发布 GPT-5.5。与以往模型升级不同,这次的核心定位并非「更会聊天」,而是「更能干活」——OpenAI 将其定义为「面向真实工作的新一类智能」,强调模型在理解复杂任务意图、跨工具持续执行、结果检查以及多步骤工作流中的能力提升。

发布重点:从「对话」转向「执行」

GPT-5.5 的核心变化在于任务执行能力的显著提升。此前的大语言模型在处理复杂任务时,通常需要用户将工作拆解为多个步骤逐一输入。GPT-5.5 则能够接收完整的、未经拆解的多步骤任务,自主完成规划、执行、检查与纠错的全流程。

这意味着 AI 的应用场景正在从「回答问题」向「完成工作」迁移。OpenAI 在官方公告中重点强调的四个方向——写代码、在线研究、数据分析、生成文档与表格——均为企业级高频工作场景。

基准测试全面领先

OpenAI 公布的基准测试数据显示,GPT-5.5 在多个维度上实现了可观提升:

  • Terminal-Bench 2.0:82.7%(GPT-5.4 为 75.1%),衡量复杂命令行流程的执行能力
  • SWE-Bench Pro:58.6%,评估真实 GitHub Issue 修复能力
  • OSWorld-Verified:78.7%,测试操作软件的能力
  • FrontierMath Tier 4(Pro 版本):39.6%,面向高难度数学推理

更值得关注的不是分数本身,而是效率的优化。OpenAI 指出,GPT-5.5 在完成相同任务时消耗的 token 更少,这意味着更低的成本和更快的响应速度。第三方评测机构 Artificial Analysis 的 Coding Index 显示,GPT-5.5 的「智商成本比」约为竞品模型的一半。

在长周期编程任务方面,OpenAI 内部评估集 Expert-SWE 的数据更具说服力。该基准测试针对人类工程师中位数耗时 20 小时的复杂编程任务,GPT-5.5 达到 73.1%,高于 GPT-5.4 的 68.5%。实际测试者的反馈也印证了这一进展:Every 的 CEO Dan Shipper 将 GPT-5.5 描述为「第一个具备真正概念清晰度的编程模型」,Cursor 联合创始人 Michael Truell 则评价其「明显更聪明、更持久」。

Codex:从开发者工具到全员基础设施

这次发布中最值得关注的信号并非 ChatGPT 的升级,而是 Codex 在 OpenAI 内部的全面落地。

OpenAI 披露的数据显示,内部超过 85% 的员工每周使用 Codex,覆盖软件工程、财务、传播、市场、数据科学、产品管理等岗位。财务部门用它审阅税务材料,市场团队用它分析演讲需求,产品经理用它撰写文档——Codex 已经从「程序员辅助工具」演变为全公司的默认工作方式。

这一数据的行业意义在于:它验证了 AI Agent 在非技术部门的可行性。Anthropic 的 Claude Code 在开发者群体中获得良好口碑,但其使用场景仍集中于开发流程。OpenAI 试图通过 Codex 将 AI Agent 推向全员使用,格局和路径有着根本区别。

上线安排与 API 计划

GPT-5.5 即日起向 ChatGPT 和 Codex 的 Plus、Pro、Business、Enterprise 用户开放。GPT-5.5 Pro 版本面向 Pro、Business、Enterprise 用户。API 方面,OpenAI 表示由于需要额外的安全措施,正在与合作伙伴推进部署,「很快」将对外开放。

行业观察:AI 竞争进入「执行层」

GPT-5.5 并非 GPT-4 到 GPT-5 那样的代际跨越,但它清晰传递了一个行业信号:AI 模型的竞争维度正在发生转移。从比拼「谁的模型更聪明」——即知识问答和文本生成能力——转向比拼「谁的模型更能把活干完」——即多步骤任务执行和跨工具协同能力。

OpenAI 与 Anthropic 的竞争焦点,已经从聊天机器人转向 Agent 平台。对于开发者而言,Cursor、Windsurf 等 AI 编程工具预计将快速接入 GPT-5.5,实际体验的提升可能比 benchmark 数据更为直接。对于企业而言,Codex 的跨部门应用案例表明,AI Agent 的落地已具备可复用的方法论。

原文:OpenAI Introducing GPT-5.5

分享您的喜爱

一条评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注