OpenAI 发布了 GPT-5.5,这是自 GPT-4.5 以来首个完全重新训练的基础模型,已在 ChatGPT 和 Codex 中面向 Plus、Pro、Business 和 Enterprise 用户推出。该模型旨在以有限的人工指导完成工作,并可在电子邮件、电子表格、日历和其他应用程序中运行。
OpenAI 表示,以往的模型需要精心设计的提示和多步骤的监督,而 GPT-5.5 可以处理 “混乱的多部分任务” ,并独立进行规划、使用工具、检查结果、应对歧义,并持续进行直至任务完成。
这些成果主要集中在四个领域:智能体编码、计算机使用、知识工作和早期科学研究。OpenAI 将这些领域描述为 “进步取决于跨上下文推理和随时间推移采取行动的领域”。
基准测试结果非常出色。GPT-5.5 在 Terminal-Bench 2.0 测试中达到了 82.7% 的准确率,该测试旨在评估需要规划、迭代和工具协调的复杂命令行工作流程。
在 SWE-Bench Pro 测试中,该测试评估了四种编程语言在 GitHub 上解决实际问题的能力,得分为 58.6%,一次测试解决的任务数量比之前的模型更多。
在 GDPval 测试中,该模型对 44 种知识型职业的智能体进行了测试,得分为 84.9%。在 OSWorld-Verified 测试中,该模型衡量其能否在真实的计算机环境中自主运行,得分为 78.7%。
在 Tau2-bench Telecom 测试中,GPT-5.5 无需快速调优即可达到 98.0% 的准确率。OpenAI 表示,在所有这些测试中,GPT-5.5 都比 GPT-5.4 的得分更高,同时使用的词元更少。
效率提升具有重要的商业意义。通常情况下,规模更大、功能更强大的模型响应速度较慢,这会给企业客户带来成本效益方面的权衡。OpenAI 表示,GPT-5.5 在实际应用中的单令牌延迟与 GPT-5.4 相当,这意味着它在提升智能水平的同时,并未增加响应时间。
此外,GPT-5.5 在 Codex 中完成同等任务所需的令牌数量也显著减少,这直接降低了企业部署的单项任务成本。GPT-5.5 的单令牌定价高于 GPT-5.4,但 OpenAI 表示,在大多数工作流程中,其最终结果是在总成本更低的情况下获得更好的结果。