OpenAI 发布了 GPT-5.5，这是自 GPT-4.5 以来首个完全重新训练的基础模型

OpenAI 发布了 GPT-5.5，这是自 GPT-4.5 以来首个完全重新训练的基础模型，已在 ChatGPT 和 Codex 中面向 Plus、Pro、Business 和 Enterprise 用户推出。该模型旨在以有限的人工指导完成工作，并可在电子邮件、电子表格、日历和其他应用程序中运行。

OpenAI 表示，以往的模型需要精心设计的提示和多步骤的监督，而 GPT-5.5 可以处理 “混乱的多部分任务” ，并独立进行规划、使用工具、检查结果、应对歧义，并持续进行直至任务完成。

这些成果主要集中在四个领域：智能体编码、计算机使用、知识工作和早期科学研究。OpenAI 将这些领域描述为 “进步取决于跨上下文推理和随时间推移采取行动的领域”。

基准测试结果非常出色。GPT-5.5 在 Terminal-Bench 2.0 测试中达到了 82.7% 的准确率，该测试旨在评估需要规划、迭代和工具协调的复杂命令行工作流程。

在 SWE-Bench Pro 测试中，该测试评估了四种编程语言在 GitHub 上解决实际问题的能力，得分为 58.6%，一次测试解决的任务数量比之前的模型更多。

在 GDPval 测试中，该模型对 44 种知识型职业的智能体进行了测试，得分为 84.9%。在 OSWorld-Verified 测试中，该模型衡量其能否在真实的计算机环境中自主运行，得分为 78.7%。

在 Tau2-bench Telecom 测试中，GPT-5.5 无需快速调优即可达到 98.0% 的准确率。OpenAI 表示，在所有这些测试中，GPT-5.5 都比 GPT-5.4 的得分更高，同时使用的词元更少。

效率提升具有重要的商业意义。通常情况下，规模更大、功能更强大的模型响应速度较慢，这会给企业客户带来成本效益方面的权衡。OpenAI 表示，GPT-5.5 在实际应用中的单令牌延迟与 GPT-5.4 相当，这意味着它在提升智能水平的同时，并未增加响应时间。

此外，GPT-5.5 在 Codex 中完成同等任务所需的令牌数量也显著减少，这直接降低了企业部署的单项任务成本。GPT-5.5 的单令牌定价高于 GPT-5.4，但 OpenAI 表示，在大多数工作流程中，其最终结果是在总成本更低的情况下获得更好的结果。

机场推荐

梯子机场推荐：最低年付99元，100G/月

机场百科

记录机场使用经验，关注科技动态