开云sports 一文读懂GPT-5.4:83%任务引申超东说念主类群众,打个呼叫80好意思元就烧结束

开云体育官方网站 - KAIYUN
开云资讯
开云体育官方网站 - KAIYUN
开云sports 一文读懂GPT-5.4:83%任务引申超东说念主类群众,打个呼叫80好意思元就烧结束
发布日期:2026-03-09 11:25    点击次数:115

开云sports 一文读懂GPT-5.4:83%任务引申超东说念主类群众,打个呼叫80好意思元就烧结束

手捧 GPT-5.4 的奥特曼。图片由 AI 生成

文|晓静

剪辑|徐青阳

北京时辰 3 月 6 日凌晨,OpenAI 肃穆发布新一代旗舰模子 GPT-5.4,官方定位为 " 专为专科责任而想象的最强且最高效的前沿模子 "。

比起"更强更快"的旧例叙事,此次发布真碰劲得温存的是模子变装的漂浮:GPT-5.4 是一个为 Agent 而生的模子。它初次将原生臆想机操控智商融入通用模子,并同期整合了 GPT-5.3-Codex 级别的编程智商、百万 Token 高下文窗口和器具搜索机制——据官方先容,莫得为整合而殉国任何单项智商。往时让 AI 操作电脑需要依赖专用的 Computer Use Agent,当今编程、操控电脑、调用器具由归拢个模子一并完成。

跑分印证了这少许:GDPval 基准测试中,GPT-5.4 在 83% 的任务上达到或卓越行业专科东说念主士水平;OSWorld 桌面操控测试收遵守 75%,初次卓越东说念主类基线(72.4%);编程智商与 GPT-5.3-Codex 捏平,寰宇学问比 GPT-5.2 更强。

价钱方面,GPT-5.4 的 API 订价为输入 $2.50/ 百万 Token、输出 $15,约为 Claude Opus 4.6($5/$25)的一半,且支捏订阅额度调用。不外 Pro 版也曾很贵——有网友仅发了一句 "Hi",GPT-5.4 Pro 就崇敬推理了一番,径直烧掉 80 好意思元。平日轻量任务,法式版可能是更贤慧的遴荐。

在 ChatGPT 中,GPT-5.4 以" GPT-5.4 Thinking "神态上线,渐渐取代 GPT-5.2 Thinking(后者将保留 3 个月,于 2026 年 6 月 5 日肃穆退役)。新增的前置想路概述功能让用户不错在模子引申过程中随时介入休养标的,网页版和 Android 已上线,iOS 行将跟进。

要是用一句话详细 GPT-5.4 的真理真理,往时几年大模子的进化逻辑是 " 哪块短板补哪块 ",GPT-5.4 不再单点拔高,而是把所有智商整合进归拢个模子作念系统性优化。一个能写代码的模子是器具,一个能写代码、洞开浏览器查文档、调用 API 考证扫尾、再把输出整理成叙述的模子,是责任系统。GPT-5.4 更接近后者。

01 在 83% 的任务中达到或卓越行业专科东说念主士水平

GPT ‑ 5.4 与前代模子在多项专科智商基准测试中的发扬对比

为了评估模子在果然责任环境中的发扬,OpenAI 使用 GDPval 基准测试,这项测试条目模子完成好意思满事业任务,而不单是是问答。GDPval 隐敝好意思国 GDP 孝顺最大的九个行业和四十四种事业场景,包括制作销售演示文稿、树立司帐电子表格、安排病院急诊排班、绘图制造经由图或生成短视频践诺。

GPT ‑ 5.4 与前代模子在 GDPval 基准测试中的对比

在测试中,GPT ‑ 5.4 在 83% 的任务中达到或卓越行业专科东说念主士水平,而 GPT ‑ 5.2 仅为 70.9%。模拟低级投行分析师的电子表格建模测试中,GPT ‑ 5.4 平均得分 87.3%,GPT ‑ 5.2 为 68.4%。演示文稿生成任务中,东说念主类评测者 68% 情况下更偏好 GPT ‑ 5.4 的输出,原理是视觉想象更老到、结构更明晰、图像使用更合理。

招聘平台 Mercor 在面向专科处事责任的 APEX-Agents 评测中也得出雷同论断。CEO 布伦丹 · 富迪(Brendan Foody)暗意,GPT ‑ 5.4 在生成财务模子、法律分析和好意思满幻灯片等始终委用效果方面发扬杰出,同期运行速率更快,本钱低于同级前沿模子。

OpenAI 还推出了 ChatGPT Excel 插件,使企业用户能够在 Excel 中径直调用模子,完结 AI 与传统办公软件的无缝配合。

GPT ‑ 5.4 电子表格、演示文稿和文档创建及剪辑智商的进步

OpenAI 极端温存 GPT ‑ 5.4 在电子表格、演示文稿和文档创建及剪辑智商上的进步。在一项里面电子表格建模测试中,GPT ‑ 5.4 的平均得分达到 87.3%,快乐彩显贵高于 GPT ‑ 5.2 的 68.4%。在演示文稿评估中,东说念主类评测者在 68% 的情况下更偏好 GPT ‑ 5.4 生成的践诺,觉得其视觉想象更老到、结构更明晰、视觉变化更丰富,同期图像生成的专揽也更为灵验。

02 原生"操作"电脑

GPT ‑ 5.4 的最大亮点八成并非编程,而是臆想机操控智商的原生整合。往时,模子要操作电脑频繁需要专用的 Computer Use Agent,而 GPT ‑ 5.4 初次将这一智商径直融入通用模子。它不仅不错编写按捺臆想机的软件剧本,还能凭据屏幕截图径直发出鼠标点击和键盘输入指示,从而完成跨应用法式的复杂操作。

GPT ‑ 5.4 与 GPT ‑ 5.2 在 OSWorld-Verified 测试中的发扬

在 OSWorld-Verified 测试中,GPT ‑ 5.4 通过截图识别桌面界面并引申键鼠操作的收遵守达到 75%,彰着高于 GPT ‑ 5.2 的 47.3%,甚而略高于东说念主类平均水平 72.4%。在 WebArena-Verified 浏览器操控测试中,收遵守为 67.3%,高于 GPT ‑ 5.2 的 65.4%。仅通过截图线路网页结构的 Online-Mind2Web 测试中,收遵守达到 92.8%,远高于 ChatGPT Atlas 智能体模式的约 70%。

房地产数据公司 Mainstay 对这一智商进行了大限制实测。隐敝约三万个 HOA 和房产税家数网站的测试中,GPT ‑ 5.4 初次尝试收遵守 95%,三次以内收遵守 100%,任务完成速率进步约三倍,Token 破费减少约 70%。这意味着基于 GPT ‑ 5.4 的自动化系统(如 RPA)在可靠性和本钱上可能发生根人性变化。

03 视觉线路与文档瓦解智商显贵进步

GPT ‑ 5.4 与 GPT ‑ 5.2 在 MMMU-Pro 和 OmniDocBench 测试中的发扬

除了臆想机操控智商,GPT ‑ 5.4 在视觉线路和文档瓦解方面也有越过。在里面 MMMU-Pro 测试中(无需外部器具提拔),开云体育GPT ‑ 5.4 的视觉线路准确率达到 81.2%,高于 GPT ‑ 5.2 的 79.5%;在含器具提拔的测试中,GPT ‑ 5.4 进一步进步至 82.1%,相似优于前代模子。

这标明模子不仅能操作电脑,还能更准确地识别屏幕信息息争析文档践诺,为长周期、多要津的办公任务提供支捏。

在 OmniDocBench 文档瓦解测试中,GPT ‑ 5.4 的平均归一化剪辑距离为 0.11,低于 GPT ‑ 5.2 的 0.14,露出出更高的瓦解精度和生成文档的准确性。

这意味着 GPT ‑ 5.4 在处置复短文档践诺时,能够更好地线路结构、保捏信息好意思满,同期减少装假,为企业办公、数据分析和叙述生成提供可靠支捏。

此外,OpenAI 对高阔别率和高密度图像的处置智商也有所增强。从 GPT ‑ 5.4 运行,模子支捏"原始图像输入细节"模式,可处置总量最高达 1024 万像素或最大边长 6000 像素的全保真图像;"高细节"模式支捏最高 256 万像素或最大边长 2048 像素。

这使得模子在方针定位、图像线路及点击精度方面发扬更佳,同期进步了文档生成、演示文稿和图表的质料。

04 编程与器具生态进一步强化

GPT ‑ 5.4 与 GPT ‑ 5.3-Codex 的编程智商对比图

在编程智商方面,GPT ‑ 5.4 与 GPT ‑ 5.3-Codex 相配甚而略优,同期在蔓延和 Token 遵守上有显贵进步。在 SWE-Bench Pro 测试中,GPT ‑ 5.4 得分 57.7%,GPT ‑ 5.3-Codex 为 56.8%,GPT ‑ 5.2 为 55.6%。Codex 中的 /fast 模式可将 Token 生成速率进步 1.5 倍,使开发者在迭代和调试过程中保捏畅达责任节律。

OpenAI 还发布了实验性 Codex 妙技 Playwright(交互版),允许模子在构建 Web 应用时自动运行浏览器测试,对生成界面和功能进行可视化调试。

浅薄说,这个实验妙技让 GPT-5.4 从"只会写代码"升级到"能我方洞开浏览器玩我方写的游戏、发现问题再改代码",极端视宜生成像这种高度交互、视觉反馈强的 Web 小游戏或应用。

OpenAI 展示了一个典型案例:GPT-5.4 仅凭一条节略教导词,就生成了一个好意思满的等距视角主题公园模拟游戏。游戏包含基于瓦片的旅途铺设与景点开采系统,搭客 AI 可自主寻路并排队,系统同期及时更新资金、搭客数目、舒坦度和清洁度四项要害盘算。

Playwright Interactive 在此过程中引申多轮自动化测试,考证旅途铺设、录像机导航、搭客手脚以及界面盘算的准确性。从代码生成到测老师收,所有这个词开发经由所有由模子落寞完成。

博主 Angel 相似用 GPT-5.4 写了一个 Minecraft 克隆版,模子花了约 24 分钟,运行畅达,过程中莫得卡住。他在推文里写说念:" Minecraft 基本上被攻克了,我当今得找个新测试了。"

GPT-5.4 在 BrowseComp 测试中的发扬

此外,GPT ‑ 5.4 在网页搜索和信息整合智商上也有显贵进步。在 BrowseComp 测试中(斟酌 AI 代理捏续浏览网页以寻找难以定位信息的智商),GPT ‑ 5.4 比拟 GPT ‑ 5.2 进步了 17%,而 GPT ‑ 5.4 Pro 更是创下 89.3% 的新记录。

这意味着模子在回复需要网罗多个开端信息的问题时发扬更强,能够通过多轮搜索锁定最联系的长途,并将信息综合整理成明晰、逻辑严谨的回复。

{jz:field.toptypename/}

器具调用方面,GPT ‑ 5.4 引入"器具搜索"机制。以往大批外部器具界说必须在每次苦求时全量加载,占用大批 Token 并拖慢反馈;新机制允许模子按需查询器具界说,显贵减少 Token 支拨。

GPT ‑ 5.4 总 Token 使用量缩短

实测中,在启用 36 个 MCP 处事器情况下,总 Token 使用量缩短 47%,准确率保捏不变。在 Toolathlon 测试中,GPT ‑ 5.4 获得 54.6%,高于 GPT ‑ 5.2 的 45.7%。Zapier CEO 韦德 · 福斯特(Wade Foster)指出,GPT ‑ 5.4 在多要津器具调用任务中捏续引申智商显贵增强。

05 使用方式、价钱与部署

GPT ‑ 5.4 已在 ChatGPT、API 和 Codex 平台上线。在 ChatGPT 中,GPT ‑ 5.4 Thinking 向 Plus、Team 和 Pro 用户开放,取代 GPT ‑ 5.2 Thinking;GPT ‑ 5.4 Pro 面向 Pro 和企业用户,适用于大型代码名目分析、跨系统自动化经由及长周期讨论任务。

{jz:field.toptypename/}

在 API 中,开发者可通过" gpt-5.4 "和" gpt-5.4-pro "径直调用模子。Codex 提供最高百万 Token 实验性高下文窗口,卓越法式 272K 部分按两倍费率计入使用量。

订价方面,GPT ‑ 5.4 输入价钱每百万 Token 2.50 好意思元,输出价钱 15 好意思元,略高于 GPT ‑ 5.2 的 1.75 好意思元和 14 好意思元;GPT ‑ 5.4 Pro 输入价钱 30 好意思元,输出 180 好意思元。由于模子 Token 利用率进步,很多任务所需总 Token 数目下落,因此合座本钱可能不会显贵加多。

06 写在临了

GPT-4 75% 的臆想机操控收遵守意味着四次里仍有一次失败。从"能用"到"能依赖",GPT-5.4 是蹙迫节点,但不是极端。

实在的问题不是 AI 能不颖异活,而是当它实在能接活的本领,你准备好把哪些活交出去了?

特约编译无忌对本文亦有孝顺