kaiyun sports 刚刚,奥特曼砸场发布 GPT-5.4!网友:一句 Hi 烧掉 80 好意思元

开云体育官方网站 - KAIYUN
关于开云
开云体育官方网站 - KAIYUN
kaiyun sports 刚刚,奥特曼砸场发布 GPT-5.4!网友:一句 Hi 烧掉 80 好意思元
发布日期:2026-03-09 11:25    点击次数:63

kaiyun sports 刚刚,奥特曼砸场发布 GPT-5.4!网友:一句 Hi 烧掉 80 好意思元

每次灵通 AI 器用,你好像齐要先想一秒钟:这个任务,该用哪个模子?写代码是一个,查费力是另一个,让 AI 帮你操作电脑,还得再开一个窗口。

今天事后,这种分裂感终于有了一个新的谜底。

就在刚刚,OpenAI 谨慎发布 GPT-5.4,把编程、推理、规划机操控、网页搜索和百万 Token 高下文全部整合进合并个模子,且莫得为了整合而放荡任何一项的能力。

OpenAI CEO 山姆 · 奥特曼也在 X 平台发了一条粗略推文,点出了五个场地:常识责任更强、网页搜索更出色、原生规划机操控、赞助百万 Token 高下文、反馈经过中随时可介入。

寥寥数语,对应的恰好是夙昔两年 AI 运用落地中最围聚的五个痛点。

常识责任:十次有八次,AI 赢了专科东谈主士

谄媚 GPT-5.4 在常识责任上的率先,需要先了解 GDPval 这个基准的瞎想逻辑。

它横跨好意思国 GDP 孝敬最大的 9 个行业、44 种业绩。任务是那些职场里每生动实发生的责任:给投资银行写财务模子、给病院排急诊班次、给销售团队作念演示文稿。

任务完成后,把输出轨则交给行业内的真实从业者盲测打分,看 AI 的产出能赢过若干比例的东谈主类同业。

{jz:field.toptypename/}

GPT-5.4 的谜底是 83.0%,意味着十次对比中有八次以上,行业专科东谈主士觉得 AI 的产出达到或迥殊了东谈主类同业水准。上代 GPT-5.2 是 70.9%,差距快要 13 个百分点。

率先在电子表格建模上说明得最为具体。GPT-5.4 模拟低级投行分析师完成建模任务,平均得分 87.3%,GPT-5.2 是 68.4%,GPT-5.3-Codex 是 79.3%,差距快要 20 个百分点。

法律平台 Harvey 的 BigLaw Bench 测试轨则一样亮眼,GPT-5.4 得分 91%,专科作事评测平台 Mercor 的 APEX-Agents 基准中也拿下了第一。

准确性方面一样值得热心。幻觉问题一直是 AI 干与专考场景最大的拦路虎,每镌汰一个百分点,齐意味着更多场景不错释怀用它。

数据暴露,与 GPT-5.2 比较,GPT-5.4 单条述说出错的概率低了 33%,竣工报告含有无理的概率低了 18%。

编程:一个模子,写代码测代码全包了

GPT-5.4 把 GPT-5.3-Codex 的编程能力整合进干线,对开荒者来说,这意味着你不再需要为了写代码单独开一个模子,况兼编程能力自己也莫得因此打任何扣头。

SWE-Bench Pro 特地测试真实软件工程任务,GPT-5.4 得分 57.7%,GPT-5.3-Codex 是 56.8%,GPT-5.2 是 55.6%。整合之后,编程分数不降反升,同期还顺带取得了规划机操控等一整套通用能力,简直找不到显著的毛病。

有名 AI 评测博主 Dan Shipper 试用后写谈:「这是咱们最近一段技巧里见过 OpenAI 最出色的经营能力,代码审查也很强,况兼老本马虎只消 Opus 的一半。」

他点出了两个具体维度。其一,经营能力是长任务成败的关节,GPT-5.4 在职务拆解和抓续鼓吹上显著更有档次。其二,与 Claude Opus 比较约一半的老本,对需要大边界 API 调用的开荒者来说,这个差距在账单上会相称直不雅。

开启 Codex 中的 /fast 格式后,可使 GPT ‑ 5.4 的 token 生成速率进步最高 1.5 倍,使得用户不错在编码、迭代和调试经过中保抓畅通的责任景象。

与此同期,新推出的试验性功能 Playwright Interactive 把 GPT-5.4 的编程体验又鼓吹了一步。

GPT-5.4 在构建 Web 或 Electron 运用时,能够通过可视化浏览器进行及时调试,模子不错边写代码、边测试我高洁在构建的运用,同期承担开荒者和测试员两个变装。

OpenAI 展示了一个典型案例:仅凭一条轻量领导词,GPT-5.4 生成了一个竣工的等距视角主题公园模拟游戏,涵盖基于瓦片的旅途铺设与景点成立系统、旅客 AI 寻路与列队行动,以及资金、旅客数、自在度、清洁度四项办法全部及时动态更新的轮廓评分。

Playwright Interactive 在通盘经过中承担了多轮自动化测试,考证旅途铺设、录像机导航、旅客反馈及 UI 办法的正确性。从写代码到测熟识收,模子全程我方完成。

博主 Angel 一样用 GPT-5.4 写了一个 Minecraft 克隆版,模子花了约 24 分钟,运行畅通,经过中莫得卡住。他在推文里写谈「Minecraft 基本上被攻克了,我现时得找个新测试了」。

沃顿商学院教导 Ethan Mollick 一样取得了早期看望权限。他用合并条领导词,让 GPT-5.4 Pro 生成了一个受《皮拉内西》启发的三维空间场景,全程莫得报错,只额外追加了一句「把它作念得更好」的指示。他随后把轨则和两年前 GPT-4 生成的版块并列放在一谈,差距一眼可见。

操控电脑这件事,它现时比你作念得好

{jz:field.toptypename/}

这是 GPT-5.4 此次发布里最值得单独说一说的变化。此前 OpenAI 的规划机操控能力是一个孤苦模块,跟模子的言语谄媚、代码生成之间有一谈显著的分隔。

两套系统各管各的,信息要往来传递,恶果当然打折。现时这谈分隔没了,GPT-5.4 操控电脑时,用的即是模子自己的推理能力,不需要再绕一圈。

这亦然 OpenAI 第一款将规划机使用(computer use)能力原生内置进通用模子的产物,以后谈 AI Agent,确信这会是一个新的早先。

基准测试轨则暴露,OSWorld-Verified 基准测试桌面导航能力,用截图加鼠标键盘交互完成真实操作系统任务。GPT-5.4 达到 75.0% 的收遵守,东谈主类基线是 72.4%,GPT-5.2 是 47.3%。

简言之,它不仅追上了东谈主类,开云体育官方网站还迥殊了东谈主类。

在只用截图格式测试浏览器操控的 Online-Mind2Web 基准中,GPT-5.4 达到 92.8%,对比对象 ChatGPT Atlas 的 Agent Mode 是 70.9%,

真实部署案例更能诠释问题。Mainstay 将 GPT-5.4 用于约三万个物业税务流派网站的自动表单填写,初次收遵守达 95%,三次以内收遵守 100%,而此前同类模子仅在 73% 至 79% 之间。会话完成速率进步约三倍,Token 耗尽镌汰约 70%。

这背后绕不开视觉感知能力的纠正。操控电脑说到底是一件需要「看明晰」的事——看明晰界面上有什么、按钮在那里、点击是否准确。

GPT-5.4 在这一层作念了专项加强,引入了原始图像(original)输入格式,赞助最高 1024 万像素或 6000 像素最大边长的高保真图像输入;原有的高清(high)格式上限也从此前的轨范进步至 256 万像素或 2048 像素最大边长。

器用调用与网页搜索:抓续性是中枢竞争力

一个复杂的 AI Agent 系统,背后可能挂着几十个 MCP 器用。夙昔的作念法是每次对话启动前,把统统器用的诠释一股脑塞进去,不论此次用不必得上,Token 先花了再说。

GPT-5.4 换了个念念路:先给模子一份简便的器用清单(即引入器用搜索机制),确凿需要用哪个,再去把阿谁器用的详备诠释取过来,用过一次的还能奏凯缓存,下次不必从新拿。

在 250 项任务的测试中,启用 36 个 MCP 作事器的竣工成就下,器用搜索格式在保抓准确率十足不变的前提下,将总 Token 耗尽镌汰了 47%。快要一半的老本省俭,精度小数没少。

网页搜索方面,GPT-5.4 在 BrowseComp 基准上得分 82.7%,比 GPT-5.2 的 65.8% 高出 17 个百分点,Pro 版更达到 89.3%,创下业界最高分。Zapier CEO 评价说,GPT-5.4 会在其他模子肃清的地方连续搜索下去,是他们测试过抓续性最强的模子。

百万 Token 高下文:长长长长长长

GPT-5.4 在 API 中赞助最高 100 万 Token 的高下文窗口,非常于不错把一个竣工技俩的统统关连文档一次性塞进合并次对话。但从测试轨则来看,128K 至 272K 是说明最踏实的区间,适当往常使用。

256K 以上准确率启动下滑,需要针对具体任务考证后再用。512K 至 1M 区间的得分降至 36.6%,现时更接近试验性质,不适当奏凯用于对精度条目高的分娩任务。

还有一个内容的老本问题需要留神:迥殊 272K 的央求会按两倍用量计入配额。也即是说,发一次超长高下文的央求,额度耗尽等于两次庸碌央求,用之前值得想明晰是否真实需要这样长。

至于在视觉抽象推理基准 ARC-AGI-2 上,GPT-5.4 Pro 得分 83.3%,而上代 GPT-5.2 Pro 仅为 54.2%。

再比如 FrontierMath Tier 4 是现时公认最难的数学基准之一,包含 50 谈斟酌级别的数学题,东谈主类数学家可能需要数周才能解出。GPT-5.4 Pro 在这个基准上得分 38.0%,上代为 31.3%。

这个数字的参照系是:一年前,最佳的收货是 o3 的 2%,现时最佳的开源模子是 4.2%。

博主 Deedy 在推文中写谈,从 2% 到 38%,「简直令东谈主惊骇」。Humanity's Last Exam 有器用辅助时,GPT-5.4 Pro 得分 58.7%,GPT-5.2 Pro 是 50.0%,差距接近 9 个百分点。

实行中调度,不是完成后返工

用过 AI 处理长任务的东谈主好像齐有过这种体验:等模子跑完一大段,发现场地永别,只可从新再来,技巧全阔绰了。

GPT-5.4 Thinking 在 ChatGPT 中新增了一项「半途打断」功能:在处理复杂任务之前,模子会先呈现责任斟酌提要,再启动实行。用户不错在实行经过中随时介入调度场地,不必比及轨则出来再从新重来。

这个功能把纠偏这件事从「完成后」提前到了「实行中」,对需要多轮合作的任务来说,体验别离会比较显著。功能现时已在 chatgpt.com 和 Android 运用上线,iOS 版块行将跟进。

即日起,GPT-5.4 向 ChatGPT Plus、Team 和 Pro 用户开放,替代 GPT-5.2 Thinking 成为默许念念考模子。

GPT-5.2 Thinking 将保留至本年 6 月 5 日后谨慎退役。Enterprise 和 Edu 用户可由处理员在后台开启早期看望,GPT-5.4 Pro 濒临 Pro 和 Enterprise 斟酌开放。

API 轨范版订价为输入 2.50 好意思元 / 百万 Token,缓存输入 0.25 好意思元 / 百万 Token,输出 15 好意思元 / 百万 Token。Pro 版为输入 30 好意思元 / 百万 Token,输出 180 好意思元 / 百万 Token。Batch 和 Flex 处理享轨范价钱五折,Priority Processing 为两倍轨范价钱。

虽然,强大的推理能力也有它的另一面。Hyperbolic 集合首创东谈主金宇晨在 X 平台吐槽,GPT-5.4 Pro 是他用过最爱「过度念念考」的模子——只是发了一句简便的「Hi」,模子就启动崇拜推理,奏凯烧掉了 80 好意思元。

这并非个例。推理模子的特点决定了它在处理任何输入时齐倾向于深度念念考,哪怕问题自己根蒂不需要。关于往常轻量任务,轨范版未必是更合适的经受;Pro 版的推理火力,已经留给真碰巧得的场面更合算。

夙昔两年,AI 能力的参谋主要围聚在基准测试收货上的「贤达」,但 GPT-5.4 的贤达指向的是能够在真实责任流中,充足可靠地承担牵累。

夙昔 AI 只可输出笔墨,东谈主还需要亲身操作才能让事情发生。现时模子不错我方灵通浏览器、填写表单、点击按钮、记载轨则,孤苦完成一个有头有尾的任务闭环。

AI 正在从一个擅长回答问题的系统,酿成一个擅长完成任务的系统。而这个移动的速率,昭着比大浩繁东谈主预期的更快。

附上参考地址:

https://openai.com/index/introducing-gpt-5-4/