kaiyun sports 刚刚，奥特曼砸场发布 GPT-5.4！网友：一句 Hi 烧掉 80 好意思元 - 开云体育官方网站

开云体育官方网站 - KAIYUN

开云体育官方网站 - KAIYUN: 开云体育; 关于开云; 开云资讯; 开云滚球; 开云盘口; 2026世界杯; 开云app下载

热点资讯

开云sports 对流形（Manifold）的最简便快速的涌

开云体育旅游住酒店避坑指南：6招“保命”选房法，前台毫不会

kaiyun sports 中国GDP按购买力算超好意思国了

开云体育若何判断手机电板是否“报废”? 通俗说些大真话!

开云体育官方网站汤恩伯能成为王炸，校长用东说念主圭臬是什么

开云体育新闻1+1丨上海楼市新政落地开释哪些紧迫信号

开云体育【慰问】双节暖心投递！民权体彩干事站把关怀送到一线

开云sports 新浪彩票双色球名家第26042期推选汇总

kaiyun sports “金太狼”王雷遮蔽35年权门身份

开云sports 昆凌30岁发文：愿咱们最终成为小時候向往的

你的位置：开云体育官方网站 - KAIYUN > 关于开云 >

kaiyun sports 刚刚，奥特曼砸场发布 GPT-5.4！网友：一句 Hi 烧掉 80 好意思元

发布日期：2026-03-09 11:25 点击次数：66

kaiyun sports 刚刚，奥特曼砸场发布 GPT-5.4！网友：一句 Hi 烧掉 80 好意思元

每次灵通 AI 器用，你好像齐要先想一秒钟：这个任务，该用哪个模子？写代码是一个，查费力是另一个，让 AI 帮你操作电脑，还得再开一个窗口。

今天事后，这种分裂感终于有了一个新的谜底。

就在刚刚，OpenAI 谨慎发布 GPT-5.4，把编程、推理、规划机操控、网页搜索和百万 Token 高下文全部整合进合并个模子，且莫得为了整合而放荡任何一项的能力。

OpenAI CEO 山姆 · 奥特曼也在 X 平台发了一条粗略推文，点出了五个场地：常识责任更强、网页搜索更出色、原生规划机操控、赞助百万 Token 高下文、反馈经过中随时可介入。

寥寥数语，对应的恰好是夙昔两年 AI 运用落地中最围聚的五个痛点。

常识责任：十次有八次，AI 赢了专科东谈主士

谄媚 GPT-5.4 在常识责任上的率先，需要先了解 GDPval 这个基准的瞎想逻辑。

它横跨好意思国 GDP 孝敬最大的 9 个行业、44 种业绩。任务是那些职场里每生动实发生的责任：给投资银行写财务模子、给病院排急诊班次、给销售团队作念演示文稿。

任务完成后，把输出轨则交给行业内的真实从业者盲测打分，看 AI 的产出能赢过若干比例的东谈主类同业。

GPT-5.4 的谜底是 83.0%，意味着十次对比中有八次以上，行业专科东谈主士觉得 AI 的产出达到或迥殊了东谈主类同业水准。上代 GPT-5.2 是 70.9%，差距快要 13 个百分点。

率先在电子表格建模上说明得最为具体。GPT-5.4 模拟低级投行分析师完成建模任务，平均得分 87.3%，GPT-5.2 是 68.4%，GPT-5.3-Codex 是 79.3%，差距快要 20 个百分点。

法律平台 Harvey 的 BigLaw Bench 测试轨则一样亮眼，GPT-5.4 得分 91%，专科作事评测平台 Mercor 的 APEX-Agents 基准中也拿下了第一。

准确性方面一样值得热心。幻觉问题一直是 AI 干与专考场景最大的拦路虎，每镌汰一个百分点，齐意味着更多场景不错释怀用它。

数据暴露，与 GPT-5.2 比较，GPT-5.4 单条述说出错的概率低了 33%，竣工报告含有无理的概率低了 18%。

编程：一个模子，写代码测代码全包了

GPT-5.4 把 GPT-5.3-Codex 的编程能力整合进干线，对开荒者来说，这意味着你不再需要为了写代码单独开一个模子，况兼编程能力自己也莫得因此打任何扣头。

SWE-Bench Pro 特地测试真实软件工程任务，GPT-5.4 得分 57.7%，GPT-5.3-Codex 是 56.8%，GPT-5.2 是 55.6%。整合之后，编程分数不降反升，同期还顺带取得了规划机操控等一整套通用能力，简直找不到显著的毛病。

有名 AI 评测博主 Dan Shipper 试用后写谈：「这是咱们最近一段技巧里见过 OpenAI 最出色的经营能力，代码审查也很强，况兼老本马虎只消 Opus 的一半。」

他点出了两个具体维度。其一，经营能力是长任务成败的关节，GPT-5.4 在职务拆解和抓续鼓吹上显著更有档次。其二，与 Claude Opus 比较约一半的老本，对需要大边界 API 调用的开荒者来说，这个差距在账单上会相称直不雅。

开启 Codex 中的 /fast 格式后，可使 GPT ‑ 5.4 的 token 生成速率进步最高 1.5 倍，使得用户不错在编码、迭代和调试经过中保抓畅通的责任景象。

与此同期，新推出的试验性功能 Playwright Interactive 把 GPT-5.4 的编程体验又鼓吹了一步。

GPT-5.4 在构建 Web 或 Electron 运用时，能够通过可视化浏览器进行及时调试，模子不错边写代码、边测试我高洁在构建的运用，同期承担开荒者和测试员两个变装。

OpenAI 展示了一个典型案例：仅凭一条轻量领导词，GPT-5.4 生成了一个竣工的等距视角主题公园模拟游戏，涵盖基于瓦片的旅途铺设与景点成立系统、旅客 AI 寻路与列队行动，以及资金、旅客数、自在度、清洁度四项办法全部及时动态更新的轮廓评分。

Playwright Interactive 在通盘经过中承担了多轮自动化测试，考证旅途铺设、录像机导航、旅客反馈及 UI 办法的正确性。从写代码到测熟识收，模子全程我方完成。

博主 Angel 一样用 GPT-5.4 写了一个 Minecraft 克隆版，模子花了约 24 分钟，运行畅通，经过中莫得卡住。他在推文里写谈「Minecraft 基本上被攻克了，我现时得找个新测试了」。

沃顿商学院教导 Ethan Mollick 一样取得了早期看望权限。他用合并条领导词，让 GPT-5.4 Pro 生成了一个受《皮拉内西》启发的三维空间场景，全程莫得报错，只额外追加了一句「把它作念得更好」的指示。他随后把轨则和两年前 GPT-4 生成的版块并列放在一谈，差距一眼可见。

操控电脑这件事，它现时比你作念得好

{jz:field.toptypename/}

这是 GPT-5.4 此次发布里最值得单独说一说的变化。此前 OpenAI 的规划机操控能力是一个孤苦模块，跟模子的言语谄媚、代码生成之间有一谈显著的分隔。

两套系统各管各的，信息要往来传递，恶果当然打折。现时这谈分隔没了，GPT-5.4 操控电脑时，用的即是模子自己的推理能力，不需要再绕一圈。

这亦然 OpenAI 第一款将规划机使用（computer use）能力原生内置进通用模子的产物，以后谈 AI Agent，确信这会是一个新的早先。

基准测试轨则暴露，OSWorld-Verified 基准测试桌面导航能力，用截图加鼠标键盘交互完成真实操作系统任务。GPT-5.4 达到 75.0% 的收遵守，东谈主类基线是 72.4%，GPT-5.2 是 47.3%。

简言之，它不仅追上了东谈主类，开云体育官方网站还迥殊了东谈主类。

在只用截图格式测试浏览器操控的 Online-Mind2Web 基准中，GPT-5.4 达到 92.8%，对比对象 ChatGPT Atlas 的 Agent Mode 是 70.9%，

真实部署案例更能诠释问题。Mainstay 将 GPT-5.4 用于约三万个物业税务流派网站的自动表单填写，初次收遵守达 95%，三次以内收遵守 100%，而此前同类模子仅在 73% 至 79% 之间。会话完成速率进步约三倍，Token 耗尽镌汰约 70%。

这背后绕不开视觉感知能力的纠正。操控电脑说到底是一件需要「看明晰」的事——看明晰界面上有什么、按钮在那里、点击是否准确。

GPT-5.4 在这一层作念了专项加强，引入了原始图像（original）输入格式，赞助最高 1024 万像素或 6000 像素最大边长的高保真图像输入；原有的高清（high）格式上限也从此前的轨范进步至 256 万像素或 2048 像素最大边长。

器用调用与网页搜索：抓续性是中枢竞争力

一个复杂的 AI Agent 系统，背后可能挂着几十个 MCP 器用。夙昔的作念法是每次对话启动前，把统统器用的诠释一股脑塞进去，不论此次用不必得上，Token 先花了再说。

GPT-5.4 换了个念念路：先给模子一份简便的器用清单（即引入器用搜索机制），确凿需要用哪个，再去把阿谁器用的详备诠释取过来，用过一次的还能奏凯缓存，下次不必从新拿。

在 250 项任务的测试中，启用 36 个 MCP 作事器的竣工成就下，器用搜索格式在保抓准确率十足不变的前提下，将总 Token 耗尽镌汰了 47%。快要一半的老本省俭，精度小数没少。

网页搜索方面，GPT-5.4 在 BrowseComp 基准上得分 82.7%，比 GPT-5.2 的 65.8% 高出 17 个百分点，Pro 版更达到 89.3%，创下业界最高分。Zapier CEO 评价说，GPT-5.4 会在其他模子肃清的地方连续搜索下去，是他们测试过抓续性最强的模子。

百万 Token 高下文：长长长长长长

GPT-5.4 在 API 中赞助最高 100 万 Token 的高下文窗口，非常于不错把一个竣工技俩的统统关连文档一次性塞进合并次对话。但从测试轨则来看，128K 至 272K 是说明最踏实的区间，适当往常使用。

256K 以上准确率启动下滑，需要针对具体任务考证后再用。512K 至 1M 区间的得分降至 36.6%，现时更接近试验性质，不适当奏凯用于对精度条目高的分娩任务。

还有一个内容的老本问题需要留神：迥殊 272K 的央求会按两倍用量计入配额。也即是说，发一次超长高下文的央求，额度耗尽等于两次庸碌央求，用之前值得想明晰是否真实需要这样长。

至于在视觉抽象推理基准 ARC-AGI-2 上，GPT-5.4 Pro 得分 83.3%，而上代 GPT-5.2 Pro 仅为 54.2%。

再比如 FrontierMath Tier 4 是现时公认最难的数学基准之一，包含 50 谈斟酌级别的数学题，东谈主类数学家可能需要数周才能解出。GPT-5.4 Pro 在这个基准上得分 38.0%，上代为 31.3%。

这个数字的参照系是：一年前，最佳的收货是 o3 的 2%，现时最佳的开源模子是 4.2%。

博主 Deedy 在推文中写谈，从 2% 到 38%，「简直令东谈主惊骇」。Humanity's Last Exam 有器用辅助时，GPT-5.4 Pro 得分 58.7%，GPT-5.2 Pro 是 50.0%，差距接近 9 个百分点。

实行中调度，不是完成后返工

用过 AI 处理长任务的东谈主好像齐有过这种体验：等模子跑完一大段，发现场地永别，只可从新再来，技巧全阔绰了。

GPT-5.4 Thinking 在 ChatGPT 中新增了一项「半途打断」功能：在处理复杂任务之前，模子会先呈现责任斟酌提要，再启动实行。用户不错在实行经过中随时介入调度场地，不必比及轨则出来再从新重来。

这个功能把纠偏这件事从「完成后」提前到了「实行中」，对需要多轮合作的任务来说，体验别离会比较显著。功能现时已在 chatgpt.com 和 Android 运用上线，iOS 版块行将跟进。

即日起，GPT-5.4 向 ChatGPT Plus、Team 和 Pro 用户开放，替代 GPT-5.2 Thinking 成为默许念念考模子。

GPT-5.2 Thinking 将保留至本年 6 月 5 日后谨慎退役。Enterprise 和 Edu 用户可由处理员在后台开启早期看望，GPT-5.4 Pro 濒临 Pro 和 Enterprise 斟酌开放。

API 轨范版订价为输入 2.50 好意思元 / 百万 Token，缓存输入 0.25 好意思元 / 百万 Token，输出 15 好意思元 / 百万 Token。Pro 版为输入 30 好意思元 / 百万 Token，输出 180 好意思元 / 百万 Token。Batch 和 Flex 处理享轨范价钱五折，Priority Processing 为两倍轨范价钱。

虽然，强大的推理能力也有它的另一面。Hyperbolic 集合首创东谈主金宇晨在 X 平台吐槽，GPT-5.4 Pro 是他用过最爱「过度念念考」的模子——只是发了一句简便的「Hi」，模子就启动崇拜推理，奏凯烧掉了 80 好意思元。