剛剛，OpenAI通用智能體ChatGPT Agent正式登場

機器之心·2025-07-19

迄今為止最大升級。

編者按：本文來自微信公眾號“機器之心”（ID：almosthuman2014），作者：關注Agent的，創(chuàng)業(yè)邦經(jīng)授權轉載。

ChatGPT 現(xiàn)在可以思考行動，主動選擇工具，用自己的虛擬計算機為你完成任務。

Agent AI 時代，比我們想象中來得要早一些。

北京時間周五凌晨，OpenAI 突然開啟了新產(chǎn)品直播。

本次發(fā)布的是全新的 ChatGPT Agent，它實現(xiàn)了通用智能體（Agent）能力的關鍵升級。

與以往的基礎大模型升級不同，通用 Agent 可以自動利用多種工具進行規(guī)劃，幫助人們完成復雜的任務，包括自動瀏覽用戶日歷，生成可編輯的 PPT，運行代碼等等。Agent 能夠連接你的 Gmail、GitHub 網(wǎng)站獲取信息并解決問題，使用 API 來訪問各種應用。Agent 加持的 AI 智能有了大幅提升 —— 基于 ChatGPT Agent 的模型在 HLE 基準上拿到了 41.6% 的分數(shù)，是 o3 和 o4-mini 的幾乎兩倍。

ChatGPT Agent 目前已向 OpenAI Pro、Plus 和 Team 計劃的訂閱用戶開放。想要使用的用戶在 ChatGPT 的工具下拉菜單中選擇「Agent 模式」即可。

OpenAI 表示，企業(yè)版和教育版用戶預計將于夏季晚些時候獲得新功能。在正式發(fā)布時，Pro 用戶每月通常最多可使用 400 次 Agent 提示，其他付費用戶則最多可使用 40 次。目前尚不清楚該功能何時會面向 ChatGPT 免費用戶推出。

這是 OpenAI 迄今為止最為大膽的一次新產(chǎn)品發(fā)布，從此以后 ChatGPT 成為了一款能夠為人們采取行動和分擔任務的 Agent 產(chǎn)品，已經(jīng)遠遠超出了回答問題的范疇。

OpenAI CEO 山姆?奧特曼（Sam Altman）表示，看著 ChatGPT 智能體使用計算機執(zhí)行復雜任務對我來說是一個真正的「感受 AGI」的時刻，看到計算機思考、計劃和執(zhí)行會帶來不同的感受。

ChatGPT 現(xiàn)在可以使用自己的虛擬電腦為你完成工作，從頭到尾處理復雜任務。用戶不僅可以讓 ChatGPT 執(zhí)行諸如「查詢年度財務報告」等請求，并智能地瀏覽網(wǎng)站、篩選結果，在需要時提示你安全登錄，運行代碼、進行分析，甚至可以交付可編輯的幻燈片和電子表格，總結其研究成果。

比如讓「ChatGPT Agent 搜索查詢舊金山市年度綜合財務報告（2020-2024 年）」：

再比如輸入提示「我是一位網(wǎng)球迷，想去棕櫚泉觀看網(wǎng)球比賽，特別是在半決賽 / 決賽期間。我住在舊金山，請幫我制定一份詳細的三天行程，包括航班安排、酒店預訂、活動內(nèi)容（比賽、徒步、美食、水療等）。我喜歡徒步旅行、純素食餐廳和水療。總預算為 3000 美元。這份行程需要包括：精確的時間安排；每項活動的內(nèi)容、費用和其他細節(jié)；如有需要，提供購票或預訂鏈接」，接著讓 ChatGPT Agent 幫你制定詳細的行程：

這一新能力的核心是一個統(tǒng)一的智能 agentic 系統(tǒng)，它結合了三個早期突破的優(yōu)勢，包括 Operator 的網(wǎng)站交互能力、deep research 的信息綜合能力，以及 ChatGPT 的智能推理與對話能力。

ChatGPT 借助自己的虛擬計算環(huán)境，在推理與執(zhí)行之間靈活切換，根據(jù)用戶的指令，從頭到尾處理復雜的工作流程。最重要的是，用戶始終掌控全局。ChatGPT 會在執(zhí)行任何重要操作前征求你的許可，你也可以隨時中斷任務、接管瀏覽器或停止運行。

OpenAI 表示，「雖然 ChatGPT Agent 已經(jīng)可以應對復雜任務，但這次發(fā)布只是開始。我們將持續(xù)迭代、定期推出重大改進，讓它變得更強大、更實用，服務于更多用戶?！?/p>

Operator 與深度研究的自然進化

過去，Operator 和 deep research 各自具備獨特優(yōu)勢：Operator 能夠在網(wǎng)頁上滾動、點擊和輸入，而 deep research 擅長分析和總結信息。

不過，二者在不同場景下才發(fā)揮最大作用，各有不擅長的領域。Operator 無法深入分析或撰寫詳細報告，而 deep research 又無法與網(wǎng)頁交互、進一步篩選結果或訪問需要用戶登錄的內(nèi)容。

OpenAI 發(fā)現(xiàn)，許多用戶嘗試用 Operator 處理的任務，其實更適合用 deep research，因此決定將二者的優(yōu)勢整合在一起。

通過將這些互補能力集成進 ChatGPT，并引入更多工具，OpenAI 在一個模型中解鎖了全新的能力。它現(xiàn)在可以主動與網(wǎng)站交互 —— 點擊、篩選并收集更精準、高效的結果。yonghu 也可以在同一個對話中，從自然的交流無縫過渡到發(fā)出具體操作請求。

OpenAI 為 ChatGPT Agent 配備了一整套工具：包括一個通過圖形用戶界面與網(wǎng)頁交互的可視化瀏覽器、一個用于處理簡單推理類網(wǎng)頁查詢的文本瀏覽器、一個終端（命令行界面）、以及直接調用 API 的能力。

該 agent 還可以利用 ChatGPT Connectors，將 Gmail、GitHub 等應用連接進來，使 ChatGPT 能夠查找與你提示相關的信息，并將其用于回答中。用戶也可以通過接管瀏覽器，在任意網(wǎng)站上登錄賬戶，從而幫助它在信息檢索和任務執(zhí)行方面更深入、更廣泛。

為 ChatGPT 提供多種訪問和交互網(wǎng)頁信息的方式，意味著 ChatGPT Agent 能夠選擇最優(yōu)路徑，以最高效地完成任務。例如，它可以通過 API 獲取用戶的日歷信息，使用文本瀏覽器高效處理大量文本內(nèi)容，同時也具備通過可視化界面與專為人類設計的網(wǎng)站進行交互的能力。

所有這些操作都是在 ChatGPT Agent 自己的虛擬計算機上完成的，這可以在使用多個工具時保留任務所需的上下文信息。ChatGPT Agent 可以根據(jù)需要選擇用文本瀏覽器或可視化瀏覽器打開網(wǎng)頁，從網(wǎng)上下載文件，在終端中運行命令處理文件，然后再通過可視化瀏覽器查看輸出結果。同時也會根據(jù)任務調整策略，以快速、準確和高效的執(zhí)行。

ChatGPT Agent 專為迭代式、協(xié)作式的工作流程而設計，遠比以往的模型更加互動和靈活。在 ChatGPT 執(zhí)行任務的過程中，用戶可以隨時打斷它，進一步澄清指令，令其朝著期望的方向發(fā)展，或完全更換任務內(nèi)容。它會在新的信息基礎上繼續(xù)工作，而不會丟失此前的進度。

同樣地，ChatGPT 也會在需要時主動向用戶請求更多細節(jié)，以確保任務始終與目標保持一致。如果某項任務耗時超出預期或陷入停滯，用戶可以選擇暫停任務、請求進度摘要，或者直接終止任務并獲取當前已有的部分結果。如果用戶在手機上安裝了 ChatGPT 應用，它還會在任務完成后發(fā)送通知。

基準測試結果：拓展現(xiàn)實世界的實用性

ChatGPT Agent 及背后模型的能力提升體現(xiàn)在多個基準測試中的頂尖表現(xiàn)，評估內(nèi)容包括網(wǎng)頁瀏覽和現(xiàn)實世界任務的完成能力。

其中在「人類最后考試」（Humanity's Last Exam）評估中（這項評估衡量了 AI 在各個領域的專家級問題上的表現(xiàn)），支持 ChatGPT Agent 的模型在該評估中的 Pass@1 分數(shù)為 41.6。

由于該 Agent 能夠動態(tài)規(guī)劃并自主選擇工具，它可以通過不同的方式處理相同的任務。在通過簡單的并行策略進行擴展時 —— 同時運行最多八次嘗試并選擇自我報告信心最高的結果 ——該 Agent 的 HLE 得分提高到了 44.4。

FrontierMath 是目前已知最難的數(shù)學基準測試，包含全新且未公開發(fā)表的問題，通常需要數(shù)學專家花費數(shù)小時甚至數(shù)天才能解決。在具備工具使用能力（例如可訪問終端以執(zhí)行代碼）的情況下，ChatGPT Agent 在該測試中達到了 27.4% 的準確率，遠遠超越此前的所有模型。

OpenAI 還使用模擬復雜真實任務的基準測試對該模型進行了評估。在一個用于評估模型在復雜、具有經(jīng)濟價值的知識型工作任務中表現(xiàn)的內(nèi)部基準中，ChatGPT Agent 的輸出在大約一半的情況下可與人類相媲美，甚至優(yōu)于人類，任務完成時間范圍不等，并且顯著優(yōu)于 o3 和 o4-mini 模型。

在 DSBench 基準測試中，用于評估 Agent 在涵蓋數(shù)據(jù)分析與建模的真實數(shù)據(jù)科學任務的表現(xiàn)。ChatGPT Agent 超越了人類的平均表現(xiàn)，且優(yōu)勢明顯。

在 SpreadsheetBench 基準測試中，用于評估模型處理真實場景電子表格編輯任務的能力。ChatGPT Agent 表現(xiàn)遠超現(xiàn)有模型。當賦予直接編輯電子表格的能力時，它的得分更是高達 45.5%，而 Excel 中的 Copilot 僅為 20.0%。

方法概覽如下：SpreadsheetBench 的作者使用的是基于 Windows 系統(tǒng)的 Microsoft Excel 環(huán)境來評估電子表格任務。而 OpenAI 使用的是 macOS 系統(tǒng)和 LibreOffice，這可能會導致評分上的細微差異。例如，作者報告 GPT-4o 在「整體高難度限制」項上的得分為 15.02%，而 OpenAI 測得的結果為 13.38%。OpenAI 使用的是包含全部 912 道題目的完整基準測試集。

在一個內(nèi)部基準測試中，OpenAI 評估了模型處理投資銀行分析師一至三年級建模任務的能力，例如：為一家《財富》500 強公司制作帶有規(guī)范格式和引用的三大財務報表模型。ChatGPT Agent 所依托的模型在這一評估中顯著優(yōu)于 deep research 和 o3。

OpenAI 還在 BrowseComp 基準測試中評估了 ChatGPT Agent。該基準由 OpenAI 于今年早些時候發(fā)布，用于衡量瀏覽型 Agent 在網(wǎng)絡上查找難以獲取信息的能力。ChatGPT Agent 在該測試中創(chuàng)下了新的 SOTA（當前最優(yōu)表現(xiàn)），得分為 68.9%，比 deep research 高出 17.4 個百分點。

最后，在 WebArena 基準測試中，用于評估網(wǎng)頁瀏覽型 Agent 完成真實網(wǎng)頁任務的能力。ChatGPT Agent 在表現(xiàn)上超越了由 o3 驅動的 CUA（即驅動 Operator 的模型）。

更多基準測試細節(jié)請參閱 ChatGPT agent 系統(tǒng)卡（System Card）：

系統(tǒng)卡地址：https://cdn.openai.com/pdf/839e66fc-602c-48bf-81d3-b21eacc3459d/chatgpt_agent_system_card.pdf

最后，山姆?奧特曼發(fā)表了一篇長推介紹了 ChatGPT Agent 的安全限制。

Agent 代表了 AI 系統(tǒng)能力的新高度，它能夠利用自身的計算機為你完成一些特殊而復雜的任務。它融合了 Deep Research 和 Operator 的精髓，但實際功能遠超想象 —— 它可以進行長時間思考，使用一些工具，進行更深入的思考，采取一些行動，再進行更深入的思考等等。

例如，我們在發(fā)布會上展示了一個為朋友的婚禮做準備的演示：購買服裝、預訂行程、挑選禮物等等。我們還展示了一個分析數(shù)據(jù)并創(chuàng)建工作演示文稿的示例。

盡管其效用很大，但潛在的風險也很大。我們已在其中構建了大量的安全措施和警告，以及比以往任何時候都更廣泛的緩解措施，從強大的訓練到系統(tǒng)安全措施再到用戶控制，但我們無法預見一切。本著迭代部署的精神，我們將向用戶發(fā)出很多警告，并給予用戶自主選擇是否謹慎采取行動的自由。

我會向我的家人解釋這是前沿和實驗性的。這是一個嘗試未來的機會，但在我們有機會在現(xiàn)實世界研究和改進它之前，我不會將它用于高風險用途或獲取大量個人信息。我們尚不清楚具體會造成什么影響，但惡意行為者可能會試圖「誘騙」用戶的 AI Agent，使其提供不該提供的隱私信息，并采取不該采取的行動，而這些行為的方式我們無法預測。

我們建議授予 Agent 完成任務所需的最低訪問權限，以降低隱私和安全風險。例如，我可以授權 Agent 訪問我的日歷，以便安排一個合適的聚餐時間。但如果我只是讓它幫我買衣服，就不需要授予它任何訪問權限。諸如「查看我昨晚收到的電子郵件，并采取一切必要措施處理，不要問任何后續(xù)問題」之類的任務風險更大。這可能會導致惡意電子郵件中不可信的內(nèi)容誘騙模型泄露你的數(shù)據(jù)。

我們認為，重要的是從接觸現(xiàn)實開始學習，并且隨著我們更好地量化和降低潛在風險，人們應該謹慎而緩慢地采用這些工具。與其他新的能力水平一樣，社會、技術和風險緩解策略需要共同發(fā)展。

網(wǎng)友一手體驗

至于這款 Agent 是否好用，不少網(wǎng)友現(xiàn)身說法。

X 網(wǎng)友 @rowancheung 提前獲得訪問權限，并讓 ChatGPT Agent 在 20 分鐘內(nèi)為他創(chuàng)建一個完整的提前退休計劃。

拿到任務，ChatGPT Agent 就開始查找溫哥華的當?shù)囟惙?、分析平均每月支出率、計?30 歲退休所需的儲蓄金額、研究最佳投資分配，還發(fā)現(xiàn)了 Rowan 從未聽說過的稅務優(yōu)化策略、構建多種財務獨立提前退休（FIRE）場景，最終創(chuàng)建一個可下載的演示文稿，總結結果。

Rowan 表示，這項工作如果由財務顧問完成，可能會花費 5000 美元以上，并且需要數(shù)周時間。其中電子表格和幻燈片生成能力確實不錯，但與 Manus 或 Genspark 等工具得到的結果類似。