編者按:本文來自微信公眾號“機器之心”(ID:almosthuman2014),作者:關注Agent的,創(chuàng)業(yè)邦經(jīng)授權轉載。
ChatGPT 現(xiàn)在可以思考行動,主動選擇工具,用自己的虛擬計算機為你完成任務。
Agent AI 時代,比我們想象中來得要早一些。
北京時間周五凌晨,OpenAI 突然開啟了新產(chǎn)品直播。
本次發(fā)布的是全新的 ChatGPT Agent,它實現(xiàn)了通用智能體(Agent)能力的關鍵升級。
與以往的基礎大模型升級不同,通用 Agent 可以自動利用多種工具進行規(guī)劃,幫助人們完成復雜的任務,包括自動瀏覽用戶日歷,生成可編輯的 PPT,運行代碼等等。Agent 能夠連接你的 Gmail、GitHub 網(wǎng)站獲取信息并解決問題,使用 API 來訪問各種應用。Agent 加持的 AI 智能有了大幅提升 —— 基于 ChatGPT Agent 的模型在 HLE 基準上拿到了 41.6% 的分數(shù),是 o3 和 o4-mini 的幾乎兩倍。
ChatGPT Agent 目前已向 OpenAI Pro、Plus 和 Team 計劃的訂閱用戶開放。想要使用的用戶在 ChatGPT 的工具下拉菜單中選擇「Agent 模式」即可。
OpenAI 表示,企業(yè)版和教育版用戶預計將于夏季晚些時候獲得新功能。在正式發(fā)布時,Pro 用戶每月通常最多可使用 400 次 Agent 提示,其他付費用戶則最多可使用 40 次。目前尚不清楚該功能何時會面向 ChatGPT 免費用戶推出。
這是 OpenAI 迄今為止最為大膽的一次新產(chǎn)品發(fā)布,從此以后 ChatGPT 成為了一款能夠為人們采取行動和分擔任務的 Agent 產(chǎn)品,已經(jīng)遠遠超出了回答問題的范疇。
OpenAI CEO 山姆?奧特曼(Sam Altman)表示,看著 ChatGPT 智能體使用計算機執(zhí)行復雜任務對我來說是一個真正的「感受 AGI」的時刻,看到計算機思考、計劃和執(zhí)行會帶來不同的感受。
ChatGPT 現(xiàn)在可以使用自己的虛擬電腦為你完成工作,從頭到尾處理復雜任務。用戶不僅可以讓 ChatGPT 執(zhí)行諸如「查詢年度財務報告」等請求,并智能地瀏覽網(wǎng)站、篩選結果,在需要時提示你安全登錄,運行代碼、進行分析,甚至可以交付可編輯的幻燈片和電子表格,總結其研究成果。
比如讓「ChatGPT Agent 搜索查詢舊金山市年度綜合財務報告(2020-2024 年)」:
再比如輸入提示「我是一位網(wǎng)球迷,想去棕櫚泉觀看網(wǎng)球比賽,特別是在半決賽 / 決賽期間。我住在舊金山,請幫我制定一份詳細的三天行程,包括航班安排、酒店預訂、活動內(nèi)容(比賽、徒步、美食、水療等)。我喜歡徒步旅行、純素食餐廳和水療。總預算為 3000 美元。這份行程需要包括:精確的時間安排;每項活動的內(nèi)容、費用和其他細節(jié);如有需要,提供購票或預訂鏈接」,接著讓 ChatGPT Agent 幫你制定詳細的行程:
這一新能力的核心是一個統(tǒng)一的智能 agentic 系統(tǒng),它結合了三個早期突破的優(yōu)勢,包括 Operator 的網(wǎng)站交互能力、deep research 的信息綜合能力,以及 ChatGPT 的智能推理與對話能力。
ChatGPT 借助自己的虛擬計算環(huán)境,在推理與執(zhí)行之間靈活切換,根據(jù)用戶的指令,從頭到尾處理復雜的工作流程。 最重要的是,用戶始終掌控全局。ChatGPT 會在執(zhí)行任何重要操作前征求你的許可,你也可以隨時中斷任務、接管瀏覽器或停止運行。
OpenAI 表示,「雖然 ChatGPT Agent 已經(jīng)可以應對復雜任務,但這次發(fā)布只是開始。我們將持續(xù)迭代、定期推出重大改進,讓它變得更強大、更實用,服務于更多用戶?!?/p>
Operator 與深度研究的自然進化
過去,Operator 和 deep research 各自具備獨特優(yōu)勢:Operator 能夠在網(wǎng)頁上滾動、點擊和輸入,而 deep research 擅長分析和總結信息。
不過,二者在不同場景下才發(fā)揮最大作用,各有不擅長的領域。Operator 無法深入分析或撰寫詳細報告,而 deep research 又無法與網(wǎng)頁交互、進一步篩選結果或訪問需要用戶登錄的內(nèi)容。
OpenAI 發(fā)現(xiàn),許多用戶嘗試用 Operator 處理的任務,其實更適合用 deep research,因此決定將二者的優(yōu)勢整合在一起。
通過將這些互補能力集成進 ChatGPT,并引入更多工具,OpenAI 在一個模型中解鎖了全新的能力。它現(xiàn)在可以主動與網(wǎng)站交互 —— 點擊、篩選并收集更精準、高效的結果。yonghu 也可以在同一個對話中,從自然的交流無縫過渡到發(fā)出具體操作請求。
OpenAI 為 ChatGPT Agent 配備了一整套工具:包括一個通過圖形用戶界面與網(wǎng)頁交互的可視化瀏覽器、一個用于處理簡單推理類網(wǎng)頁查詢的文本瀏覽器、一個終端(命令行界面)、以及直接調用 API 的能力。
該 agent 還可以利用 ChatGPT Connectors,將 Gmail、GitHub 等應用連接進來,使 ChatGPT 能夠查找與你提示相關的信息,并將其用于回答中。用戶也可以通過接管瀏覽器,在任意網(wǎng)站上登錄賬戶,從而幫助它在信息檢索和任務執(zhí)行方面更深入、更廣泛。
為 ChatGPT 提供多種訪問和交互網(wǎng)頁信息的方式,意味著 ChatGPT Agent 能夠選擇最優(yōu)路徑,以最高效地完成任務。例如,它可以通過 API 獲取用戶的日歷信息,使用文本瀏覽器高效處理大量文本內(nèi)容,同時也具備通過可視化界面與專為人類設計的網(wǎng)站進行交互的能力。
所有這些操作都是在 ChatGPT Agent 自己的虛擬計算機上完成的,這可以在使用多個工具時保留任務所需的上下文信息。ChatGPT Agent 可以根據(jù)需要選擇用文本瀏覽器或可視化瀏覽器打開網(wǎng)頁,從網(wǎng)上下載文件,在終端中運行命令處理文件,然后再通過可視化瀏覽器查看輸出結果。同時也會根據(jù)任務調整策略,以快速、準確和高效的執(zhí)行。
ChatGPT Agent 專為迭代式、協(xié)作式的工作流程而設計,遠比以往的模型更加互動和靈活。在 ChatGPT 執(zhí)行任務的過程中,用戶可以隨時打斷它,進一步澄清指令,令其朝著期望的方向發(fā)展,或完全更換任務內(nèi)容。它會在新的信息基礎上繼續(xù)工作,而不會丟失此前的進度。
同樣地,ChatGPT 也會在需要時主動向用戶請求更多細節(jié),以確保任務始終與目標保持一致。如果某項任務耗時超出預期或陷入停滯,用戶可以選擇暫停任務、請求進度摘要,或者直接終止任務并獲取當前已有的部分結果。如果用戶在手機上安裝了 ChatGPT 應用,它還會在任務完成后發(fā)送通知。
基準測試結果:拓展現(xiàn)實世界的實用性
ChatGPT Agent 及背后模型的能力提升體現(xiàn)在多個基準測試中的頂尖表現(xiàn),評估內(nèi)容包括網(wǎng)頁瀏覽和現(xiàn)實世界任務的完成能力。
其中在「人類最后考試」(Humanity's Last Exam)評估中(這項評估衡量了 AI 在各個領域的專家級問題上的表現(xiàn)),支持 ChatGPT Agent 的模型在該評估中的 Pass@1 分數(shù)為 41.6。
由于該 Agent 能夠動態(tài)規(guī)劃并自主選擇工具,它可以通過不同的方式處理相同的任務。在通過簡單的并行策略進行擴展時 —— 同時運行最多八次嘗試并選擇自我報告信心最高的結果 ——該 Agent 的 HLE 得分提高到了 44.4。
FrontierMath 是目前已知最難的數(shù)學基準測試,包含全新且未公開發(fā)表的問題,通常需要數(shù)學專家花費數(shù)小時甚至數(shù)天才能解決。在具備工具使用能力(例如可訪問終端以執(zhí)行代碼)的情況下,ChatGPT Agent 在該測試中達到了 27.4% 的準確率,遠遠超越此前的所有模型。
OpenAI 還使用模擬復雜真實任務的基準測試對該模型進行了評估。在一個用于評估模型在復雜、具有經(jīng)濟價值的知識型工作任務中表現(xiàn)的內(nèi)部基準中,ChatGPT Agent 的輸出在大約一半的情況下可與人類相媲美,甚至優(yōu)于人類,任務完成時間范圍不等,并且顯著優(yōu)于 o3 和 o4-mini 模型。
在 DSBench 基準測試中,用于評估 Agent 在涵蓋數(shù)據(jù)分析與建模的真實數(shù)據(jù)科學任務的表現(xiàn)。ChatGPT Agent 超越了人類的平均表現(xiàn),且優(yōu)勢明顯。
在 SpreadsheetBench 基準測試中,用于評估模型處理真實場景電子表格編輯任務的能力。ChatGPT Agent 表現(xiàn)遠超現(xiàn)有模型。當賦予直接編輯電子表格的能力時,它的得分更是高達 45.5%,而 Excel 中的 Copilot 僅為 20.0%。
方法概覽如下:SpreadsheetBench 的作者使用的是基于 Windows 系統(tǒng)的 Microsoft Excel 環(huán)境來評估電子表格任務。而 OpenAI 使用的是 macOS 系統(tǒng)和 LibreOffice,這可能會導致評分上的細微差異。例如,作者報告 GPT-4o 在「整體高難度限制」項上的得分為 15.02%,而 OpenAI 測得的結果為 13.38%。OpenAI 使用的是包含全部 912 道題目的完整基準測試集。
在一個內(nèi)部基準測試中,OpenAI 評估了模型處理投資銀行分析師一至三年級建模任務的能力,例如:為一家《財富》500 強公司制作帶有規(guī)范格式和引用的三大財務報表模型。ChatGPT Agent 所依托的模型在這一評估中顯著優(yōu)于 deep research 和 o3。
OpenAI 還在 BrowseComp 基準測試中評估了 ChatGPT Agent。該基準由 OpenAI 于今年早些時候發(fā)布,用于衡量瀏覽型 Agent 在網(wǎng)絡上查找難以獲取信息的能力。ChatGPT Agent 在該測試中創(chuàng)下了新的 SOTA(當前最優(yōu)表現(xiàn)),得分為 68.9%,比 deep research 高出 17.4 個百分點。
最后,在 WebArena 基準測試中,用于評估網(wǎng)頁瀏覽型 Agent 完成真實網(wǎng)頁任務的能力。ChatGPT Agent 在表現(xiàn)上超越了由 o3 驅動的 CUA(即驅動 Operator 的模型)。
更多基準測試細節(jié)請參閱 ChatGPT agent 系統(tǒng)卡(System Card):
系統(tǒng)卡地址:https://cdn.openai.com/pdf/839e66fc-602c-48bf-81d3-b21eacc3459d/chatgpt_agent_system_card.pdf
最后,山姆?奧特曼發(fā)表了一篇長推介紹了 ChatGPT Agent 的安全限制。
Agent 代表了 AI 系統(tǒng)能力的新高度,它能夠利用自身的計算機為你完成一些特殊而復雜的任務。它融合了 Deep Research 和 Operator 的精髓,但實際功能遠超想象 —— 它可以進行長時間思考,使用一些工具,進行更深入的思考,采取一些行動,再進行更深入的思考等等。
例如,我們在發(fā)布會上展示了一個為朋友的婚禮做準備的演示:購買服裝、預訂行程、挑選禮物等等。我們還展示了一個分析數(shù)據(jù)并創(chuàng)建工作演示文稿的示例。
盡管其效用很大,但潛在的風險也很大。我們已在其中構建了大量的安全措施和警告,以及比以往任何時候都更廣泛的緩解措施,從強大的訓練到系統(tǒng)安全措施再到用戶控制,但我們無法預見一切。本著迭代部署的精神,我們將向用戶發(fā)出很多警告,并給予用戶自主選擇是否謹慎采取行動的自由。
我會向我的家人解釋這是前沿和實驗性的。這是一個嘗試未來的機會,但在我們有機會在現(xiàn)實世界研究和改進它之前,我不會將它用于高風險用途或獲取大量個人信息。我們尚不清楚具體會造成什么影響,但惡意行為者可能會試圖「誘騙」用戶的 AI Agent,使其提供不該提供的隱私信息,并采取不該采取的行動,而這些行為的方式我們無法預測。
我們建議授予 Agent 完成任務所需的最低訪問權限,以降低隱私和安全風險。例如,我可以授權 Agent 訪問我的日歷,以便安排一個合適的聚餐時間。但如果我只是讓它幫我買衣服,就不需要授予它任何訪問權限。諸如「查看我昨晚收到的電子郵件,并采取一切必要措施處理,不要問任何后續(xù)問題」之類的任務風險更大。這可能會導致惡意電子郵件中不可信的內(nèi)容誘騙模型泄露你的數(shù)據(jù)。
我們認為,重要的是從接觸現(xiàn)實開始學習,并且隨著我們更好地量化和降低潛在風險,人們應該謹慎而緩慢地采用這些工具。與其他新的能力水平一樣,社會、技術和風險緩解策略需要共同發(fā)展。
網(wǎng)友一手體驗
至于這款 Agent 是否好用,不少網(wǎng)友現(xiàn)身說法。
X 網(wǎng)友 @rowancheung 提前獲得訪問權限,并讓 ChatGPT Agent 在 20 分鐘內(nèi)為他創(chuàng)建一個完整的提前退休計劃。
拿到任務,ChatGPT Agent 就開始查找溫哥華的當?shù)囟惙?、分析平均每月支出率、計?30 歲退休所需的儲蓄金額、研究最佳投資分配,還發(fā)現(xiàn)了 Rowan 從未聽說過的稅務優(yōu)化策略、構建多種財務獨立提前退休(FIRE)場景,最終創(chuàng)建一個可下載的演示文稿,總結結果。
Rowan 表示,這項工作如果由財務顧問完成,可能會花費 5000 美元以上,并且需要數(shù)周時間。其中電子表格和幻燈片生成能力確實不錯,但與 Manus 或 Genspark 等工具得到的結果類似。
于是,Genspark 聯(lián)合創(chuàng)始人、CEO Eric Jing 將 Rowan Cheung 的提示詞進行了 OCR,并將其輸入到 Genspark 中。
他表示,在相同的提示下,Genspark 僅用了一小部分時間和成本,就生成了比 ChatGPT Agent 質量高得多的結果。
還有網(wǎng)友讓 ChatGPT Agent 去 Tesco 食品店完成購物,訂購烤肉晚餐和粘稠焦糖布丁。
他給出的提示詞也相當簡單:Help me do a tesco shop for a roast dinner this weekend for two people. Include a treat for desert.
「我看著它瀏覽網(wǎng)站、提示我輸入登錄信息、將商品加入購物車,并自主完成整個過程,真是太不可思議了?!?/p>
不過,該網(wǎng)友也坦言,ChatGPT Agent 干活的整個過程大約花了 20 分鐘,如果自己手動操作可能會更高效一些,未來還有改進的空間。
參考內(nèi)容
https://openai.com/index/introducing-chatgpt-agent/
https://x.com/OpenAI/status/1945890050077782149
https://x.com/rowancheung/status/1945896543263080736
https://x.com/ericjing_ai/status/1945915234784588272
https://x.com/thealexbanks/status/1945921363237052589
本文為專欄作者授權創(chuàng)業(yè)邦發(fā)表,版權歸原作者所有。文章系作者個人觀點,不代表創(chuàng)業(yè)邦立場,轉載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn。