五月天成人小说,中文字幕亚洲欧美专区,久久妇女,亚洲伊人久久大香线蕉综合,日日碰狠狠添天天爽超碰97

剛剛,OpenAI通用智能體ChatGPT Agent正式登場(chǎng)

迄今為止最大升級(jí)。

編者按:本文來自微信公眾號(hào)“機(jī)器之心”(ID:almosthuman2014),作者:關(guān)注Agent的,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

ChatGPT 現(xiàn)在可以思考行動(dòng),主動(dòng)選擇工具,用自己的虛擬計(jì)算機(jī)為你完成任務(wù)。

Agent AI 時(shí)代,比我們想象中來得要早一些。

北京時(shí)間周五凌晨,OpenAI 突然開啟了新產(chǎn)品直播。

本次發(fā)布的是全新的 ChatGPT Agent,它實(shí)現(xiàn)了通用智能體(Agent)能力的關(guān)鍵升級(jí)。

與以往的基礎(chǔ)大模型升級(jí)不同,通用 Agent 可以自動(dòng)利用多種工具進(jìn)行規(guī)劃,幫助人們完成復(fù)雜的任務(wù),包括自動(dòng)瀏覽用戶日歷,生成可編輯的 PPT,運(yùn)行代碼等等。Agent 能夠連接你的 Gmail、GitHub 網(wǎng)站獲取信息并解決問題,使用 API 來訪問各種應(yīng)用。Agent 加持的 AI 智能有了大幅提升 —— 基于 ChatGPT Agent 的模型在 HLE 基準(zhǔn)上拿到了 41.6% 的分?jǐn)?shù),是 o3 和 o4-mini 的幾乎兩倍。

ChatGPT Agent 目前已向 OpenAI Pro、Plus 和 Team 計(jì)劃的訂閱用戶開放。想要使用的用戶在 ChatGPT 的工具下拉菜單中選擇「Agent 模式」即可。

OpenAI 表示,企業(yè)版和教育版用戶預(yù)計(jì)將于夏季晚些時(shí)候獲得新功能。在正式發(fā)布時(shí),Pro 用戶每月通常最多可使用 400 次 Agent 提示,其他付費(fèi)用戶則最多可使用 40 次。目前尚不清楚該功能何時(shí)會(huì)面向 ChatGPT 免費(fèi)用戶推出。

這是 OpenAI 迄今為止最為大膽的一次新產(chǎn)品發(fā)布,從此以后 ChatGPT 成為了一款能夠?yàn)槿藗儾扇⌒袆?dòng)和分擔(dān)任務(wù)的 Agent 產(chǎn)品,已經(jīng)遠(yuǎn)遠(yuǎn)超出了回答問題的范疇。

OpenAI CEO 山姆?奧特曼(Sam Altman)表示,看著 ChatGPT 智能體使用計(jì)算機(jī)執(zhí)行復(fù)雜任務(wù)對(duì)我來說是一個(gè)真正的「感受 AGI」的時(shí)刻,看到計(jì)算機(jī)思考、計(jì)劃和執(zhí)行會(huì)帶來不同的感受。

ChatGPT 現(xiàn)在可以使用自己的虛擬電腦為你完成工作,從頭到尾處理復(fù)雜任務(wù)。用戶不僅可以讓 ChatGPT 執(zhí)行諸如「查詢年度財(cái)務(wù)報(bào)告」等請(qǐng)求,并智能地瀏覽網(wǎng)站、篩選結(jié)果,在需要時(shí)提示你安全登錄,運(yùn)行代碼、進(jìn)行分析,甚至可以交付可編輯的幻燈片和電子表格,總結(jié)其研究成果。

比如讓「ChatGPT Agent 搜索查詢舊金山市年度綜合財(cái)務(wù)報(bào)告(2020-2024 年)」:

再比如輸入提示「我是一位網(wǎng)球迷,想去棕櫚泉觀看網(wǎng)球比賽,特別是在半決賽 / 決賽期間。我住在舊金山,請(qǐng)幫我制定一份詳細(xì)的三天行程,包括航班安排、酒店預(yù)訂、活動(dòng)內(nèi)容(比賽、徒步、美食、水療等)。我喜歡徒步旅行、純素食餐廳和水療??傤A(yù)算為 3000 美元。這份行程需要包括:精確的時(shí)間安排;每項(xiàng)活動(dòng)的內(nèi)容、費(fèi)用和其他細(xì)節(jié);如有需要,提供購(gòu)票或預(yù)訂鏈接」,接著讓 ChatGPT Agent 幫你制定詳細(xì)的行程:

這一新能力的核心是一個(gè)統(tǒng)一的智能 agentic 系統(tǒng),它結(jié)合了三個(gè)早期突破的優(yōu)勢(shì),包括 Operator 的網(wǎng)站交互能力、deep research 的信息綜合能力,以及 ChatGPT 的智能推理與對(duì)話能力。

ChatGPT 借助自己的虛擬計(jì)算環(huán)境,在推理與執(zhí)行之間靈活切換,根據(jù)用戶的指令,從頭到尾處理復(fù)雜的工作流程。 最重要的是,用戶始終掌控全局。ChatGPT 會(huì)在執(zhí)行任何重要操作前征求你的許可,你也可以隨時(shí)中斷任務(wù)、接管瀏覽器或停止運(yùn)行。

OpenAI 表示,「雖然 ChatGPT Agent 已經(jīng)可以應(yīng)對(duì)復(fù)雜任務(wù),但這次發(fā)布只是開始。我們將持續(xù)迭代、定期推出重大改進(jìn),讓它變得更強(qiáng)大、更實(shí)用,服務(wù)于更多用戶?!?/p>

Operator 與深度研究的自然進(jìn)化

過去,Operator 和 deep research 各自具備獨(dú)特優(yōu)勢(shì):Operator 能夠在網(wǎng)頁(yè)上滾動(dòng)、點(diǎn)擊和輸入,而 deep research 擅長(zhǎng)分析和總結(jié)信息。

不過,二者在不同場(chǎng)景下才發(fā)揮最大作用,各有不擅長(zhǎng)的領(lǐng)域。Operator 無法深入分析或撰寫詳細(xì)報(bào)告,而 deep research 又無法與網(wǎng)頁(yè)交互、進(jìn)一步篩選結(jié)果或訪問需要用戶登錄的內(nèi)容。

OpenAI 發(fā)現(xiàn),許多用戶嘗試用 Operator 處理的任務(wù),其實(shí)更適合用 deep research,因此決定將二者的優(yōu)勢(shì)整合在一起。

通過將這些互補(bǔ)能力集成進(jìn) ChatGPT,并引入更多工具,OpenAI 在一個(gè)模型中解鎖了全新的能力。它現(xiàn)在可以主動(dòng)與網(wǎng)站交互 —— 點(diǎn)擊、篩選并收集更精準(zhǔn)、高效的結(jié)果。yonghu 也可以在同一個(gè)對(duì)話中,從自然的交流無縫過渡到發(fā)出具體操作請(qǐng)求。

OpenAI 為 ChatGPT Agent 配備了一整套工具:包括一個(gè)通過圖形用戶界面與網(wǎng)頁(yè)交互的可視化瀏覽器、一個(gè)用于處理簡(jiǎn)單推理類網(wǎng)頁(yè)查詢的文本瀏覽器、一個(gè)終端(命令行界面)、以及直接調(diào)用 API 的能力。

該 agent 還可以利用 ChatGPT Connectors,將 Gmail、GitHub 等應(yīng)用連接進(jìn)來,使 ChatGPT 能夠查找與你提示相關(guān)的信息,并將其用于回答中。用戶也可以通過接管瀏覽器,在任意網(wǎng)站上登錄賬戶,從而幫助它在信息檢索和任務(wù)執(zhí)行方面更深入、更廣泛。

為 ChatGPT 提供多種訪問和交互網(wǎng)頁(yè)信息的方式,意味著 ChatGPT Agent 能夠選擇最優(yōu)路徑,以最高效地完成任務(wù)。例如,它可以通過 API 獲取用戶的日歷信息,使用文本瀏覽器高效處理大量文本內(nèi)容,同時(shí)也具備通過可視化界面與專為人類設(shè)計(jì)的網(wǎng)站進(jìn)行交互的能力。

所有這些操作都是在 ChatGPT Agent 自己的虛擬計(jì)算機(jī)上完成的,這可以在使用多個(gè)工具時(shí)保留任務(wù)所需的上下文信息。ChatGPT Agent 可以根據(jù)需要選擇用文本瀏覽器或可視化瀏覽器打開網(wǎng)頁(yè),從網(wǎng)上下載文件,在終端中運(yùn)行命令處理文件,然后再通過可視化瀏覽器查看輸出結(jié)果。同時(shí)也會(huì)根據(jù)任務(wù)調(diào)整策略,以快速、準(zhǔn)確和高效的執(zhí)行。

ChatGPT Agent 專為迭代式、協(xié)作式的工作流程而設(shè)計(jì),遠(yuǎn)比以往的模型更加互動(dòng)和靈活。在 ChatGPT 執(zhí)行任務(wù)的過程中,用戶可以隨時(shí)打斷它,進(jìn)一步澄清指令,令其朝著期望的方向發(fā)展,或完全更換任務(wù)內(nèi)容。它會(huì)在新的信息基礎(chǔ)上繼續(xù)工作,而不會(huì)丟失此前的進(jìn)度。

同樣地,ChatGPT 也會(huì)在需要時(shí)主動(dòng)向用戶請(qǐng)求更多細(xì)節(jié),以確保任務(wù)始終與目標(biāo)保持一致。如果某項(xiàng)任務(wù)耗時(shí)超出預(yù)期或陷入停滯,用戶可以選擇暫停任務(wù)、請(qǐng)求進(jìn)度摘要,或者直接終止任務(wù)并獲取當(dāng)前已有的部分結(jié)果。如果用戶在手機(jī)上安裝了 ChatGPT 應(yīng)用,它還會(huì)在任務(wù)完成后發(fā)送通知。

基準(zhǔn)測(cè)試結(jié)果:拓展現(xiàn)實(shí)世界的實(shí)用性

ChatGPT Agent 及背后模型的能力提升體現(xiàn)在多個(gè)基準(zhǔn)測(cè)試中的頂尖表現(xiàn),評(píng)估內(nèi)容包括網(wǎng)頁(yè)瀏覽和現(xiàn)實(shí)世界任務(wù)的完成能力。

其中在「人類最后考試」(Humanity's Last Exam)評(píng)估中(這項(xiàng)評(píng)估衡量了 AI 在各個(gè)領(lǐng)域的專家級(jí)問題上的表現(xiàn)),支持 ChatGPT Agent 的模型在該評(píng)估中的 Pass@1 分?jǐn)?shù)為 41.6。

由于該 Agent 能夠動(dòng)態(tài)規(guī)劃并自主選擇工具,它可以通過不同的方式處理相同的任務(wù)。在通過簡(jiǎn)單的并行策略進(jìn)行擴(kuò)展時(shí) —— 同時(shí)運(yùn)行最多八次嘗試并選擇自我報(bào)告信心最高的結(jié)果 ——該 Agent 的 HLE 得分提高到了 44.4。

FrontierMath 是目前已知最難的數(shù)學(xué)基準(zhǔn)測(cè)試,包含全新且未公開發(fā)表的問題,通常需要數(shù)學(xué)專家花費(fèi)數(shù)小時(shí)甚至數(shù)天才能解決。在具備工具使用能力(例如可訪問終端以執(zhí)行代碼)的情況下,ChatGPT Agent 在該測(cè)試中達(dá)到了 27.4% 的準(zhǔn)確率,遠(yuǎn)遠(yuǎn)超越此前的所有模型。

OpenAI 還使用模擬復(fù)雜真實(shí)任務(wù)的基準(zhǔn)測(cè)試對(duì)該模型進(jìn)行了評(píng)估。在一個(gè)用于評(píng)估模型在復(fù)雜、具有經(jīng)濟(jì)價(jià)值的知識(shí)型工作任務(wù)中表現(xiàn)的內(nèi)部基準(zhǔn)中,ChatGPT Agent 的輸出在大約一半的情況下可與人類相媲美,甚至優(yōu)于人類,任務(wù)完成時(shí)間范圍不等,并且顯著優(yōu)于 o3 和 o4-mini 模型。

在 DSBench 基準(zhǔn)測(cè)試中,用于評(píng)估 Agent 在涵蓋數(shù)據(jù)分析與建模的真實(shí)數(shù)據(jù)科學(xué)任務(wù)的表現(xiàn)。ChatGPT Agent 超越了人類的平均表現(xiàn),且優(yōu)勢(shì)明顯。

在 SpreadsheetBench 基準(zhǔn)測(cè)試中,用于評(píng)估模型處理真實(shí)場(chǎng)景電子表格編輯任務(wù)的能力。ChatGPT Agent 表現(xiàn)遠(yuǎn)超現(xiàn)有模型。當(dāng)賦予直接編輯電子表格的能力時(shí),它的得分更是高達(dá) 45.5%,而 Excel 中的 Copilot 僅為 20.0%。

方法概覽如下:SpreadsheetBench 的作者使用的是基于 Windows 系統(tǒng)的 Microsoft Excel 環(huán)境來評(píng)估電子表格任務(wù)。而 OpenAI 使用的是 macOS 系統(tǒng)和 LibreOffice,這可能會(huì)導(dǎo)致評(píng)分上的細(xì)微差異。例如,作者報(bào)告 GPT-4o 在「整體高難度限制」項(xiàng)上的得分為 15.02%,而 OpenAI 測(cè)得的結(jié)果為 13.38%。OpenAI 使用的是包含全部 912 道題目的完整基準(zhǔn)測(cè)試集。

在一個(gè)內(nèi)部基準(zhǔn)測(cè)試中,OpenAI 評(píng)估了模型處理投資銀行分析師一至三年級(jí)建模任務(wù)的能力,例如:為一家《財(cái)富》500 強(qiáng)公司制作帶有規(guī)范格式和引用的三大財(cái)務(wù)報(bào)表模型。ChatGPT Agent 所依托的模型在這一評(píng)估中顯著優(yōu)于 deep research 和 o3。

OpenAI 還在 BrowseComp 基準(zhǔn)測(cè)試中評(píng)估了 ChatGPT Agent。該基準(zhǔn)由 OpenAI 于今年早些時(shí)候發(fā)布,用于衡量瀏覽型 Agent 在網(wǎng)絡(luò)上查找難以獲取信息的能力。ChatGPT Agent 在該測(cè)試中創(chuàng)下了新的 SOTA(當(dāng)前最優(yōu)表現(xiàn)),得分為 68.9%,比 deep research 高出 17.4 個(gè)百分點(diǎn)。

最后,在 WebArena 基準(zhǔn)測(cè)試中,用于評(píng)估網(wǎng)頁(yè)瀏覽型 Agent 完成真實(shí)網(wǎng)頁(yè)任務(wù)的能力。ChatGPT Agent 在表現(xiàn)上超越了由 o3 驅(qū)動(dòng)的 CUA(即驅(qū)動(dòng) Operator 的模型)。

更多基準(zhǔn)測(cè)試細(xì)節(jié)請(qǐng)參閱 ChatGPT agent 系統(tǒng)卡(System Card):

系統(tǒng)卡地址:https://cdn.openai.com/pdf/839e66fc-602c-48bf-81d3-b21eacc3459d/chatgpt_agent_system_card.pdf

最后,山姆?奧特曼發(fā)表了一篇長(zhǎng)推介紹了 ChatGPT Agent 的安全限制。

Agent 代表了 AI 系統(tǒng)能力的新高度,它能夠利用自身的計(jì)算機(jī)為你完成一些特殊而復(fù)雜的任務(wù)。它融合了 Deep Research 和 Operator 的精髓,但實(shí)際功能遠(yuǎn)超想象 —— 它可以進(jìn)行長(zhǎng)時(shí)間思考,使用一些工具,進(jìn)行更深入的思考,采取一些行動(dòng),再進(jìn)行更深入的思考等等。

例如,我們?cè)诎l(fā)布會(huì)上展示了一個(gè)為朋友的婚禮做準(zhǔn)備的演示:購(gòu)買服裝、預(yù)訂行程、挑選禮物等等。我們還展示了一個(gè)分析數(shù)據(jù)并創(chuàng)建工作演示文稿的示例。

盡管其效用很大,但潛在的風(fēng)險(xiǎn)也很大。我們已在其中構(gòu)建了大量的安全措施和警告,以及比以往任何時(shí)候都更廣泛的緩解措施,從強(qiáng)大的訓(xùn)練到系統(tǒng)安全措施再到用戶控制,但我們無法預(yù)見一切。本著迭代部署的精神,我們將向用戶發(fā)出很多警告,并給予用戶自主選擇是否謹(jǐn)慎采取行動(dòng)的自由。

我會(huì)向我的家人解釋這是前沿和實(shí)驗(yàn)性的。這是一個(gè)嘗試未來的機(jī)會(huì),但在我們有機(jī)會(huì)在現(xiàn)實(shí)世界研究和改進(jìn)它之前,我不會(huì)將它用于高風(fēng)險(xiǎn)用途或獲取大量個(gè)人信息。我們尚不清楚具體會(huì)造成什么影響,但惡意行為者可能會(huì)試圖「誘騙」用戶的 AI Agent,使其提供不該提供的隱私信息,并采取不該采取的行動(dòng),而這些行為的方式我們無法預(yù)測(cè)。

我們建議授予 Agent 完成任務(wù)所需的最低訪問權(quán)限,以降低隱私和安全風(fēng)險(xiǎn)。例如,我可以授權(quán) Agent 訪問我的日歷,以便安排一個(gè)合適的聚餐時(shí)間。但如果我只是讓它幫我買衣服,就不需要授予它任何訪問權(quán)限。諸如「查看我昨晚收到的電子郵件,并采取一切必要措施處理,不要問任何后續(xù)問題」之類的任務(wù)風(fēng)險(xiǎn)更大。這可能會(huì)導(dǎo)致惡意電子郵件中不可信的內(nèi)容誘騙模型泄露你的數(shù)據(jù)。

我們認(rèn)為,重要的是從接觸現(xiàn)實(shí)開始學(xué)習(xí),并且隨著我們更好地量化和降低潛在風(fēng)險(xiǎn),人們應(yīng)該謹(jǐn)慎而緩慢地采用這些工具。與其他新的能力水平一樣,社會(huì)、技術(shù)和風(fēng)險(xiǎn)緩解策略需要共同發(fā)展。

網(wǎng)友一手體驗(yàn)

至于這款 Agent 是否好用,不少網(wǎng)友現(xiàn)身說法。

X 網(wǎng)友 @rowancheung 提前獲得訪問權(quán)限,并讓 ChatGPT Agent 在 20 分鐘內(nèi)為他創(chuàng)建一個(gè)完整的提前退休計(jì)劃。

拿到任務(wù),ChatGPT Agent 就開始查找溫哥華的當(dāng)?shù)囟惙ā⒎治銎骄吭轮С雎?、?jì)算 30 歲退休所需的儲(chǔ)蓄金額、研究最佳投資分配,還發(fā)現(xiàn)了 Rowan 從未聽說過的稅務(wù)優(yōu)化策略、構(gòu)建多種財(cái)務(wù)獨(dú)立提前退休(FIRE)場(chǎng)景,最終創(chuàng)建一個(gè)可下載的演示文稿,總結(jié)結(jié)果。

Rowan 表示,這項(xiàng)工作如果由財(cái)務(wù)顧問完成,可能會(huì)花費(fèi) 5000 美元以上,并且需要數(shù)周時(shí)間。其中電子表格和幻燈片生成能力確實(shí)不錯(cuò),但與 Manus 或 Genspark 等工具得到的結(jié)果類似。

于是,Genspark 聯(lián)合創(chuàng)始人、CEO Eric Jing 將 Rowan Cheung 的提示詞進(jìn)行了 OCR,并將其輸入到 Genspark 中。

他表示,在相同的提示下,Genspark 僅用了一小部分時(shí)間和成本,就生成了比 ChatGPT Agent 質(zhì)量高得多的結(jié)果。

還有網(wǎng)友讓 ChatGPT Agent 去 Tesco 食品店完成購(gòu)物,訂購(gòu)烤肉晚餐和粘稠焦糖布丁。

他給出的提示詞也相當(dāng)簡(jiǎn)單:Help me do a tesco shop for a roast dinner this weekend for two people. Include a treat for desert.

「我看著它瀏覽網(wǎng)站、提示我輸入登錄信息、將商品加入購(gòu)物車,并自主完成整個(gè)過程,真是太不可思議了?!?/p>

不過,該網(wǎng)友也坦言,ChatGPT Agent 干活的整個(gè)過程大約花了 20 分鐘,如果自己手動(dòng)操作可能會(huì)更高效一些,未來還有改進(jìn)的空間。

參考內(nèi)容

https://openai.com/index/introducing-chatgpt-agent/

https://x.com/OpenAI/status/1945890050077782149

https://x.com/rowancheung/status/1945896543263080736

https://x.com/ericjing_ai/status/1945915234784588272

https://x.com/thealexbanks/status/1945921363237052589

本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn),不代表創(chuàng)業(yè)邦立場(chǎng),轉(zhuǎn)載請(qǐng)聯(lián)系原作者。如有任何疑問,請(qǐng)聯(lián)系editor@cyzone.cn。

反饋
聯(lián)系我們
推薦訂閱