編者按:本文來自微信公眾號(hào) 來源:劃重點(diǎn)KeyPoints(huazhongdian123),作者:林易,創(chuàng)業(yè)邦經(jīng)授權(quán)發(fā)布。
劃重點(diǎn):
1、李飛飛最新論文,為當(dāng)下火熱的 Agent 劃定了邊界、確立了范式。谷歌、OpenAI 和微軟等巨頭的最新布局,幾乎都遵循了論文給出的能力棧。
2、論文提出了一套完整的認(rèn)知閉環(huán)架構(gòu)——從感知、認(rèn)知、行動(dòng),到學(xué)習(xí)與記憶,構(gòu)成動(dòng)態(tài)迭代的智能體體系。這不僅是技術(shù)的整合,更是對(duì)未來 AGI 路徑的系統(tǒng)性構(gòu)想。
3、大模型是驅(qū)動(dòng) Agent 的核心引擎,但環(huán)境交互是解決幻覺和偏見的關(guān)鍵錨點(diǎn)。論文強(qiáng)調(diào),LLM/VLM 提供認(rèn)知能力,但必須通過真實(shí)或模擬環(huán)境的反饋來校準(zhǔn)現(xiàn)實(shí),減少幻覺,并引入倫理與安全機(jī)制。
4、應(yīng)用潛力橫跨游戲、機(jī)器人和醫(yī)療三大前沿領(lǐng)域——游戲中的沉浸式 NPC、機(jī)器人中的自主規(guī)劃與物理操作、醫(yī)療中的智能問診與健康管理,展現(xiàn)了 Agent 從理論走向?qū)嵺`的清晰路徑。
2025年,被普遍認(rèn)為是 Agent 的元年,與之相關(guān)的概念從年初至今熱度持續(xù)走高,包括智能體、AI Agent、Agentic AI 等等。
而就在最近,一篇由李飛飛領(lǐng)銜的 Agent 重磅論文在業(yè)內(nèi)引發(fā)了廣泛討論,熱度居高不下。網(wǎng)友們?nèi)绱嗽u(píng)價(jià):“幾乎是跪著看完的”、“太清晰,硬控了我3個(gè)小時(shí)”。
這篇長達(dá)80頁的綜述名為《Agent AI: Surveying the Horizons of Multimodal Interaction》,由李飛飛等14位來自斯坦福大學(xué)和微軟的專家聯(lián)合撰寫。
它之所以備受推崇,是因?yàn)檫@篇綜述為 Agent 這一略顯混沌的領(lǐng)域,建立了一個(gè)清晰的框架:從感知-決策-行動(dòng),到記憶、工具使用、環(huán)境交互與評(píng)測(cè),試圖把分散在對(duì)話模型、視覺-語言模型、強(qiáng)化學(xué)習(xí)、工具調(diào)用等技術(shù)線索,統(tǒng)一到一個(gè)多模態(tài) Agent 的新視角里。
并且,雖然這篇論文最早發(fā)表于去年年底,但站在當(dāng)下節(jié)點(diǎn)回顧今年 Agent 的發(fā)展,谷歌、OpenAI 和微軟等主流玩家的核心打法,幾乎都是按照論文給出的能力棧來推進(jìn)的;這也反過來印證了論文對(duì)“從大模型到 Agent”這一演進(jìn)路徑的前瞻性判斷。
也正如李飛飛在自傳《我看見的世界》里強(qiáng)調(diào)的,“現(xiàn)在學(xué)生太過于追求熱點(diǎn),其實(shí)很多老論文是非常經(jīng)典且具備借鑒意義”;即便這篇綜述發(fā)表至今不過半年,但其意義之大、影響之深,仍值得每一位 AI 從業(yè)者深入品讀。
接下來,我們就一起看看這篇綱領(lǐng)性巨作的核心價(jià)值。
01 Agent AI 的核心:一個(gè)全新的智能體認(rèn)知架構(gòu)
要理解這篇論文的精髓,首先必須把握其提出的全新 Agent AI 范式。這遠(yuǎn)非對(duì)現(xiàn)有技術(shù)棧的簡單拼湊,更是一種對(duì)未來通用人工智能(AGI)發(fā)展路徑的前瞻性思考。
論文中的架構(gòu)圖,便清晰地定義了這個(gè)范式的五個(gè)核心模塊,它們共同構(gòu)成了一個(gè)完整的、可交互的智能體認(rèn)知閉環(huán)。
首先是環(huán)境與感知(Environment and Perception),這是智能體與世界交互的起點(diǎn)。
與傳統(tǒng)模型被動(dòng)接收結(jié)構(gòu)化數(shù)據(jù)不同,Agent AI 主動(dòng)從物理或虛擬世界中感知信息;這種感知是多模態(tài)的,涵蓋視覺、聽覺、文本、傳感器數(shù)據(jù)等。
更重要的一點(diǎn)是,感知模塊內(nèi)嵌了任務(wù)規(guī)劃與技能觀察(Task-Planning and Skill Observation)的能力;這意味著 Agent 在感知環(huán)境時(shí),并非茫然地接收一切信息,而是帶著明確的目的去理解。
第二個(gè)核心模塊是認(rèn)知(Cognition)。
如果說感知是輸入,那么認(rèn)知就是處理中樞,是 Agent 的“大腦”。論文將認(rèn)知定義為一個(gè)極其復(fù)雜的系統(tǒng),包含思考、意識(shí)、感知、共情等高級(jí)智能活動(dòng)。
這正是大語言模型(LLM)和視覺語言模型(VLM)發(fā)揮核心作用的場域。它們?yōu)?Agent 提供了強(qiáng)大的世界知識(shí)、邏輯推理和上下文理解能力。認(rèn)知模塊負(fù)責(zé)解釋感知到的信息,進(jìn)行多步推理,并制定出實(shí)現(xiàn)目標(biāo)的策略。
接下來是行動(dòng)(Action),它承接認(rèn)知模塊的決策,負(fù)責(zé)生成具體的操作指令。
這些指令可以是與物理世界交互的機(jī)器人控制命令(如移動(dòng)、抓?。部梢允桥c虛擬世界交互的API調(diào)用、代碼生成或自然語言回復(fù)。行動(dòng)模塊通過控制器(Controller)作用于環(huán)境,從而改變環(huán)境的狀態(tài)。
第四個(gè)核心模塊是學(xué)習(xí)(Learning)。
Agent AI 并非一個(gè)靜態(tài)系統(tǒng),其核心優(yōu)勢(shì)在于持續(xù)學(xué)習(xí)和自我進(jìn)化的能力。論文強(qiáng)調(diào)了多種學(xué)習(xí)機(jī)制,包括預(yù)訓(xùn)練(Pretraining)、零樣本/少樣本學(xué)習(xí)(Zero-shot/Few-shot)、強(qiáng)化學(xué)習(xí)(RL)和模仿學(xué)習(xí)(IL)。
通過與環(huán)境的交互(即“Agent Interactive Closed-loop”),Agent 從成功和失敗的經(jīng)驗(yàn)中學(xué)習(xí)。環(huán)境的反饋(Feedback)會(huì)回流至學(xué)習(xí)和記憶模塊,用于優(yōu)化未來的決策。
最后,便是記憶(Memory)。
傳統(tǒng)模型的“記憶”通常局限于短暫的上下文窗口,而 Agent AI 的記憶模塊則是一個(gè)更持久、更結(jié)構(gòu)化的系統(tǒng)。它存儲(chǔ)著知識(shí)(Knowledge)、邏輯(Logic)、推理路徑(Reasoning)和推斷(Inference)的結(jié)果。
這使得 Agent 能夠從過去的經(jīng)驗(yàn)中提取知識(shí),形成長期記憶,從而在面對(duì)新任務(wù)時(shí),不必從零開始,而是可以舉一反三。
這五個(gè)模塊共同構(gòu)成了一個(gè)動(dòng)態(tài)的、持續(xù)迭代的閉環(huán)。Agent 通過感知環(huán)境,在認(rèn)知核心的驅(qū)動(dòng)下做出決策,通過行動(dòng)改變環(huán)境,再從環(huán)境的反饋中學(xué)習(xí)和更新記憶,從而在每一次交互中,都比上一次更智能、更高效。
02 大模型如何驅(qū)動(dòng)Agent AI?
我們剛才解讀的 Agent AI 新范式,可以說是這篇綜述藍(lán)圖中的一個(gè)維度。
Agent AI 的宏大框架之所以在今天成為可能,其根本驅(qū)動(dòng)力,源于大型基礎(chǔ)模型(Foundation Models),特別是 LLM 和 VLM 的成熟。它們是 Agent 認(rèn)知能力的基石,但也帶來了新的挑戰(zhàn)。
LLMs(如GPT系列)和VLMs(如CLIP、LLaVA)通過在海量數(shù)據(jù)上的預(yù)訓(xùn)練,內(nèi)化了關(guān)于世界的大量常識(shí)知識(shí)和專業(yè)知識(shí)。這使得 Agent 在啟動(dòng)之初就具備了強(qiáng)大的零樣本規(guī)劃能力。
例如,當(dāng)一個(gè)機(jī)器人 Agent 接收到“幫我熱一下午餐”的指令時(shí),它能利用 LLM 的知識(shí),自動(dòng)將這個(gè)模糊指令分解為一系列具體的子任務(wù):“打開冰箱 -> 找到午餐盒 -> 把它放到微波爐里 -> 設(shè)置時(shí)間 -> 啟動(dòng)微波爐”。
這種能力極大地降低了為每個(gè)任務(wù)編寫復(fù)雜規(guī)則的成本。
除此之外,論文敏銳地指出了大模型的一個(gè)核心問題——「幻覺」,即模型可能生成與事實(shí)不符或毫無根據(jù)的內(nèi)容。
這在需要與物理世界精確交互的場景中是致命的。例如,一個(gè)機(jī)器人 Agent 如果“幻覺”出一個(gè)不存在的物體并試圖抓取,可能會(huì)導(dǎo)致任務(wù)失敗甚至設(shè)備損壞。
Agent AI 范式通過“環(huán)境交互”為解決幻覺問題提供了一個(gè)關(guān)鍵的「錨點(diǎn)」。因?yàn)?Agent 的決策和行動(dòng)必須在真實(shí)或模擬的環(huán)境中得到驗(yàn)證。
如果模型生成的計(jì)劃在環(huán)境中不可執(zhí)行(例如,試圖穿過一堵墻),環(huán)境會(huì)立即提供負(fù)反饋。這種持續(xù)的、基于物理規(guī)律的反饋,會(huì)倒逼模型將其內(nèi)部的知識(shí)與外部的現(xiàn)實(shí)世界對(duì)齊,從而顯著減少幻覺的發(fā)生。
基礎(chǔ)模型同樣會(huì)繼承訓(xùn)練數(shù)據(jù)中的社會(huì)偏見。一個(gè)在充滿偏見文本上訓(xùn)練的 Agent,其行為和語言也可能帶有歧視性。
論文強(qiáng)調(diào),在設(shè)計(jì) Agent AI 時(shí),必須將包容性作為一項(xiàng)核心原則。這包括使用更多元化的數(shù)據(jù)進(jìn)行訓(xùn)練、建立偏見檢測(cè)與糾正機(jī)制,以及在人機(jī)交互中設(shè)計(jì)符合道德和尊重他人的指導(dǎo)方針。
當(dāng) Agent(尤其是在醫(yī)療、家居等敏感領(lǐng)域)與用戶進(jìn)行深度交互時(shí),會(huì)收集大量個(gè)人數(shù)據(jù)。如何確保這些數(shù)據(jù)的隱私和安全,是一項(xiàng)重大的倫理和技術(shù)挑戰(zhàn)。
論文提出,需要為 Agent AI 建立明確的法規(guī)和監(jiān)管框架,確保數(shù)據(jù)使用的透明度,并給予用戶控制其數(shù)據(jù)的權(quán)利。例如,通過提示工程(Prompt Engineering)限制模型的行為范圍,或者增加一個(gè)由人類監(jiān)督的驗(yàn)證層,都是確保 Agent 在安全可控范圍內(nèi)運(yùn)行的有效手段。
03 Agent AI 的應(yīng)用潛力
論文不僅提出了理論框架,還深入探討了 Agent AI 在三個(gè)前沿領(lǐng)域的巨大應(yīng)用潛力,展示了其如何從理論走向現(xiàn)實(shí)。
首先就是游戲(Gaming)場景。
傳統(tǒng)的游戲 NPC(非玩家角色)行為由固定的腳本驅(qū)動(dòng),模式單一、可預(yù)測(cè),而 Agent AI 將徹底改變這一現(xiàn)狀。
例如,基于 LLM 的 Agent 可以扮演 NPC,擁有自己的記憶、目標(biāo)和情感。它們能與玩家進(jìn)行真正有意義的對(duì)話,根據(jù)玩家的行為和游戲世界的變化動(dòng)態(tài)調(diào)整自己的行為,甚至形成復(fù)雜的社會(huì)關(guān)系。斯坦福的“生成式智能體”小鎮(zhèn)實(shí)驗(yàn)(Generative Agents)正是這一理念的早期探索。
并且,玩家可以用自然語言與游戲世界互動(dòng),比如告訴 NPC“我們?nèi)ド掷飳ふ也菟帯?,NPC 能夠理解并協(xié)同行動(dòng)。這為開放世界游戲帶來了前所未有的沉浸感和自由度。
Agent 還可以作為創(chuàng)作者的“AI 副駕駛”,根據(jù)簡單的指令或草圖,自動(dòng)生成游戲關(guān)卡、道具甚至完整的 3D 場景,極大地提高游戲開發(fā)效率。
其次是機(jī)器人(Robotics)場景。
機(jī)器人可以說是 Agent AI 最直接的物理化身(Embodiment),用戶只需用日常語言下達(dá)指令(如“把桌子收拾干凈”),機(jī)器人 Agent 就能自主規(guī)劃并執(zhí)行一系列復(fù)雜的物理操作。
論文展示了使用 GPT-4V 來理解人類視頻演示,并將其轉(zhuǎn)化為機(jī)器人可執(zhí)行任務(wù)序列的實(shí)驗(yàn),這讓機(jī)器人編程變得如「教孩子做事」般直觀。
在模擬環(huán)境中訓(xùn)練機(jī)器人成本低、效率高,但如何將學(xué)到的技能遷移到物理世界是一個(gè)核心挑戰(zhàn)。Agent AI 通過領(lǐng)域隨機(jī)化(Domain Randomization)等技術(shù),在模擬訓(xùn)練中引入足夠多的變化(如光照、材質(zhì)、物理參數(shù)的變化),使學(xué)到的策略對(duì)真實(shí)世界的細(xì)微差異更具魯棒性。
機(jī)器人 Agent 融合視覺、語言、觸覺等多種信息來理解環(huán)境。例如,它不僅“看到”一個(gè)杯子,還能通過語言指令理解這個(gè)杯子是“易碎的”,從而在抓取時(shí)采用更輕柔的力度。
最后,在醫(yī)療健康(Healthcare)中,Agent AI 同樣具備巨大的應(yīng)用潛力。
Agent 可以作為醫(yī)療聊天機(jī)器人,初步問診、收集病史,并基于醫(yī)學(xué)知識(shí)庫為醫(yī)生提供診斷建議,特別是在醫(yī)療資源匱乏的地區(qū),能極大地提升初級(jí)診療的覆蓋率和效率。
醫(yī)療領(lǐng)域的知識(shí)更新極快,任何錯(cuò)誤都可能危及生命。Agent AI 可以連接權(quán)威的、實(shí)時(shí)更新的醫(yī)學(xué)數(shù)據(jù)庫,在生成診斷建議時(shí),同步進(jìn)行事實(shí)核查和來源引用,這對(duì)于抑制模型幻覺、保證信息的準(zhǔn)確性至關(guān)重要。
Agent 可以幫助處理和分流大量的患者信息,監(jiān)控慢性病患者的生命體征數(shù)據(jù),并及時(shí)向醫(yī)生發(fā)出預(yù)警,實(shí)現(xiàn)更高效的個(gè)性化健康管理。
結(jié)語
盡管前景廣闊,但這篇綜述也清醒地認(rèn)識(shí)到,Agent AI 仍處于早期階段,面臨著跨越模態(tài)、領(lǐng)域和現(xiàn)實(shí)的多重鴻溝。
例如,如何讓 Agent 真正實(shí)現(xiàn)視覺、語言、聽覺、動(dòng)作等模態(tài)的深度融合,而不只是淺層拼接,是未來的核心研究方向。
以及如何訓(xùn)練一個(gè)能在游戲、機(jī)器人和醫(yī)療等截然不同領(lǐng)域都能高效工作的“通用 Agent”,而不是為每個(gè)領(lǐng)域定制一個(gè)模型,是通往 AGI 的關(guān)鍵一步。
并且在評(píng)測(cè)與基準(zhǔn)方面,如何科學(xué)地評(píng)測(cè)一個(gè) Agent 的智能水平也是關(guān)鍵。為此,論文團(tuán)隊(duì)提出了新的評(píng)測(cè)基準(zhǔn),如用于多智能體協(xié)作的“CuisineWorld”和用于視頻理解的“VideoAnalytica”。建立標(biāo)準(zhǔn)化的評(píng)測(cè)體系,對(duì)于指引領(lǐng)域發(fā)展、衡量技術(shù)進(jìn)步至關(guān)重要。
回歸原文來看,李飛飛等人的這篇《Agent AI》綜述,遠(yuǎn)不止是對(duì)現(xiàn)有研究的簡單梳理。它提出了一個(gè)統(tǒng)一、完整的 Agent AI 認(rèn)知框架,闡述了大型基礎(chǔ)模型在其中扮演的核心角色,并且系統(tǒng)性地剖析了其在關(guān)鍵應(yīng)用領(lǐng)域的機(jī)遇與挑戰(zhàn)。為當(dāng)前略顯喧囂和碎片化的 Agent 研究領(lǐng)域,提供了一張不可或缺的“地圖”。
最后,大家可以一鍵傳送論文原文:https://arxiv.org/abs/2401.03568
本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn),不代表創(chuàng)業(yè)邦立場,轉(zhuǎn)載請(qǐng)聯(lián)系原作者。如有任何疑問,請(qǐng)聯(lián)系editor@cyzone.cn。