編者按:本文來自微信公眾號 “中國企業(yè)家雜志”(ID:iceo-com-cn),作者:閆俊文,創(chuàng)業(yè)邦經(jīng)授權(quán)發(fā)布。
2025年,大模型競賽進(jìn)入第三個年頭,從國家到產(chǎn)業(yè)都逐漸意識到,這是一場拉力賽,人才競爭是勝負(fù)手,技術(shù)大咖可以帶動數(shù)億元的資金流動。
微軟亞洲研究院被外界稱為中國智能產(chǎn)業(yè)的“黃埔軍?!?,張亞勤作為微軟亞洲研究院的初代“掌門人”,是人才與技術(shù)變化浪潮的重要開啟者。從科學(xué)家、企業(yè)家再到清華教授,他成了觀察時代切面的一面鏡子。
1998年,張亞勤回國參與創(chuàng)建微軟中國研究院,2001年,該研究院升級為微軟亞洲研究院,張亞勤任首屆院長,此后至今,這家機(jī)構(gòu)持續(xù)不斷為中國互聯(lián)網(wǎng)和AI產(chǎn)業(yè)注入人才資源。王堅、張宏江、林斌、湯曉鷗等在產(chǎn)業(yè)界和科技界舉足輕重的人物都曾在微軟亞洲研究院工作過。
張亞勤曾在微軟任職長達(dá)16年,擔(dān)任微軟全球副總裁和微軟中國董事長,2014年9月,他加入百度,擔(dān)任總裁一職,直至2019年10月退休。當(dāng)時,小米董事長雷軍專門發(fā)微博,送上祝福:“祝賀張亞勤,祝賀百度,歡迎更多的跨國公司精英加入國內(nèi)企業(yè)?!?/p>
可以說,張亞勤親歷了中國互聯(lián)網(wǎng)以及AI發(fā)展的全過程。2015年,他就在媒體撰文,首提“AI+”,當(dāng)時他就堅信,“人工智能是未來40年、50年的主流技術(shù)”。
2019年退休后,張亞勤重返學(xué)術(shù)界,籌建了清華大學(xué)智能產(chǎn)業(yè)研究院(AIR),該機(jī)構(gòu)的使命是利用人工智能技術(shù)賦能產(chǎn)業(yè)升級、推動社會進(jìn)步。
近期,張亞勤出版了新作《智能涌現(xiàn):AI時代的變革與思索》,姚期智、雷軍、李開復(fù)等寫了推薦語,雷軍提到“這本書中有很多內(nèi)容涉及已然成勢或即將成勢的契機(jī)”——行業(yè)進(jìn)入物理智能與數(shù)字智能、生物智能相互融合的創(chuàng)業(yè)周期以及自動駕駛重構(gòu)全球汽車產(chǎn)業(yè)的趨勢等。
在書中,張亞勤這樣說:AI給個人消費者帶來的價值提升,可能是漸進(jìn)的、逐步積累的;為企業(yè)乃至行業(yè)帶來的價值改變,則可能是高效的、迅速顛覆的。
現(xiàn)在,智能體成了AI價值提升的最前沿方向,張亞勤告訴《中國企業(yè)家》:“現(xiàn)在智能體還處在一個很初步的階段,市場上,大家都在說智能體,其實大部分可能還不是真正的智能體?!?/p>
此外,他還展望,未來AI+HI(HI即人的智力,human intelligence)智能體的復(fù)合智商將會達(dá)到1200分,比人類自身的智商至少要高出一個數(shù)量級。
以下是《中國企業(yè)家》與張亞勤對談的詳細(xì)內(nèi)容(有刪減):
智能體最佳的方式就是為人工作
《中國企業(yè)家》:近期,您提出,生成式AI正轉(zhuǎn)向智能體AI,其中有兩個突破,一個是任務(wù)長度,另一個是任務(wù)準(zhǔn)確度。
張亞勤:這幾年,人工智能從鑒別式人工智能,比如語音識別、圖像識別、人臉識別轉(zhuǎn)向生成式人工智能,生成文字、生成視頻、生成蛋白質(zhì)(新結(jié)構(gòu)),現(xiàn)在,它正向智能體轉(zhuǎn)變,轉(zhuǎn)向自主智能。
什么是自主智能?就是當(dāng)你告訴AI一個目標(biāo),它可以自主找到路徑,然后實現(xiàn)目標(biāo),和人類越來越像。人類最大的一個能力就是去定一個目標(biāo),然后去規(guī)劃、決策、行動。
智能體有兩個很重要的指標(biāo),一個是任務(wù)長度,任務(wù)很復(fù)雜,智能體會分成不同的階段,然后在每個階段定義子目標(biāo),并去做優(yōu)化,最后,再把它們連在一塊,形成大目標(biāo)。
過去的7個月,智能體處理的任務(wù)長度已經(jīng)double(翻倍),未來6個月、7個月可能還會double。
另外一個是準(zhǔn)確度,智能體的任務(wù)準(zhǔn)確度(能)達(dá)到超過一半(50%)的程度,比如智能體要達(dá)到目標(biāo),中間需要經(jīng)過20個不同的路徑,20個子任務(wù)串起來之后,50%的時間可以達(dá)到目標(biāo),如果沒達(dá)到,智能體可以和人交互,幫助它完成這個任務(wù)。
《中國企業(yè)家》:記憶對智能體來說,也是很關(guān)鍵的指標(biāo)。
張亞勤:對,現(xiàn)在智能體很重要的功能就是它有長期的記憶了。這個記憶就是智能體做了很多事之后,它會記住,比如到了下個月,它還可以記住上個月做的事。目前,AI記憶系統(tǒng)還比較初步。
《中國企業(yè)家》:智能體是很早就有的概念了,為什么到今年就這么熱?
張亞勤:在計算機(jī)領(lǐng)域,智能體講了幾十年,但過去的智能體基本上都不太能工作,第一,算法不行,第二,算力不行。從2024年到今年很大的一個變化是,整個算力提高了差不多十倍,推理的算法改善了,數(shù)據(jù)也越來越多,越來越規(guī)范化,用MCP可以連接不同的網(wǎng)站、不同的數(shù)據(jù)庫。所有的這些加一塊,現(xiàn)在的智能體可以解決相對比較復(fù)雜的任務(wù)了。
但現(xiàn)在智能體還處于一個很初步的階段,所以,我們把智能體也定義為5個級別,L1到L5,這有點像智能駕駛,要看它的自主智能程度。市場上,大家都在說智能體,其實大部分可能還不是真正的智能體。
《中國企業(yè)家》:判斷它是不是一個真正的智能體,就看它的任務(wù)長度和任務(wù)準(zhǔn)確度。
張亞勤:是的,也包括記憶的功能,還要有推理、規(guī)劃、決策,以及行動能力,要達(dá)成一個閉環(huán)。如果一個事情,它能事先分解成n個任務(wù),然后每個任務(wù)都有固定路徑,那這個可能就是自動化。
智能體,就是讓它在一個大范圍里面去學(xué)習(xí),然后找到它認(rèn)為的最佳路徑,最后,完成整體任務(wù)。
《中國企業(yè)家》:紅杉美國前段時間有個報告提到,智能體對客戶的交付,原來是交付過程,現(xiàn)在是交付結(jié)果。
張亞勤:智能體一定是交付結(jié)果。用戶去告訴智能體這件事,最后它把這件事做成。智能體最佳的方式就是為人工作,進(jìn)行推理任務(wù)集合。
另外很重要的一方面是,智能體和智能體互相之間要學(xué)習(xí),它們在學(xué)習(xí)和博弈的過程中進(jìn)化,所以,多智能體交互是達(dá)到通用人工智能(AGI)的一個重要路徑。而且,智能體學(xué)習(xí)的時候,初始知識越少越好,讓智能體在交互中學(xué)習(xí)。
《中國企業(yè)家》:不需要做太多的預(yù)訓(xùn)練?
張亞勤:當(dāng)然需要一些預(yù)訓(xùn)練,但這是一個有意思的trade off compromise(折中妥協(xié)),你給它的知識越多,智能體發(fā)展的空間自由度也越少。就像下圍棋似的,谷歌的AlphaGo,一開始的版本是要學(xué)幾十萬個棋譜,到后來,AlphaGo Zero就不用學(xué)這么多棋譜了,只要告訴它規(guī)則,什么叫贏,什么叫輸,它就會從零開始,在多個智能體中互相博弈、學(xué)習(xí)。
《中國企業(yè)家》:很多人可能很重視預(yù)訓(xùn)練,但對現(xiàn)實世界的反饋,是不是才是下一步發(fā)展智能的重點?
張亞勤:就像我們?nèi)艘粯拥?,我們要學(xué)一些知識,但最重要的知識還是我們到工作和生活中去學(xué)習(xí)。
最近,“強(qiáng)化學(xué)習(xí)之父”理查德·薩頓(Rich Sutton)有個比喻,他說,人工智能分成三個階段,第一階段,給你吃魚;第二階段,教你怎么釣魚,這有點像預(yù)訓(xùn)練,然后加上強(qiáng)化學(xué)習(xí);第三階段,不教你怎么釣魚,先讓你吃一下魚,這魚特別好吃,讓你很餓,然后你去找魚,怎么找魚,它不管。最后是第三種方式能最大程度把你的潛力發(fā)掘出來。
《中國企業(yè)家》:目前,Scaling Law(規(guī)模定律)發(fā)生了一些變化,您提到了智能體規(guī)模定律(Agentic SL),什么是智能體規(guī)模定律?
張亞勤:ChatGPT出來之后,最重要的一個規(guī)律,就是Scaling Law,數(shù)據(jù)越多,算力越強(qiáng),結(jié)果就越準(zhǔn)確,到了一定程度,比如1億、100億、千億參數(shù),準(zhǔn)確度就按指數(shù)級上升,所以叫做涌現(xiàn)效應(yīng)。
從千億參數(shù)到萬億參數(shù),再往上走,基本上還是按照這個指數(shù)走,但到了2024年底、2025年初,上升速度不是指數(shù)級了,變平緩了,很重要的原因就是數(shù)據(jù)用的差不多了,但智能上限還遠(yuǎn)遠(yuǎn)沒有達(dá)到。
此外,預(yù)訓(xùn)練的Scaling Law轉(zhuǎn)移到后面了,有了模型后,怎么做推理?可能推理步驟越多,模型的智商會越高?,F(xiàn)在大家都在探索,在推理階段,包括到了智能體階段,Scaling Law是不是還有效?此外,Scaling Law主要在語言方面,那么在視覺方面,它還成立嗎?大家也在爭論。
我覺得,整體人工智能的Scaling Law還是成立的,只是移到不同的地方去了。
《中國企業(yè)家》:有沒有可能存在一種情況——小模型,有大能力?
張亞勤:未來5至10年,主流還是數(shù)據(jù)驅(qū)動的大模型,到了推理階段,比如端側(cè),模型規(guī)模會小一點,但它還是建立在大模型之上的。如果沒有大模型,從小數(shù)據(jù)、小參數(shù)做一個模型,這個模型基本上很難泛化。某個算法可以解決一件事,并且做得很好,但這個不是人工智能發(fā)展的主流。
連接數(shù)字世界和物理世界,通向AGI
《中國企業(yè)家》:從比特世界到原子世界,這是從描述智能到干預(yù)智能的演變嗎?
張亞勤:我把它分成三個不同的層次。第一,信息智能,它完全在數(shù)字世界里,比如語言、圖像、視覺,包括我們的蛋白質(zhì)(結(jié)構(gòu));第二,物理智能,比如機(jī)器人、無人車,物理世界、物理設(shè)施用到人工智能,需要智能體和物理世界有交互、行動,以及反饋。
第三,生物智能,比如腦機(jī)接口,把大模型用到生命體、生物體,也要涉及物理智能和信息智能。
如果我們定義通用人工智能超越99%的人類,完成絕大多數(shù)的任務(wù)。這個時候,就一定要有賴物理智能和生物智能的交互,比如你要學(xué)游泳,就要去和別人交互,得到真實世界的反饋。所以,智能體之間的交互,包括和環(huán)境的交互,都很重要。
《中國企業(yè)家》:這是不是人工智能接下來發(fā)展的重點?
張亞勤:是的,真實世界有很多數(shù)據(jù),但它也有一些問題,任務(wù)太分散,比如機(jī)器人可以做各種各樣的事情,但在每個領(lǐng)域,它的數(shù)據(jù)又是不夠的。
另外,真實世界和數(shù)字世界沒有連接在一塊。過去,我們做的事都在真實世界,虛擬世界則另有一套算法,兩個世界連不在一塊,在虛擬世界訓(xùn)練好的策略到了真實世界,它就不奏效了。所以,我們提出RSR(Real2Sim2Real),就是要把信息世界和物理學(xué)連在一塊,形成閉環(huán)。
攝影:鄧攀
《中國企業(yè)家》:在RSR這個過程里,哪一步數(shù)據(jù)反饋是最難的?
張亞勤:RSR首先要理解物理世界,比如把某個動作抽象出來,就挺難的,但抽象出來之后,變成數(shù)字世界里面的模型參數(shù),再去訓(xùn)練它,訓(xùn)練各種各樣的可能性,生成各種數(shù)據(jù),比如,讓各種機(jī)器人做早飯、爬山。之后再讓機(jī)器人回到真實世界里去工作(Sim2Real),結(jié)果,到這一步往往它就不工作了。
因為真實世界和虛擬世界沒有形成閉環(huán),不同步,機(jī)器一旦在真實世界工作時間長了,它就發(fā)散,在虛擬世界訓(xùn)練的東西就沒用了。
《中國企業(yè)家》:在自動駕駛場景里,是不是能更好理解這個問題?
張亞勤:無人駕駛的數(shù)據(jù)是不夠的,比如,無人車在復(fù)雜的交通場景里會碰到各種各樣的情況,這時候,如果你用模擬器去生成各種不同的長尾場景,每次生成它,它就會有一個決策。如果你拿這套方案到真實世界里面,你會發(fā)現(xiàn)這兩個是不同步的,第一,AI描述的場景和真實場景還是有很大區(qū)別。第二,因為在真實世界里總會碰到新的case,但你不可能模擬出所有的case出來,而算法總有不收斂的時候,這就需要永遠(yuǎn)在上面加規(guī)則。
所以,現(xiàn)在大家都在做端到端,把感知、推理、決策的模塊放在一起,變成了一個大模型,實現(xiàn)端到端的決策。第一,它們之間閉環(huán),第二,它和真實世界閉環(huán)。但真正實現(xiàn)全閉環(huán)很難,還是一個研究的課題。
《中國企業(yè)家》:智能體的風(fēng)險和AI的風(fēng)險有什么不一樣?
張亞勤:智能體是推理任務(wù)的集合,現(xiàn)在,它能給你一直推理,因為它要找完成任務(wù)的路徑,任務(wù)越長,失控的可能性越大。比如,它在找路徑的時候,它可能會觸犯一些規(guī)則,而這些規(guī)則我們沒有定義清楚。
《中國企業(yè)家》:VLA(視覺語言動作模型)怎么樣跨越多模態(tài)融合?它也會遇到語義鴻溝。
張亞勤:(這要依靠)世界模型,包括對不同模態(tài)的語義理解,對行為的理解以及對常識的理解來解決,機(jī)器在學(xué)習(xí)常識方面還是差很多。
現(xiàn)在,新的機(jī)器、算法學(xué)起來還需要時間,有一些屬于第一性原理,像牛頓定律,物理定律,要把它融合進(jìn)來,但說實話,也不能整天算那些公式,還是要通過常識(來訓(xùn)練)。
我們?nèi)祟悓W(xué)習(xí)很多事情很清楚、很簡單,但機(jī)器可能認(rèn)為很難,同樣,我們認(rèn)為很難學(xué)習(xí)的領(lǐng)域,機(jī)器認(rèn)為很簡單,這兩種智能其實不太一樣。
《中國企業(yè)家》:您在《智能涌現(xiàn)》這本書里,提到了智能體能自我迭代,能夠自我升級和優(yōu)化,這是終局還是階段性的目標(biāo)?
張亞勤:如果大模型是操作系統(tǒng),智能體就是上面的APP或者SaaS應(yīng)用,智能體幫你規(guī)劃,去找數(shù)據(jù),調(diào)用別的模型,這時候,它可能不是一個單獨的APP,它是一個集合,用智能體把它表述出來,它是AI之上的一個中間件。
《中國企業(yè)家》:智能體要做到哪些,才能沖到L4(高度自動駕駛)?
張亞勤:目前還很早期,現(xiàn)在智能體可以做一些簡單的規(guī)劃和任務(wù),另外,智能體的記憶不太好,不是內(nèi)存不夠,而是它不知道什么該記,什么不該記,context不是很清楚。
通用智能體,更難一些,所以這個東西并不是今年做,明年就換了。下一個階段的AI,是智能體AI。當(dāng)通用智能體做成之后,通用人工智能就差不多實現(xiàn)了,通用智能體是實現(xiàn)AGI的一條路徑。
HI加AI,智商達(dá)到1200分
《中國企業(yè)家》:大概在10年前,您就提出了“AI+”這個概念,現(xiàn)在回首,“AI+”發(fā)生了什么變化?
張亞勤:當(dāng)時提“AI+”,首先,我認(rèn)為人工智能十分重要,人工智能是第四次工業(yè)革命主要的技術(shù)引擎。第二,人工智能是未來,是未來40年、50年的一個主流技術(shù)。第三,它會改變行業(yè),創(chuàng)造新的產(chǎn)業(yè)。
我當(dāng)時提出“AI+”,后來趕上AlphaGo出來,我越來越深信這個概念,因為AlphaGo是人工智能的一個大突破,它通過強(qiáng)化學(xué)習(xí),可以解決棋譜這么復(fù)雜的問題,我覺得別的問題都可以解決,比如像人臉識別、圖像識別等。
現(xiàn)在,人工智能和以前最大的區(qū)別就是,人工智能可能是一個大的底座,它可以適應(yīng)每個領(lǐng)域,就像一個人,他可以自己學(xué)習(xí),基本完成所有的事。
所以,未來是AI+HI,HI是人的智力(human intelligence),機(jī)器是我們一個個的助理和智能體,兩者結(jié)合的復(fù)合智商,比我們?nèi)祟惖闹巧讨辽僖咭粋€數(shù)量級,這個智商不是120分,而是1200分。
《中國企業(yè)家》:DeepSeek崛起之后,它有沒有可能會成為下一個安卓或者iOS這種底層操作系統(tǒng)?
張亞勤:還是十分有希望的。目前,DeepSeek技術(shù)的領(lǐng)先性,包括它的效率和新的算法,但目前做這個判斷還早。因為一個操作系統(tǒng)很重要的是,它的生態(tài)怎么樣,有沒有粘性?,F(xiàn)在如果有個特別好的模型出來,還是可以替代它的,但如果DeepSeek生態(tài)成了之后,就難替代它了。
《中國企業(yè)家》:這也是一場殘酷的競爭。
張亞勤:沒錯。第一,還是要把技術(shù)做好,第二,開源這個商業(yè)模式是很對的,而且用了MIT license,它是最靈活的一種開源方式,因為操作系統(tǒng)很重要一點就是,讓大家都要用起來,要有整個用戶的一個base(基礎(chǔ)),然后在上面建立一些像MCP、API這樣的中間件,底層越做越好,上面又有粘性,那就成了一個真正的人工智能時代操作系統(tǒng)。
人工智能時代的操作系統(tǒng)可能不會很多,全球可能會有差不多8至10個,有3、4個在中國,3、4個在美國,然后別的國家有2、3個。
因為它和移動時代有點不太一樣,移動時代基本上兩家(安卓和iOS)通吃,以前的操作系統(tǒng)是代碼,現(xiàn)在的大模型是數(shù)據(jù),而數(shù)據(jù)是有區(qū)域性的,就像云計算,云計算廠商全世界差不多有10家左右。可能在人工智能時代,有10個左右的基礎(chǔ)大模型,但上面會有很多的智能體。
《中國企業(yè)家》:AI時代的操作系統(tǒng)和移動互聯(lián)網(wǎng)時代的操作系統(tǒng),底層邏輯有差別?
張亞勤:構(gòu)成的要素不一樣,AI整個的生態(tài)要大很多,我預(yù)測,人工智能時代的操作系統(tǒng)比移動互聯(lián)網(wǎng)至少大一個數(shù)量級,可能更大,甚至兩個數(shù)量級。
《中國企業(yè)家》:這對很多的創(chuàng)業(yè)型模型公司來說,也提出了新的挑戰(zhàn)?
張亞勤:從長遠(yuǎn)來講,現(xiàn)在的創(chuàng)業(yè)者其實更容易了。因為不需要自己去做大模型了,可以去調(diào)開源模型的參數(shù),然后可以結(jié)合自己的數(shù)據(jù),或者用微調(diào),或者用智能體或者RAG(檢索增強(qiáng)生成),最后產(chǎn)生自己的應(yīng)用。
也可以給自己制造很多智能體,讓多智能體來服務(wù)我們,解決某些問題。
我們離AGI很遠(yuǎn),規(guī)模定律還在,還有效,所以這些公司還得燒錢。得不斷有新數(shù)據(jù),然后過三個月,半年,模型還得升級,至少現(xiàn)在還沒有達(dá)到穩(wěn)態(tài)。
《中國企業(yè)家》:有沒有可能出現(xiàn)一家公司或者技術(shù),再把DeepSeek顛覆了?
張亞勤:這都有可能,盡管DeepSeek比其它公司效率高得多,但它也需要有很多的資源。未來,有很多變數(shù),目前,產(chǎn)業(yè)格局并沒有完全固定。
《中國企業(yè)家》:未來有可能會逐漸擺脫對標(biāo)注數(shù)據(jù)的依賴嗎?
張亞勤:你如果看GPT,特別是ChatGPT,它的大量數(shù)據(jù)其實是自我標(biāo)注、自我監(jiān)督,到了應(yīng)用領(lǐng)域的時候,可能還需要標(biāo)注一些數(shù)據(jù)。但以后,越來越多的機(jī)器可以學(xué)會自己標(biāo)注數(shù)據(jù),再發(fā)展,可能就不需要標(biāo)注了。
《中國企業(yè)家》:AI時代的創(chuàng)業(yè)者和移動互聯(lián)網(wǎng)時代創(chuàng)業(yè)者,他們的能力有什么不一樣?
張亞勤:在互聯(lián)網(wǎng)時代,你要很清楚怎么連接,要有很豐富的連接。在AI時代,你要做出一個所謂的智能體,就要有任務(wù)導(dǎo)向,就是你做這事有什么用。
本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個人觀點,不代表創(chuàng)業(yè)邦立場,轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn。