編者按:本文來自微信公眾號(hào)GenAI新世界(gh_e06235300f0d),作者:苗正,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。
讓我們先把OpenAI管理層內(nèi)部的極地大亂斗放在一邊,聊一聊這家公司最新的傳言——Q*。OpenAI在11月22號(hào)的時(shí)候給員工發(fā)了一封內(nèi)部信,承認(rèn)了Q*,并將這個(gè)項(xiàng)目描述為“超越人類的自主系統(tǒng)”。著實(shí)讓人感覺到有一絲絲可怕。
雖然OpenAI官方?jīng)]有放出任何有關(guān)Q*的消息,但是我們還是有能力淺淺了解。
首先第一步,我們要認(rèn)識(shí)Q*的讀法,官方正式名稱叫做Q-Star,翻譯過來就是Q星。對(duì),你沒看錯(cuò),即便深度學(xué)習(xí)中,區(qū)塊之間是通過乘積來求解的,但是在Q*里,“*”并不是乘的意思,而是“星號(hào)”?!?strong>Q”這個(gè)字母在強(qiáng)化學(xué)習(xí)中表示一個(gè)動(dòng)作的期望獎(jiǎng)勵(lì)。
在人工智能領(lǐng)域里,但凡跟大寫Q沾邊的,本質(zhì)都是Q學(xué)習(xí)。Q學(xué)習(xí)以現(xiàn)在的評(píng)判標(biāo)準(zhǔn)可以算是強(qiáng)化學(xué)習(xí)的一種,指的是在訓(xùn)練的過程中,以記錄訓(xùn)練歷史獎(jiǎng)勵(lì)值的方式,告訴智能體下一步怎么樣選才能跟歷史最高獎(jiǎng)勵(lì)值相同。但請(qǐng)注意,歷史最大獎(jiǎng)勵(lì)值并不代表模型的最大獎(jiǎng)勵(lì)值,有可能是,也有很大可能不是,甚至還有可能八竿子打不著。換句話說,Q學(xué)習(xí)和智能體就像是一支球隊(duì)的分析師和教練之間的關(guān)系。教練負(fù)責(zé)指導(dǎo)球隊(duì),分析師則用來輔佐教練。
在強(qiáng)化學(xué)習(xí)的過程中,智能體輸出的決策是要反饋到環(huán)境中才能得到獎(jiǎng)勵(lì)值。而Q學(xué)習(xí)因?yàn)橹挥涗洩?jiǎng)勵(lì)值,因此它不需要對(duì)環(huán)境進(jìn)行建模,相當(dāng)于“結(jié)果好,一切就好”。
不過這樣看下來,好像Q學(xué)習(xí)還不如現(xiàn)在人工智能,尤其是大模型常用的深度學(xué)習(xí)模型。像現(xiàn)在這種動(dòng)不動(dòng)幾十億幾百億這么多參數(shù)下,Q學(xué)習(xí)不僅對(duì)模型沒什么幫助,反倒還增加了復(fù)雜性,從而降低了魯棒性。
別急,其實(shí)這是因?yàn)樯鲜鯭學(xué)習(xí)背后的思路本身只是一個(gè)誕生于1989年的基本概念。
DeepMind在2013年的時(shí)候曾經(jīng)通過改進(jìn)Q學(xué)習(xí),推出過一個(gè)算法叫做深度Q學(xué)習(xí),其最鮮明的特點(diǎn)就是使用經(jīng)歷回放,從過去多個(gè)結(jié)果中進(jìn)行采樣,再使用Q學(xué)習(xí),進(jìn)而達(dá)到提高模型的穩(wěn)定性,降低模型因?yàn)槟骋淮谓Y(jié)果導(dǎo)致訓(xùn)練方向過于發(fā)散。
然而實(shí)話實(shí)說,這個(gè)概念一直沒有走紅也是有原因的,而從實(shí)際意義來看,深度Q學(xué)習(xí)此前在學(xué)界看來最大的作用就是開發(fā)出了DQN。
DQN是指深度Q網(wǎng)絡(luò),誕生于深度Q學(xué)習(xí)。DQN的思路和Q學(xué)習(xí)是一模一樣的,但是在求得Q學(xué)習(xí)中最大獎(jiǎng)勵(lì)值的過程,是用神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)的。這一下子就fashion了起來。
DQN同一時(shí)間只會(huì)生成一個(gè)節(jié)點(diǎn)。與此同時(shí),DQN會(huì)生成一個(gè)優(yōu)先級(jí)隊(duì)列,然后再把剩下的節(jié)點(diǎn)和動(dòng)作的元祖存到優(yōu)先級(jí)隊(duì)列里。顯而易見,一個(gè)節(jié)點(diǎn)肯定不夠用,如果全程就一個(gè)節(jié)點(diǎn)那最后求解的答案一定錯(cuò)得離譜。當(dāng)節(jié)點(diǎn)和動(dòng)作元祖從隊(duì)列中移出來的時(shí)候,就會(huì)根據(jù)這個(gè)動(dòng)作應(yīng)用到已經(jīng)生成的那個(gè)節(jié)點(diǎn)得出來的關(guān)聯(lián)性進(jìn)而生成一個(gè)新節(jié)點(diǎn),以此類推。
稍微懂點(diǎn)人工智能發(fā)展史的人會(huì)覺得越看越眼熟,這不就是高配版弗洛伊德求邊長(zhǎng)?
現(xiàn)代計(jì)算機(jī)中,處理器所使用的核心原理就是弗洛伊德算法,通過與歷史最優(yōu)值比對(duì),求得兩點(diǎn)之間最短的路徑。內(nèi)存的作用就是將計(jì)算以優(yōu)先級(jí)的方式存儲(chǔ),每當(dāng)處理器完成一次計(jì)算后,內(nèi)存再把下一條計(jì)算扔給處理器。
DQN本質(zhì)沒什么區(qū)別。
這基本就是Q的意思,那么*又是指什么呢?
從諸多的業(yè)內(nèi)人士分析來看,*很有可能指代的是A*算法。
這是一種啟發(fā)式算法。先不著急講啟發(fā)式算法是什么,我來講個(gè)笑話:
A問B說“快速求出1928749189571*1982379176的乘積”,B立馬就回答A說:“32”。這個(gè)A聽了就很納悶,這么大的兩個(gè)數(shù)相乘,不可能答案是兩位數(shù)。B反問A:“你就說快不快?”。
看起來離譜,但啟發(fā)式算法也是同理。
它的本質(zhì)就是估算,在效率和正解之間只能選擇一個(gè)。要不然就非常講究效率,可有時(shí)候會(huì)出錯(cuò);要不然就非常講究正確性,可耗時(shí)有時(shí)候會(huì)很長(zhǎng)。A*算法則是先通過啟發(fā)式算法估算一個(gè)大概其的值,當(dāng)然這個(gè)值很有可能極其偏離正解。估算完成后就會(huì)開始循環(huán)遍歷,如果怎么都沒辦法求解那就重新估值,直到開始出現(xiàn)解。如此反復(fù),最終得出最佳解。
雖然能得到最佳解,然而A*就是上文提到的第二種,答案對(duì),耗時(shí)比較長(zhǎng)。放在實(shí)驗(yàn)室環(huán)境還好,這種算法要是放在個(gè)人設(shè)備上,有可能會(huì)導(dǎo)致內(nèi)存溢出,產(chǎn)生系統(tǒng)問題,比如藍(lán)屏。
因此這樣的局限性使得過往A*算法往往應(yīng)用于一些不太復(fù)雜的模型,最典型的就是網(wǎng)絡(luò)游戲中角色尋路。一些大型游戲中,角色在尋路開始的那一剎那出現(xiàn)卡頓,就是因?yàn)锳*算法。
綜合來看,目前人工智能圈的共識(shí)是,OpenAI內(nèi)部信中提到的Q*算法,大抵是Q學(xué)習(xí)和A兩者的取長(zhǎng)補(bǔ)短,即節(jié)省算力、節(jié)省內(nèi)存,并得到最佳解——因?yàn)樗偛豢赡苁怯侄嗷ㄙM(fèi)算力,又浪費(fèi)內(nèi)存,最后還得不到最佳解吧!那不成累傻小子了嗎!
而且,就像OpenAI把基礎(chǔ)模型這件事最終做成了一樣,它同樣早已存在,甚至也一度被人們冷落,直到OpenAI用具體的創(chuàng)新的方法把它的潛力重新發(fā)掘出來。今天人們自然有理由相信在Q和A這兩個(gè)早就存在的算法思路里,OpenAI能故技重施再次創(chuàng)造奇跡——當(dāng)然,對(duì)于這奇跡可能對(duì)人類帶來的危害也因?yàn)樽罱麿penAI的鬧劇而讓更多人憂心忡忡。
所以,回到這個(gè)算法,Q*最有可能的樣子是,利用Q學(xué)習(xí)快速找到接近最優(yōu)解的估值,再利用A*算法在小范圍內(nèi)求解,省去了大量沒有意義的計(jì)算過程,以此達(dá)到快速求得最佳解的效果。但是OpenAI具體要怎么做,還得等公開論文(如果能等到的話)。
Q*的出現(xiàn)其實(shí)說明了一個(gè)問題,人工智能頭部公司意識(shí)到當(dāng)下人工智能發(fā)展中求解的過程比求解更有意義。因?yàn)楝F(xiàn)在只追求答案的正確性不再能滿足人們對(duì)人工智能的需求。比如OpenCompass上,即便是平均分?jǐn)?shù)差10分、20分,但是如果從理解的準(zhǔn)確率上看,最好的模型和最差的模型也沒有很大的差距。
在人們的猜測(cè)和恐慌中,一個(gè)關(guān)于Q*的說法是,Q*可以解決非常高級(jí)的數(shù)學(xué)問題。薩里以人為本人工智能研究所所長(zhǎng)安德魯·羅戈斯基表示“我們知道現(xiàn)有的人工智能已被證明能夠進(jìn)行本科水平的數(shù)學(xué)運(yùn)算,但無法處理更高級(jí)的數(shù)學(xué)問題。但是Q*極有可能用來解決高難度的數(shù)學(xué)問題?!闭f不定等到Q*出來的那一天,還可以考考它哥德巴赫猜想。而數(shù)學(xué)被認(rèn)為是人類智慧的最大結(jié)晶之一,因此Q*只是一個(gè)代號(hào)就引發(fā)了全網(wǎng)的恐慌。
而且Q*背后還被與OpenAI的那個(gè)使命相聯(lián)系——那就是對(duì)通用人工智能(AGI),甚至是超級(jí)智能的探索。OpenAI 將 AGI 定義為在最具經(jīng)濟(jì)價(jià)值的任務(wù)中超越人類的自主系統(tǒng),Q*就是OpenAI邁向的AGI的一步。
目前OpenAI對(duì)于Q*和內(nèi)部信泄露事件沒有對(duì)外發(fā)表任何置評(píng),可我卻喜憂參半。對(duì)Q*擁有強(qiáng)大能力表示開心,人工智能領(lǐng)域發(fā)展將會(huì)更進(jìn)一步。同時(shí)也比較擔(dān)心Q*噱頭大于實(shí)際,最后真到發(fā)布的那一天測(cè)試結(jié)果也就那么回事,讓我被哐哐打臉。
本文(含圖片)為合作媒體授權(quán)創(chuàng)業(yè)邦轉(zhuǎn)載,不代表創(chuàng)業(yè)邦立場(chǎng),轉(zhuǎn)載請(qǐng)聯(lián)系原作者。如有任何疑問,請(qǐng)聯(lián)系editor@cyzone.cn。