編者按:本文來自微信公眾號(hào) 騰訊研究院( ID:cyberlawrc),作者:蘇倫,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。
2023年,以ChatGPT為代表的大型語言模型(LLM)集中爆發(fā),讓各界都看到人工智能全新的可能性。但期冀總是與擔(dān)憂并存,隨著大模型在各領(lǐng)域的應(yīng)用深化,已經(jīng)沉寂許久的“AI威脅論”又開始甚囂塵上。在漫長的技術(shù)史中,技術(shù)恐懼如同擺脫不了的陰影,總是與技術(shù)發(fā)展隨行。這一次,面對(duì)一個(gè)前所未有的強(qiáng)大AI,擔(dān)憂的情緒同樣前所未有的強(qiáng)烈。在這種背景下,為了防止AI發(fā)展脫軌,“價(jià)值對(duì)齊”的概念又重新獲得眾多擁躉,成為一個(gè)熱門的領(lǐng)域。
先看看產(chǎn)業(yè)界的反應(yīng),眾多人工智能公司與技術(shù)團(tuán)隊(duì)開始入局“價(jià)值對(duì)齊”。2023年7月,AIGC的領(lǐng)軍企業(yè)OpenAI宣布成立一個(gè)新的AI對(duì)齊團(tuán)隊(duì)。這個(gè)超級(jí)對(duì)齊團(tuán)隊(duì)(superalignment)的目標(biāo),是在4年內(nèi)弄清楚一個(gè)問題:如何讓超級(jí)智能的AI系統(tǒng)實(shí)現(xiàn)價(jià)值對(duì)齊和安全?
值得一提的是,這個(gè)超級(jí)對(duì)齊項(xiàng)目的領(lǐng)導(dǎo)人,就是前段時(shí)間Sam Altman罷免大戲的主人公之一、OpenAI聯(lián)合創(chuàng)始人兼首席科學(xué)家llya Sutskever。而這場(chǎng)“宮斗”的核心導(dǎo)火索之一,就是價(jià)值觀之爭(zhēng):一派以Sam Altman為代表,是商業(yè)化的代言人,以拓寬盈利路徑、發(fā)力應(yīng)用生態(tài)來支撐技術(shù)突破,而一派則主張審慎評(píng)估研究項(xiàng)目,倡導(dǎo)價(jià)值對(duì)齊,從現(xiàn)在開始為有可能超越人類的AI做準(zhǔn)備。
Jan Leike與llya Sutskever共同領(lǐng)導(dǎo)超級(jí)對(duì)齊項(xiàng)目。在一檔播客訪談中,Jan Leike表示,為了支持這一項(xiàng)目,OpenAI承諾將投入20%的計(jì)算資源用于對(duì)齊超級(jí)智能,而項(xiàng)目的核心則是探索如何利用AI來幫助人類解決AI價(jià)值對(duì)齊問題,即訓(xùn)練一個(gè)大致與人類水平相當(dāng)?shù)腁I自動(dòng)對(duì)齊研究員,再借助自動(dòng)對(duì)齊研究員找出對(duì)齊超級(jí)智能的方法。[1]
除了OpenAI,谷歌、微軟等科技公司也紛紛入局,成立了類似的價(jià)值對(duì)齊部門或團(tuán)隊(duì)。而本文意圖討論的問題就是,在人工智能領(lǐng)域浩浩蕩蕩的“對(duì)齊運(yùn)動(dòng)”之外,“對(duì)齊”真的就這么好實(shí)現(xiàn)嗎?它又是否必須?
價(jià)值對(duì)齊,為什么又成焦點(diǎn)?
從AI的發(fā)展歷史來看,“價(jià)值對(duì)齊”并不是一個(gè)新鮮的概念。
哲學(xué)家、牛津大學(xué)人類未來研究所所長Nick Bostrom,曾經(jīng)提出一個(gè)經(jīng)典案例,很適合用來證明沒有與人類對(duì)齊價(jià)值觀的AI到底有多可怕。他描述了一個(gè)能力強(qiáng)大的超級(jí)智能機(jī)器,它被布置了“制作盡可能多的回形針”的任務(wù),而它最終可能摧毀整個(gè)世界,把地球上所有的人和事物都變成制作回形針的材料,因?yàn)檫@些事物在它看來,都是可以用來完成任務(wù)的原子。
這個(gè)著名的“回形針隱喻”顯示了這樣一點(diǎn)邏輯:AI根本沒有與人類同樣的關(guān)于生命的價(jià)值概念。在這種情況下,AI的能力越大,造成威脅的潛在可能性就越大,傷害力也就越強(qiáng)。
“回形針隱喻”在前段時(shí)間有了一個(gè)現(xiàn)實(shí)世界的例子。根據(jù)BBC中文網(wǎng)的報(bào)道,今年11月,韓國慶尚南道一名機(jī)器人公司的檢修人員,被蔬菜分揀機(jī)器人壓死,原因是機(jī)器人把他當(dāng)成需要處理的一盒蔬菜,將其撿起并擠壓,導(dǎo)致其臉部和胸部受傷嚴(yán)重。而后他被送往醫(yī)院,但因傷重而不治身亡。[2]
這些事例充分顯示,一方面,我們正進(jìn)入這樣一個(gè)時(shí)代:AI深入到生產(chǎn)與生活等等曾專屬于人類的各個(gè)領(lǐng)域,另外一方面,AI開始獲得日益強(qiáng)大的能力,以至于頻頻出現(xiàn)人類無法控制的情形。在這種情況下,如果“放任”機(jī)器完全以一套人類不能理解或者不能接受的規(guī)則行事,就有可能釀成災(zāi)難性后果。這已經(jīng)不是一個(gè)技術(shù)層面的問題,而是事關(guān)社會(huì)與人類安全的“政治問題”。
某種程度上,對(duì)于AI的發(fā)展,這也是一個(gè)必須直面的問題。因?yàn)槿绻粚?duì)這一問題加以重視,顯然會(huì)阻礙AI應(yīng)用進(jìn)一步深化的可能性。畢竟,我們不太會(huì)想讓一個(gè)所謂“三觀不正”的AI安插在周圍,成為同事、家人、陪護(hù)員——甚至在某些領(lǐng)域的,主人。
可以說,人工智能參與到我們工作和生活的廣度和深度越大,有關(guān)AI價(jià)值觀的問題就越會(huì)引發(fā)更多的關(guān)注和擔(dān)憂。特別是當(dāng)AI開始被應(yīng)用到司法系統(tǒng)、醫(yī)療陪護(hù)、社會(huì)福利以及教育等公共領(lǐng)域中,這一問題顯然會(huì)演變成AI是否被社會(huì)層面認(rèn)可的關(guān)鍵因素。
所以,這就是價(jià)值對(duì)齊會(huì)成為當(dāng)下關(guān)鍵命題的原因。價(jià)值對(duì)齊的基本目標(biāo),就是要確保無論人工智能發(fā)展到多么強(qiáng)大,都要為人類工作,而且是按照人類的價(jià)值觀進(jìn)行工作。它所要保證的是,即便人工智能發(fā)展成通用人工智能(AGI)甚至是超人工智能——媲美或超越人類能力、能夠執(zhí)行任何任務(wù)、甚至已經(jīng)有了自我意識(shí)——其嵌入的道德原則、倫理規(guī)范和價(jià)值觀,也必須與人類的道德原則、倫理規(guī)范和價(jià)值觀保持一致。
不同的人工智能團(tuán)隊(duì)正在采取不同的方法來推動(dòng)人工智能的價(jià)值對(duì)齊。OpenAI、谷歌的DeepMind各有專注于解決價(jià)值對(duì)齊問題的團(tuán)隊(duì)。除此之外,還有許多第三方監(jiān)督機(jī)構(gòu)、標(biāo)準(zhǔn)組織和政府組織,也將價(jià)值對(duì)齊視作重要目標(biāo)。較有代表性的是Max Tegmark創(chuàng)立的未來生命研究所,這家機(jī)構(gòu)曾推出過Asilomar Ai原則的人工智能發(fā)展指南清單,清單里提到的原則之一,就是價(jià)值對(duì)齊。
價(jià)值是什么?能對(duì)齊嗎?
表面上看,針對(duì)AI的價(jià)值對(duì)齊工作正在如火如荼地進(jìn)行,無論是開發(fā)主體、政府組織、研究者都認(rèn)可其對(duì)于AI發(fā)展的價(jià)值和必要性。但在眾多討論中,似乎還缺少這一面的討論:價(jià)值,真的能對(duì)齊嗎?
這可能是價(jià)值對(duì)齊的命門之一,卻也是開展這項(xiàng)工作之前不得不思考和“對(duì)齊”的先決條件。這個(gè)問題的核心在于,在歷時(shí)性與縱時(shí)性的雙重緯度上,人類是否真正有一套恒定且統(tǒng)一的價(jià)值標(biāo)準(zhǔn)?
顯然,我們生活在一個(gè)文化多元、價(jià)值觀同樣多元的世界。大到對(duì)于生死的觀念,小到對(duì)于美丑的認(rèn)知,在不同的歷史時(shí)期、不同的地域都大相徑庭。那么,當(dāng)談到價(jià)值對(duì)齊,到底要跟AI對(duì)齊哪一套價(jià)值觀,就成了一個(gè)相當(dāng)復(fù)雜的難題:跟誰對(duì)齊?跟哪個(gè)國家、哪種文化對(duì)齊?跟哪個(gè)歷史階段對(duì)齊?總而言之,我們有許多價(jià)值體系,但從未有過一個(gè)統(tǒng)一的、可一概而論的價(jià)值體系,那在推動(dòng)對(duì)AI的價(jià)值對(duì)齊之前,理應(yīng)對(duì)需要對(duì)齊的價(jià)值觀到底是什么達(dá)成一致。但是我們鮮少能看到類似的討論。
現(xiàn)實(shí)情況似乎變成了,誰掌握了最先進(jìn)的AI,誰就擁有了“對(duì)齊”的權(quán)利,誰也就擁有了“定義”何為人類價(jià)值觀的權(quán)利,這顯然是我們不想看到的情形。
即便人類終于商量好要給AI“對(duì)齊”哪一套價(jià)值觀,下一個(gè)緊接而來的問題就是:把價(jià)值觀“對(duì)齊”給AI,是否真的可以實(shí)現(xiàn)?或者說,它是否能夠理解?平素我們討論“價(jià)值觀”,已經(jīng)默認(rèn)了其主體就是人類,人類是唯一擁有價(jià)值觀的物種,也是迄今唯一擁有自主意識(shí)的物種,所以“價(jià)值對(duì)齊”的吊詭性就浮現(xiàn)出來了:既然AI遠(yuǎn)沒有能達(dá)到涌現(xiàn)出自主意識(shí)的地步,那我們要對(duì)齊的“價(jià)值”到底是什么?“對(duì)齊”的意義與本質(zhì)又是什么?
現(xiàn)在通行的幾種價(jià)值觀對(duì)齊方法,要么是技術(shù)性的,要么是規(guī)范性的。規(guī)范性的調(diào)整,與在人工智能系統(tǒng)中嵌入的倫理和道德原則有關(guān),而技術(shù)性的手段則包括“基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)”“合作逆強(qiáng)化學(xué)習(xí)(CIRL)”“監(jiān)督精調(diào)(Supervised Fine-tuning)”等幾種方式,其通行的模式,即是將通用的倫理原則轉(zhuǎn)化成現(xiàn)實(shí)可操作的技術(shù)路徑,避免AI的執(zhí)行路線發(fā)生扭曲。
問題在于,人類復(fù)雜的倫理原則與價(jià)值基礎(chǔ),哪怕是最為簡單的“有益”“誠實(shí)”“公平”等概念,是否可以通過技術(shù)路徑進(jìn)行抽象、簡化并實(shí)現(xiàn)對(duì)齊?Nick Bostrom同樣質(zhì)疑了這一點(diǎn),他指出“創(chuàng)造能夠理解人類價(jià)值觀的人工智能對(duì)于確保我們的安全至關(guān)重要。然而,人類情感的復(fù)雜性和文化的多樣性,使得通過輸入幾行代碼來教導(dǎo)超級(jí)智能機(jī)器人人類到底關(guān)心什么,幾乎是個(gè)不可能的任務(wù)?!盵3]
進(jìn)一步說,隨著人工智能系統(tǒng)開始承擔(dān)更復(fù)雜的任務(wù),能力模型更為復(fù)雜,人類開展對(duì)齊工作甚至是簡單評(píng)估,都將變得難以想象的復(fù)雜。如果強(qiáng)行對(duì)齊,一個(gè)極大的可能性就是會(huì)矮化AI的自身能力以與對(duì)齊工作進(jìn)行適配,這同樣也是AI的可解釋和透明性工作面臨的難點(diǎn)。再說成本問題,AI的價(jià)值對(duì)齊涉及到人工智能的再訓(xùn)練,而這一過程本身就要耗費(fèi)巨大成本,GPT-4的訓(xùn)練成本是1億多美元,更不要提訓(xùn)練過程對(duì)于環(huán)境的負(fù)面影響。
OpenAI利用AI自動(dòng)對(duì)齊,研究員來解決價(jià)值對(duì)齊是一種思路,但這又會(huì)牽涉到新一輪的信任和監(jiān)督問題。正如Jan Leike所擔(dān)心的,如果我們讓系統(tǒng)接管部分甚至全部的對(duì)齊研究,它是否會(huì)試圖欺騙我們?是否會(huì)趁機(jī)篡權(quán)?以及它是否會(huì)有自我泄露(self-exfiltration)的風(fēng)險(xiǎn)?這些都是必須考慮的問題。
價(jià)值對(duì)齊的迷思
不能否認(rèn)價(jià)值對(duì)齊的意義,這顯然是推動(dòng)AI向著符合人類利益的方向發(fā)展的必要機(jī)制保障。但重點(diǎn)在于,我們不應(yīng)該低估價(jià)值對(duì)齊的復(fù)雜性,而是應(yīng)該意識(shí)到,AI的價(jià)值對(duì)齊問題,像AI的常識(shí)問題一樣復(fù)雜,并且像AI的意識(shí)問題一樣難以實(shí)現(xiàn)。
過往,在討論人類或人工智能的意識(shí)問題時(shí),我們總是會(huì)不可避免地觸碰到那道“鴻溝”:在準(zhǔn)備好所有意識(shí)生成的組件以及意識(shí)生成之間,總是會(huì)有一條無法解釋的“天塹”,我們用涌現(xiàn)等詞匯來模糊化這一過程,但始終無法清晰剖解其原理。價(jià)值對(duì)齊也是一樣,我們知道討論它、實(shí)現(xiàn)它的必要性,也能夠列舉出幾條可能的技術(shù)實(shí)現(xiàn)路徑。但問題在于,沒有人能確保價(jià)值是否對(duì)齊成功了,更沒有人知道,這樣的對(duì)齊,對(duì)于人工智能的發(fā)展和人類社會(huì)的命運(yùn)而言,到底是好事,還是壞事?
價(jià)值對(duì)齊的本質(zhì),其實(shí)是信任問題,涉及到人對(duì)AI的信任。某種程度上,價(jià)值對(duì)齊為人類提供了一種安全感,讓AI按照人類的價(jià)值觀行事,無論如何看起來都更加可控了,從而有助于緩解人對(duì)AI能力快速增長的焦慮情緒。但是,“價(jià)值”是一個(gè)相當(dāng)復(fù)雜的概念,正如本文所進(jìn)行的討論,目前階段 “價(jià)值對(duì)齊”的難點(diǎn)是,既很難搞清“價(jià)值”是什么,也無法確定“對(duì)齊”能否實(shí)現(xiàn)。在這種情況下,價(jià)值對(duì)齊似乎也成了一個(gè)偽問題。
同時(shí),我們無法預(yù)知未來,因此并不能知道我們現(xiàn)行的價(jià)值觀是否在未來依然成立,并且沒有發(fā)生大的變動(dòng)。強(qiáng)行把現(xiàn)有的價(jià)值觀對(duì)齊給AI,是否會(huì)矮化它的發(fā)展?jié)摿?,并且扼殺它的眾多可能性。這是現(xiàn)階段討論價(jià)值對(duì)齊必須預(yù)料的風(fēng)險(xiǎn)。
一種相對(duì)務(wù)實(shí)的思路是,與其花大力氣拓展價(jià)值對(duì)齊,不如專注于AI能力的發(fā)展,探索AI應(yīng)用的更多可能性。無論如何,大模型的能力才是第一性的,這涉及到一個(gè)基本的邏輯問題:面對(duì)尚且羸弱的AI,根本沒有必要跟它進(jìn)行價(jià)值對(duì)齊,因?yàn)橐坏?duì)齊,它可能永遠(yuǎn)無法實(shí)現(xiàn)強(qiáng)大的可能性。這不是“先發(fā)展后治理”的思路,而是避免因提前焦慮就將一個(gè)能夠以更高水平服務(wù)于人類社會(huì)的AI扼殺在搖籃。某種程度上,AI的發(fā)展水平正在決定“定義權(quán)”,這已經(jīng)不是行業(yè)內(nèi)幾家公司的競(jìng)爭(zhēng),而是超越了國別與地域,成為關(guān)乎人類未來的議題。在這種情況下,一個(gè)遠(yuǎn)遠(yuǎn)落后的AI,即便再對(duì)齊也是沒有價(jià)值的。
注釋:
[1]https://blog.csdn.net/tMb8Z9Vdm66wH68VX1/article/details/132517615
[2]https://twitter.com/bbcchinese/status/1722459405520867359
[3]轉(zhuǎn)引自:https://m.thepaper.cn/newsDetail_forward_23723000
本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn),不代表創(chuàng)業(yè)邦立場(chǎng),轉(zhuǎn)載請(qǐng)聯(lián)系原作者。如有任何疑問,請(qǐng)聯(lián)系editor@cyzone.cn。