技術(shù)真的可以“價(jià)值對(duì)齊”嗎？

騰訊研究院·2023-12-19

關(guān)注

ee

北京移動(dòng)互聯(lián)網(wǎng)

面向女生的新一代場(chǎng)景社交

最近融資：|2016-01-06

我要聯(lián)系

“對(duì)齊運(yùn)動(dòng)”是否必須？

編者按：本文來(lái)自微信公眾號(hào) 騰訊研究院（ ID：cyberlawrc），作者：蘇倫，創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

2023年，以ChatGPT為代表的大型語(yǔ)言模型（LLM）集中爆發(fā)，讓各界都看到人工智能全新的可能性。但期冀總是與擔(dān)憂并存，隨著大模型在各領(lǐng)域的應(yīng)用深化，已經(jīng)沉寂許久的“AI威脅論”又開(kāi)始甚囂塵上。在漫長(zhǎng)的技術(shù)史中，技術(shù)恐懼如同擺脫不了的陰影，總是與技術(shù)發(fā)展隨行。這一次，面對(duì)一個(gè)前所未有的強(qiáng)大AI，擔(dān)憂的情緒同樣前所未有的強(qiáng)烈。在這種背景下，為了防止AI發(fā)展脫軌，“價(jià)值對(duì)齊”的概念又重新獲得眾多擁躉，成為一個(gè)熱門(mén)的領(lǐng)域。

先看看產(chǎn)業(yè)界的反應(yīng)，眾多人工智能公司與技術(shù)團(tuán)隊(duì)開(kāi)始入局“價(jià)值對(duì)齊”。2023年7月，AIGC的領(lǐng)軍企業(yè)OpenAI宣布成立一個(gè)新的AI對(duì)齊團(tuán)隊(duì)。這個(gè)超級(jí)對(duì)齊團(tuán)隊(duì)（superalignment）的目標(biāo)，是在4年內(nèi)弄清楚一個(gè)問(wèn)題：如何讓超級(jí)智能的AI系統(tǒng)實(shí)現(xiàn)價(jià)值對(duì)齊和安全？

值得一提的是，這個(gè)超級(jí)對(duì)齊項(xiàng)目的領(lǐng)導(dǎo)人，就是前段時(shí)間Sam Altman罷免大戲的主人公之一、OpenAI聯(lián)合創(chuàng)始人兼首席科學(xué)家llya Sutskever。而這場(chǎng)“宮斗”的核心導(dǎo)火索之一，就是價(jià)值觀之爭(zhēng)：一派以Sam Altman為代表，是商業(yè)化的代言人，以拓寬盈利路徑、發(fā)力應(yīng)用生態(tài)來(lái)支撐技術(shù)突破，而一派則主張審慎評(píng)估研究項(xiàng)目，倡導(dǎo)價(jià)值對(duì)齊，從現(xiàn)在開(kāi)始為有可能超越人類(lèi)的AI做準(zhǔn)備。

Jan Leike與llya Sutskever共同領(lǐng)導(dǎo)超級(jí)對(duì)齊項(xiàng)目。在一檔播客訪談中，Jan Leike表示，為了支持這一項(xiàng)目，OpenAI承諾將投入20%的計(jì)算資源用于對(duì)齊超級(jí)智能，而項(xiàng)目的核心則是探索如何利用AI來(lái)幫助人類(lèi)解決AI價(jià)值對(duì)齊問(wèn)題，即訓(xùn)練一個(gè)大致與人類(lèi)水平相當(dāng)?shù)腁I自動(dòng)對(duì)齊研究員，再借助自動(dòng)對(duì)齊研究員找出對(duì)齊超級(jí)智能的方法。[1]

除了OpenAI，谷歌、微軟等科技公司也紛紛入局，成立了類(lèi)似的價(jià)值對(duì)齊部門(mén)或團(tuán)隊(duì)。而本文意圖討論的問(wèn)題就是，在人工智能領(lǐng)域浩浩蕩蕩的“對(duì)齊運(yùn)動(dòng)”之外，“對(duì)齊”真的就這么好實(shí)現(xiàn)嗎？它又是否必須？

價(jià)值對(duì)齊，為什么又成焦點(diǎn)？

從AI的發(fā)展歷史來(lái)看，“價(jià)值對(duì)齊”并不是一個(gè)新鮮的概念。

哲學(xué)家、牛津大學(xué)人類(lèi)未來(lái)研究所所長(zhǎng)Nick Bostrom，曾經(jīng)提出一個(gè)經(jīng)典案例，很適合用來(lái)證明沒(méi)有與人類(lèi)對(duì)齊價(jià)值觀的AI到底有多可怕。他描述了一個(gè)能力強(qiáng)大的超級(jí)智能機(jī)器，它被布置了“制作盡可能多的回形針”的任務(wù)，而它最終可能摧毀整個(gè)世界，把地球上所有的人和事物都變成制作回形針的材料，因?yàn)檫@些事物在它看來(lái)，都是可以用來(lái)完成任務(wù)的原子。

這個(gè)著名的“回形針隱喻”顯示了這樣一點(diǎn)邏輯：AI根本沒(méi)有與人類(lèi)同樣的關(guān)于生命的價(jià)值概念。在這種情況下，AI的能力越大，造成威脅的潛在可能性就越大，傷害力也就越強(qiáng)。

“回形針隱喻”在前段時(shí)間有了一個(gè)現(xiàn)實(shí)世界的例子。根據(jù)BBC中文網(wǎng)的報(bào)道，今年11月，韓國(guó)慶尚南道一名機(jī)器人公司的檢修人員，被蔬菜分揀機(jī)器人壓死，原因是機(jī)器人把他當(dāng)成需要處理的一盒蔬菜，將其撿起并擠壓，導(dǎo)致其臉部和胸部受傷嚴(yán)重。而后他被送往醫(yī)院，但因傷重而不治身亡。[2]

這些事例充分顯示，一方面，我們正進(jìn)入這樣一個(gè)時(shí)代：AI深入到生產(chǎn)與生活等等曾專(zhuān)屬于人類(lèi)的各個(gè)領(lǐng)域，另外一方面，AI開(kāi)始獲得日益強(qiáng)大的能力，以至于頻頻出現(xiàn)人類(lèi)無(wú)法控制的情形。在這種情況下，如果“放任”機(jī)器完全以一套人類(lèi)不能理解或者不能接受的規(guī)則行事，就有可能釀成災(zāi)難性后果。這已經(jīng)不是一個(gè)技術(shù)層面的問(wèn)題，而是事關(guān)社會(huì)與人類(lèi)安全的“政治問(wèn)題”。

某種程度上，對(duì)于AI的發(fā)展，這也是一個(gè)必須直面的問(wèn)題。因?yàn)槿绻粚?duì)這一問(wèn)題加以重視，顯然會(huì)阻礙AI應(yīng)用進(jìn)一步深化的可能性。畢竟，我們不太會(huì)想讓一個(gè)所謂“三觀不正”的AI安插在周?chē)蔀橥?、家人、陪護(hù)員——甚至在某些領(lǐng)域的，主人。

可以說(shuō)，人工智能參與到我們工作和生活的廣度和深度越大，有關(guān)AI價(jià)值觀的問(wèn)題就越會(huì)引發(fā)更多的關(guān)注和擔(dān)憂。特別是當(dāng)AI開(kāi)始被應(yīng)用到司法系統(tǒng)、醫(yī)療陪護(hù)、社會(huì)福利以及教育等公共領(lǐng)域中，這一問(wèn)題顯然會(huì)演變成AI是否被社會(huì)層面認(rèn)可的關(guān)鍵因素。

所以，這就是價(jià)值對(duì)齊會(huì)成為當(dāng)下關(guān)鍵命題的原因。價(jià)值對(duì)齊的基本目標(biāo)，就是要確保無(wú)論人工智能發(fā)展到多么強(qiáng)大，都要為人類(lèi)工作，而且是按照人類(lèi)的價(jià)值觀進(jìn)行工作。它所要保證的是，即便人工智能發(fā)展成通用人工智能（AGI）甚至是超人工智能——媲美或超越人類(lèi)能力、能夠執(zhí)行任何任務(wù)、甚至已經(jīng)有了自我意識(shí)——其嵌入的道德原則、倫理規(guī)范和價(jià)值觀，也必須與人類(lèi)的道德原則、倫理規(guī)范和價(jià)值觀保持一致。

不同的人工智能團(tuán)隊(duì)正在采取不同的方法來(lái)推動(dòng)人工智能的價(jià)值對(duì)齊。OpenAI、谷歌的DeepMind各有專(zhuān)注于解決價(jià)值對(duì)齊問(wèn)題的團(tuán)隊(duì)。除此之外，還有許多第三方監(jiān)督機(jī)構(gòu)、標(biāo)準(zhǔn)組織和政府組織，也將價(jià)值對(duì)齊視作重要目標(biāo)。較有代表性的是Max Tegmark創(chuàng)立的未來(lái)生命研究所，這家機(jī)構(gòu)曾推出過(guò)Asilomar Ai原則的人工智能發(fā)展指南清單，清單里提到的原則之一，就是價(jià)值對(duì)齊。

價(jià)值是什么？能對(duì)齊嗎？

表面上看，針對(duì)AI的價(jià)值對(duì)齊工作正在如火如荼地進(jìn)行，無(wú)論是開(kāi)發(fā)主體、政府組織、研究者都認(rèn)可其對(duì)于AI發(fā)展的價(jià)值和必要性。但在眾多討論中，似乎還缺少這一面的討論：價(jià)值，真的能對(duì)齊嗎？

這可能是價(jià)值對(duì)齊的命門(mén)之一，卻也是開(kāi)展這項(xiàng)工作之前不得不思考和“對(duì)齊”的先決條件。這個(gè)問(wèn)題的核心在于，在歷時(shí)性與縱時(shí)性的雙重緯度上，人類(lèi)是否真正有一套恒定且統(tǒng)一的價(jià)值標(biāo)準(zhǔn)？

顯然，我們生活在一個(gè)文化多元、價(jià)值觀同樣多元的世界。大到對(duì)于生死的觀念，小到對(duì)于美丑的認(rèn)知，在不同的歷史時(shí)期、不同的地域都大相徑庭。那么，當(dāng)談到價(jià)值對(duì)齊，到底要跟AI對(duì)齊哪一套價(jià)值觀，就成了一個(gè)相當(dāng)復(fù)雜的難題：跟誰(shuí)對(duì)齊？跟哪個(gè)國(guó)家、哪種文化對(duì)齊？跟哪個(gè)歷史階段對(duì)齊？總而言之，我們有許多價(jià)值體系，但從未有過(guò)一個(gè)統(tǒng)一的、可一概而論的價(jià)值體系，那在推動(dòng)對(duì)AI的價(jià)值對(duì)齊之前，理應(yīng)對(duì)需要對(duì)齊的價(jià)值觀到底是什么達(dá)成一致。但是我們鮮少能看到類(lèi)似的討論。

現(xiàn)實(shí)情況似乎變成了，誰(shuí)掌握了最先進(jìn)的AI，誰(shuí)就擁有了“對(duì)齊”的權(quán)利，誰(shuí)也就擁有了“定義”何為人類(lèi)價(jià)值觀的權(quán)利，這顯然是我們不想看到的情形。

即便人類(lèi)終于商量好要給AI“對(duì)齊”哪一套價(jià)值觀，下一個(gè)緊接而來(lái)的問(wèn)題就是：把價(jià)值觀“對(duì)齊”給AI，是否真的可以實(shí)現(xiàn)？或者說(shuō)，它是否能夠理解？平素我們討論“價(jià)值觀”，已經(jīng)默認(rèn)了其主體就是人類(lèi)，人類(lèi)是唯一擁有價(jià)值觀的物種，也是迄今唯一擁有自主意識(shí)的物種，所以“價(jià)值對(duì)齊”的吊詭性就浮現(xiàn)出來(lái)了：既然AI遠(yuǎn)沒(méi)有能達(dá)到涌現(xiàn)出自主意識(shí)的地步，那我們要對(duì)齊的“價(jià)值”到底是什么？“對(duì)齊”的意義與本質(zhì)又是什么？

現(xiàn)在通行的幾種價(jià)值觀對(duì)齊方法，要么是技術(shù)性的，要么是規(guī)范性的。規(guī)范性的調(diào)整，與在人工智能系統(tǒng)中嵌入的倫理和道德原則有關(guān)，而技術(shù)性的手段則包括“基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)（RLHF）”“合作逆強(qiáng)化學(xué)習(xí)（CIRL）”“監(jiān)督精調(diào)（Supervised Fine-tuning）”等幾種方式，其通行的模式，即是將通用的倫理原則轉(zhuǎn)化成現(xiàn)實(shí)可操作的技術(shù)路徑，避免AI的執(zhí)行路線發(fā)生扭曲。

問(wèn)題在于，人類(lèi)復(fù)雜的倫理原則與價(jià)值基礎(chǔ)，哪怕是最為簡(jiǎn)單的“有益”“誠(chéng)實(shí)”“公平”等概念，是否可以通過(guò)技術(shù)路徑進(jìn)行抽象、簡(jiǎn)化并實(shí)現(xiàn)對(duì)齊？Nick Bostrom同樣質(zhì)疑了這一點(diǎn)，他指出“創(chuàng)造能夠理解人類(lèi)價(jià)值觀的人工智能對(duì)于確保我們的安全至關(guān)重要。然而，人類(lèi)情感的復(fù)雜性和文化的多樣性，使得通過(guò)輸入幾行代碼來(lái)教導(dǎo)超級(jí)智能機(jī)器人人類(lèi)到底關(guān)心什么，幾乎是個(gè)不可能的任務(wù)?！盵3]

進(jìn)一步說(shuō)，隨著人工智能系統(tǒng)開(kāi)始承擔(dān)更復(fù)雜的任務(wù)，能力模型更為復(fù)雜，人類(lèi)開(kāi)展對(duì)齊工作甚至是簡(jiǎn)單評(píng)估，都將變得難以想象的復(fù)雜。如果強(qiáng)行對(duì)齊，一個(gè)極大的可能性就是會(huì)矮化AI的自身能力以與對(duì)齊工作進(jìn)行適配，這同樣也是AI的可解釋和透明性工作面臨的難點(diǎn)。再說(shuō)成本問(wèn)題，AI的價(jià)值對(duì)齊涉及到人工智能的再訓(xùn)練，而這一過(guò)程本身就要耗費(fèi)巨大成本，GPT-4的訓(xùn)練成本是1億多美元，更不要提訓(xùn)練過(guò)程對(duì)于環(huán)境的負(fù)面影響。

OpenAI利用AI自動(dòng)對(duì)齊，研究員來(lái)解決價(jià)值對(duì)齊是一種思路，但這又會(huì)牽涉到新一輪的信任和監(jiān)督問(wèn)題。正如Jan Leike所擔(dān)心的，如果我們讓系統(tǒng)接管部分甚至全部的對(duì)齊研究，它是否會(huì)試圖欺騙我們？是否會(huì)趁機(jī)篡權(quán)？以及它是否會(huì)有自我泄露（self-exfiltration）的風(fēng)險(xiǎn)？這些都是必須考慮的問(wèn)題。

價(jià)值對(duì)齊的迷思

不能否認(rèn)價(jià)值對(duì)齊的意義，這顯然是推動(dòng)AI向著符合人類(lèi)利益的方向發(fā)展的必要機(jī)制保障。但重點(diǎn)在于，我們不應(yīng)該低估價(jià)值對(duì)齊的復(fù)雜性，而是應(yīng)該意識(shí)到，AI的價(jià)值對(duì)齊問(wèn)題，像AI的常識(shí)問(wèn)題一樣復(fù)雜，并且像AI的意識(shí)問(wèn)題一樣難以實(shí)現(xiàn)。

過(guò)往，在討論人類(lèi)或人工智能的意識(shí)問(wèn)題時(shí)，我們總是會(huì)不可避免地觸碰到那道“鴻溝”：在準(zhǔn)備好所有意識(shí)生成的組件以及意識(shí)生成之間，總是會(huì)有一條無(wú)法解釋的“天塹”，我們用涌現(xiàn)等詞匯來(lái)模糊化這一過(guò)程，但始終無(wú)法清晰剖解其原理。價(jià)值對(duì)齊也是一樣，我們知道討論它、實(shí)現(xiàn)它的必要性，也能夠列舉出幾條可能的技術(shù)實(shí)現(xiàn)路徑。但問(wèn)題在于，沒(méi)有人能確保價(jià)值是否對(duì)齊成功了，更沒(méi)有人知道，這樣的對(duì)齊，對(duì)于人工智能的發(fā)展和人類(lèi)社會(huì)的命運(yùn)而言，到底是好事，還是壞事？

價(jià)值對(duì)齊的本質(zhì)，其實(shí)是信任問(wèn)題，涉及到人對(duì)AI的信任。某種程度上，價(jià)值對(duì)齊為人類(lèi)提供了一種安全感，讓AI按照人類(lèi)的價(jià)值觀行事，無(wú)論如何看起來(lái)都更加可控了，從而有助于緩解人對(duì)AI能力快速增長(zhǎng)的焦慮情緒。但是，“價(jià)值”是一個(gè)相當(dāng)復(fù)雜的概念，正如本文所進(jìn)行的討論，目前階段 “價(jià)值對(duì)齊”的難點(diǎn)是，既很難搞清“價(jià)值”是什么，也無(wú)法確定“對(duì)齊”能否實(shí)現(xiàn)。在這種情況下，價(jià)值對(duì)齊似乎也成了一個(gè)偽問(wèn)題。

同時(shí)，我們無(wú)法預(yù)知未來(lái)，因此并不能知道我們現(xiàn)行的價(jià)值觀是否在未來(lái)依然成立，并且沒(méi)有發(fā)生大的變動(dòng)。強(qiáng)行把現(xiàn)有的價(jià)值觀對(duì)齊給AI，是否會(huì)矮化它的發(fā)展?jié)摿?，并且扼殺它的眾多可能性。這是現(xiàn)階段討論價(jià)值對(duì)齊必須預(yù)料的風(fēng)險(xiǎn)。

一種相對(duì)務(wù)實(shí)的思路是，與其花大力氣拓展價(jià)值對(duì)齊，不如專(zhuān)注于AI能力的發(fā)展，探索AI應(yīng)用的更多可能性。無(wú)論如何，大模型的能力才是第一性的，這涉及到一個(gè)基本的邏輯問(wèn)題：面對(duì)尚且羸弱的AI，根本沒(méi)有必要跟它進(jìn)行價(jià)值對(duì)齊，因?yàn)橐坏?duì)齊，它可能永遠(yuǎn)無(wú)法實(shí)現(xiàn)強(qiáng)大的可能性。這不是“先發(fā)展后治理”的思路，而是避免因提前焦慮就將一個(gè)能夠以更高水平服務(wù)于人類(lèi)社會(huì)的AI扼殺在搖籃。某種程度上，AI的發(fā)展水平正在決定“定義權(quán)”，這已經(jīng)不是行業(yè)內(nèi)幾家公司的競(jìng)爭(zhēng)，而是超越了國(guó)別與地域，成為關(guān)乎人類(lèi)未來(lái)的議題。在這種情況下，一個(gè)遠(yuǎn)遠(yuǎn)落后的AI，即便再對(duì)齊也是沒(méi)有價(jià)值的。

注釋?zhuān)?/strong>

[1]https://blog.csdn.net/tMb8Z9Vdm66wH68VX1/article/details/132517615

[2]https://twitter.com/bbcchinese/status/1722459405520867359

[3]轉(zhuǎn)引自：https://m.thepaper.cn/newsDetail_forward_23723000

本文為專(zhuān)欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表，版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn)，不代表創(chuàng)業(yè)邦立場(chǎng)，轉(zhuǎn)載請(qǐng)聯(lián)系原作者。如有任何疑問(wèn)，請(qǐng)聯(lián)系editor@cyzone.cn。