編者按:本文來(lái)自微信公眾號(hào) 新智元(ID:AI_era),編輯:Aeneas 好困,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。
就在剛剛,消息曝出:OpenAI吹哨人,在家中離世。
曾在OpenAI工作四年,指控公司侵犯版權(quán)的Suchir Balaji,上月底在舊金山公寓中被發(fā)現(xiàn)死亡,年僅26歲。
舊金山警方表示,11月26日下午1時(shí)許,他們接到了一通要求查看Balaji安危的電話,但在到達(dá)后卻發(fā)現(xiàn)他已經(jīng)死亡。
這位吹哨人手中掌握的信息,原本將在針對(duì)OpenAI的訴訟中發(fā)揮關(guān)鍵作用。
如今,他卻意外去世。
法醫(yī)辦公室認(rèn)定,死因?yàn)樽詺?。警方也表示,「并未發(fā)現(xiàn)任何他殺證據(jù)」。
他的X上的最后一篇帖子,正是介紹自己對(duì)于OpenAI訓(xùn)練ChatGPT是否違反法律的思考和分析。
他也強(qiáng)調(diào),希望這不要被解讀為對(duì)ChatGPT或OpenAI本身的批評(píng)。
如今,在這篇帖子下,網(wǎng)友們紛紛發(fā)出悼念。
Suchir Blaji的朋友也表示,他人十分聰明,絕不像是會(huì)自殺的人。
吹哨人警告:OpenAI訓(xùn)練模型時(shí)違反原則
Suchir Balaji曾參與OpenAI參與開發(fā)ChatGPT及底層模型的過(guò)程。
今年10月發(fā)表的一篇博文中他指出,公司在使用新聞和其他網(wǎng)站的信息訓(xùn)練其AI模型時(shí),違反了「合理使用」原則。
博文地址:https://suchir.net/fair_use.html
然而,就在公開指控OpenAI違反美國(guó)版權(quán)法三個(gè)月之后,他就離世了。
為什么11月底的事情12月中旬才爆出來(lái),網(wǎng)友們也表示質(zhì)疑
其實(shí),自從2022年底公開發(fā)布ChatGPT以來(lái),OpenAI就面臨著來(lái)自作家、程序員、記者等群體的一波又一波的訴訟潮。
他們認(rèn)為,OpenAI非法使用自己受版權(quán)保護(hù)的材料來(lái)訓(xùn)練AI模型,公司估值攀升至1500億美元以上的果實(shí),卻自己獨(dú)享。
為此,《水星新聞報(bào)》《紐約時(shí)報(bào)》等多家報(bào)社,都在過(guò)去一年內(nèi)對(duì)OpenAI提起訴訟。
今年10月23日,《紐約時(shí)報(bào)》發(fā)表了對(duì)Balaji的采訪,他指出,OpenAI正在損害那些數(shù)據(jù)被利用的企業(yè)和創(chuàng)業(yè)者的利益。
「如果你認(rèn)同我的觀點(diǎn),你就必須離開公司。這對(duì)整個(gè)互聯(lián)網(wǎng)生態(tài)系統(tǒng)而言,都不是一個(gè)可持續(xù)的模式?!?/p>
一個(gè)理想主義者之死
Balaji在加州長(zhǎng)大,十幾歲時(shí),他發(fā)現(xiàn)了一則關(guān)于DeepMind讓AI自己玩Atari游戲的報(bào)道,心生向往。
高中畢業(yè)后的gap year,Balaji開始探索DeepMind背后的關(guān)鍵理念——神經(jīng)網(wǎng)絡(luò)數(shù)學(xué)系統(tǒng)。
Balaji本科就讀于UC伯克利,主修計(jì)算機(jī)科學(xué)。在大學(xué)期間,他相信AI能為社會(huì)帶來(lái)巨大益處,比如治愈疾病、延緩衰老。在他看來(lái),我們可以創(chuàng)造某種科學(xué)家,來(lái)解決這類問(wèn)題。
2020年,他和一批伯克利的畢業(yè)生們,共同前往OpenAI工作。
然而,在加入OpenAI、擔(dān)任兩年研究員后,他的想法開始轉(zhuǎn)變。
在那里,他被分配的任務(wù)是為GPT-4收集互聯(lián)網(wǎng)數(shù)據(jù),這個(gè)神經(jīng)網(wǎng)絡(luò)花了幾個(gè)月的時(shí)間,分析了互聯(lián)網(wǎng)上幾乎所有英語(yǔ)文本。
Balaji認(rèn)為,這種做法違反了美國(guó)關(guān)于已發(fā)表作品的「合理使用」法律。今年10月底,他在個(gè)人網(wǎng)站上發(fā)布一篇文章,論證了這一觀點(diǎn)。
目前沒(méi)有任何已知因素,能夠支持「ChatGPT對(duì)其訓(xùn)練數(shù)據(jù)的使用是合理的」。但需要說(shuō)明的是,這些論點(diǎn)并非僅針對(duì)ChatGPT,類似的論述也適用于各個(gè)領(lǐng)域的眾多生成式AI產(chǎn)品。
根據(jù)《紐約時(shí)報(bào)》律師的說(shuō)法,Balaji掌握著「獨(dú)特的相關(guān)文件」,在紐約時(shí)報(bào)對(duì)OpenAI的訴訟中,這些文件極為有利。
在準(zhǔn)備取證前,紐約時(shí)報(bào)提到,至少12人(多為OpenAI的前任或現(xiàn)任員工)掌握著對(duì)案件有幫助的材料。
在過(guò)去一年中,OpenAI的估值已經(jīng)翻了一倍,但新聞機(jī)構(gòu)認(rèn)為,該公司和微軟抄襲和盜用了自己的文章,嚴(yán)重?fù)p害了它們的商業(yè)模式。
訴訟書指出——
微軟和OpenAI輕易地攫取了記者、新聞工作者、評(píng)論員、編輯等為地方報(bào)紙作出貢獻(xiàn)的勞動(dòng)成果——完全無(wú)視這些為地方社區(qū)提供新聞的創(chuàng)作者和發(fā)布者的付出,更遑論他們的法律權(quán)利。
而對(duì)于這些指控,OpenAI予以堅(jiān)決否認(rèn)。他們強(qiáng)調(diào),大模型訓(xùn)練中的所有工作,都符合「合理使用」法律規(guī)定。
為什么說(shuō)ChatGPT沒(méi)有「合理使用」數(shù)據(jù)
為什么OpenAI違反了「合理使用」法?Balaji在長(zhǎng)篇博文中,列出了詳盡的分析。
他引用了1976年《版權(quán)法》第107條中對(duì)「合理使用」的定義。
是否符合「合理使用」,應(yīng)考慮的因素包括以下四條:
(1)使用的目的和性質(zhì),包括該使用是否具有商業(yè)性質(zhì)或是否用于非營(yíng)利教育目的;(2)受版權(quán)保護(hù)作品的性質(zhì);(3)所使用部分相對(duì)于整個(gè)受版權(quán)保護(hù)作品的數(shù)量和實(shí)質(zhì)性;(4)該使用對(duì)受版權(quán)保護(hù)作品的潛在市場(chǎng)或價(jià)值的影響。
按(4)、(1)、(2)、(3)的順序,Balaji做了詳細(xì)論證。
因素(4):對(duì)受版權(quán)保護(hù)作品的潛在市場(chǎng)影響
由于ChatGPT訓(xùn)練集對(duì)市場(chǎng)價(jià)值的影響,會(huì)因數(shù)據(jù)來(lái)源而異,而且由于其訓(xùn)練集并未公開,這個(gè)問(wèn)題無(wú)法直接回答。
不過(guò),某些研究可以量化這個(gè)結(jié)果。
《生成式AI對(duì)在線知識(shí)社區(qū)的影響》發(fā)現(xiàn),在ChatGPT發(fā)布后,Stack Overflow的訪問(wèn)量下降了約12%。
此外,ChatGPT發(fā)布后每個(gè)主題的提問(wèn)數(shù)量也有所下降。
提問(wèn)者的平均賬戶年齡也在ChatGPT發(fā)布后呈上升趨勢(shì),這表明新成員要么沒(méi)有加入,要么正在離開社區(qū)。
而Stack Overflow,顯然不是唯一受ChatGPT影響的網(wǎng)站。例如,作業(yè)幫助網(wǎng)站Chegg在報(bào)告ChatGPT影響其增長(zhǎng)后,股價(jià)下跌了40%。
當(dāng)然,OpenAI和谷歌這樣的模型開發(fā)商,也和Stack Overflow、Reddit、美聯(lián)社、News Corp等簽訂了數(shù)據(jù)許可協(xié)議。
但簽署了協(xié)議,數(shù)據(jù)就是「合理使用」嗎?
總之,鑒于數(shù)據(jù)許可市場(chǎng)的存在,在未獲得類似許可協(xié)議的情況下使用受版權(quán)保護(hù)的數(shù)據(jù)進(jìn)行訓(xùn)練也構(gòu)成了市場(chǎng)利益損害,因?yàn)檫@剝奪了版權(quán)持有人的合法收入來(lái)源。
因素(1):使用目的和性質(zhì),是商業(yè)性質(zhì),還是教育目的
書評(píng)家可以在評(píng)論中引用某書的片段,雖然這可能會(huì)損害后者的市場(chǎng)價(jià)值,但仍被視為合理使用,這是因?yàn)?,二者沒(méi)有替代或競(jìng)爭(zhēng)關(guān)系。
這種替代使用和非替代使用之間的區(qū)別,源自1841年的「Folsom訴Marsh案」,這是一個(gè)確立合理使用原則的里程碑案例。
問(wèn)題來(lái)了——作為一款商業(yè)產(chǎn)品,ChatGPT是否與用于訓(xùn)練它的數(shù)據(jù)具有相似的用途?
顯然,在這個(gè)過(guò)程中,ChatGPT創(chuàng)造了與原始內(nèi)容形成直接競(jìng)爭(zhēng)的替代品。
比如,如果想知道「為什么在浮點(diǎn)數(shù)運(yùn)算中,0.1+0. 2=0.30000000000000004?」這種編程問(wèn)題,就可以直接向ChatGPT(左)提問(wèn),而不必再去搜索Stack Overflow(右)。
因素(2):受版權(quán)保護(hù)作品的性質(zhì)
這一因素,是各項(xiàng)標(biāo)準(zhǔn)中影響力最小的一個(gè),因此不作詳細(xì)討論。
因素(3):使用部分相對(duì)于整體受保護(hù)作品的數(shù)量及實(shí)質(zhì)性
考慮這一因素,可以有兩種解釋——
(1)模型的訓(xùn)練輸入包含了受版權(quán)保護(hù)數(shù)據(jù)的完整副本,因此「使用量」實(shí)際上是整個(gè)受版權(quán)保護(hù)作品。這不利于「合理使用」。
(2)模型的輸出內(nèi)容幾乎不會(huì)直接復(fù)制受版權(quán)保護(hù)的數(shù)據(jù),因此「使用量」可以視為接近零。這種觀點(diǎn)支持「合理使用」。
哪一種更符合現(xiàn)實(shí)?
為此,作者采用信息論,對(duì)此進(jìn)行了量化分析。
在信息論中,最基本的計(jì)量單位是比特,代表著一個(gè)是/否的二元選擇。
在一個(gè)分布中,平均信息量稱為熵,同樣以比特為單位(根據(jù)香農(nóng)的研究,英文文本的熵值約在每個(gè)字符0.6至1.3比特之間)。
兩個(gè)分布之間共享的信息量稱為互信息(MI),其計(jì)算公式為:
在公式中,X和Y表示隨機(jī)變量,H(X)是X的邊際熵,H(X|Y)是在已知Y的情況下X的條件熵。如果將X視為原創(chuàng)作品,Y視為其衍生作品,那么互信息I(X;Y)就表示創(chuàng)作Y時(shí)借鑒了多少X中的信息。
對(duì)于因素3,重點(diǎn)關(guān)注的是互信息相對(duì)于原創(chuàng)作品信息量的比例,即相對(duì)互信息(RMI),定義如下:
此概念可用簡(jiǎn)單的視覺(jué)模型來(lái)理解:如果用紅色圓圈代表原創(chuàng)作品中的信息,藍(lán)色圓圈代表新作品中的信息,那么相對(duì)互信息就是兩個(gè)圓圈重疊部分與紅色圓圈面積的比值:
在生成式AI領(lǐng)域中,重點(diǎn)關(guān)注相對(duì)互信息(RMI),其中X表示潛在的訓(xùn)練數(shù)據(jù)集,Y表示模型生成的輸出集合,而f則代表模型的訓(xùn)練過(guò)程以及從生成模型中進(jìn)行采樣的過(guò)程:
在實(shí)踐中,計(jì)算H(Y|X)——即已訓(xùn)練生成模型輸出的信息熵——相對(duì)容易。但要估算H(Y)——即在所有可能訓(xùn)練數(shù)據(jù)集上的模型輸出總體信息熵——?jiǎng)t極其困難。
至于H(X)——訓(xùn)練數(shù)據(jù)分布的真實(shí)信息熵——雖然計(jì)算困難但仍是可行的。
可以作出一個(gè)合理假設(shè):H(Y) ≥ H(X)。
這個(gè)假設(shè)是有依據(jù)的,因?yàn)橥昝罃M合訓(xùn)練分布的生成模型會(huì)呈現(xiàn)H(Y) = H(X)的特征,同樣,過(guò)度擬合并且記憶訓(xùn)練數(shù)據(jù)的模型也是如此。
而對(duì)于欠擬合的生成模型,可能會(huì)引入額外的噪聲,導(dǎo)致H(Y) > H(X)。在H(Y) ≥ H(X)的條件下,就可以為RMI確定一個(gè)下限:
這個(gè)下限背后的基本原理是:輸出的信息熵越低,就越可能包含來(lái)自模型訓(xùn)練數(shù)據(jù)的信息。
在極端情況下,就會(huì)導(dǎo)致「內(nèi)容重復(fù)輸出」的問(wèn)題,即模型會(huì)以確定性的方式,輸出訓(xùn)練數(shù)據(jù)中的片段。
即使在非確定性的輸出中,訓(xùn)練數(shù)據(jù)的信息仍可能以某種程度被使用——這些信息可能被分散融入到整個(gè)輸出內(nèi)容中,而不是簡(jiǎn)單的直接復(fù)制。
從理論上講,模型輸出的信息熵并不需要低于原始數(shù)據(jù)的真實(shí)信息熵,但在實(shí)際開發(fā)中,模型開發(fā)者往往傾向于選擇讓輸出熵更低的訓(xùn)練和部署方法。
這主要是因?yàn)?,熵值高的輸出在采樣過(guò)程中會(huì)包含更多隨機(jī)性,容易導(dǎo)致內(nèi)容缺乏連貫性或產(chǎn)生虛假信息,也就是「幻覺(jué)」。
如何降低信息熵?
數(shù)據(jù)重復(fù)現(xiàn)象
在模型訓(xùn)練過(guò)程中,讓模型多次接觸同一數(shù)據(jù)樣本是一種很常見的做法。
但如果重復(fù)次數(shù)過(guò)多,模型就會(huì)完整地記下這些數(shù)據(jù)樣本,并在輸出時(shí)簡(jiǎn)單地重復(fù)這些內(nèi)容。
舉個(gè)例子,我們先在莎士比亞作品集的部分內(nèi)容上對(duì)GPT-2進(jìn)行微調(diào)。然后用不同顏色來(lái)區(qū)分每個(gè)token的信息熵值,其中紅色表示較高的隨機(jī)性,綠色表示較高的確定性。
當(dāng)僅用數(shù)據(jù)樣本訓(xùn)練一次時(shí),模型對(duì)「First Citizen」(第一公民)這一提示的補(bǔ)全內(nèi)容雖然不夠連貫,但顯示出高熵值和創(chuàng)新性。
然而,在重復(fù)訓(xùn)練十次后,模型完全記住了《科利奧蘭納斯》劇本的開頭部分,并在接收到提示后機(jī)械地重復(fù)這些內(nèi)容。
在重復(fù)訓(xùn)練五次時(shí),模型表現(xiàn)出一種介于簡(jiǎn)單重復(fù)和創(chuàng)造性生成之間的狀態(tài)——輸出內(nèi)容中既有新創(chuàng)作的部分,也有記憶的內(nèi)容。
假設(shè)英語(yǔ)文本的真實(shí)熵值約為每字符0.95比特,那么這些輸出中就有大約
的內(nèi)容是來(lái)自訓(xùn)練數(shù)據(jù)集。
強(qiáng)化學(xué)習(xí)機(jī)制
ChatGPT產(chǎn)生低熵輸出的主要原因在于,它采用了強(qiáng)化學(xué)習(xí)進(jìn)行后訓(xùn)練——特別是基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)。
RLHF傾向于降低模型的熵值,因?yàn)槠渲饕繕?biāo)之一是降低「幻覺(jué)」的發(fā)生率,而這種「幻覺(jué)」通常源于采樣過(guò)程中的隨機(jī)性。
理論上,一個(gè)熵值為零的模型可以完全避免「幻覺(jué)」,但這樣的模型實(shí)際上就變成了訓(xùn)練數(shù)據(jù)集的簡(jiǎn)單檢索工具,而非真正的生成模型。
下面是幾個(gè)向ChatGPT提出查詢的示例,以及對(duì)應(yīng)輸出token的熵值:
根據(jù)
,可以估計(jì)這些輸出中約有73%到94%的內(nèi)容,對(duì)應(yīng)于訓(xùn)練數(shù)據(jù)集中的信息。
如果考慮RLHF的影響(導(dǎo)致
),這個(gè)估計(jì)值可能偏高,但熵值與訓(xùn)練數(shù)據(jù)使用量之間的相關(guān)性依然十分明顯。
例如,即使不了解ChatGPT的訓(xùn)練數(shù)據(jù)集,我們也會(huì)發(fā)現(xiàn)它講的笑話全是靠記憶,因?yàn)檫@些內(nèi)容幾乎都是以確定性方式生成的。
這種分析方法雖然比較粗略,但它揭示了訓(xùn)練數(shù)據(jù)集中的版權(quán)內(nèi)容如何影響模型輸出。
但更重要的是,這種影響十分深遠(yuǎn)。即使是對(duì)因素(3)做出更寬松的解釋,也難以支持「合理使用」的主張。
最終,Suchir Balaji得出結(jié)論:從這4個(gè)因素來(lái)看,它們幾乎都不支持「ChatGPT在合理使用訓(xùn)練數(shù)據(jù)」。
10月23日,Balaji發(fā)出這篇博客。
一個(gè)月后,他死于自己的公寓。
參考資料:
https://www.mercurynews.com/2024/12/13/openai-whistleblower-found-dead-in-san-francisco-apartment/?noamp=mobile
https://suchir.net/fair_use.html
本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn),不代表創(chuàng)業(yè)邦立場(chǎng),轉(zhuǎn)載請(qǐng)聯(lián)系原作者。如有任何疑問(wèn),請(qǐng)聯(lián)系editor@cyzone.cn。