這款名為Nightshade的工具會破壞訓練數(shù)據(jù),可能對圖像生成AI模型造成嚴重損害。這一新工具讓藝術家在上傳作品到網絡前對其像素進行不可見的改動,以致這些作品一旦被納入AI訓練集,就可能導致生成的模型以混亂且不可預測的方式崩潰。Nightshade旨在作為藝術家對抗未經創(chuàng)作者許可即使用其作品訓練模型的AI公司的一種方式。使用這種工具“投毒”訓練數(shù)據(jù)可能會損害如DALL-E、Midjourney和Stable Diffusion等圖像生成AI模型的未來迭代,使部分輸出變得無用——例如狗變成貓,汽車變成牛等。
OpenAI、Meta、Google和Stability AI等AI公司面臨著眾多藝術家提起的訴訟,他們聲稱自己的受版權保護的材料和個人信息被未經同意或補償?shù)厣米怨稳?。芝加哥大學的教授Ben Zhao領導了創(chuàng)造Nightshade的團隊,他表示希望這能幫助將權力平衡從AI公司轉回藝術家,創(chuàng)建一個強大的威懾力,防止對藝術家版權和知識產權的不尊重。Meta、Google、Stability AI和OpenAI未對MIT科技評論關于他們可能如何回應的請求發(fā)表評論。
Ben Zhao的團隊還開發(fā)了名為Glaze的工具,允許藝術家“掩蓋”他們自己的個人風格,以防止被AI公司刮取。它的工作方式與Nightshade類似:通過以人眼難以察覺的方式改變圖像像素,操縱機器學習模型將圖像解釋為與實際顯示不同的內容。該團隊計劃將Nightshade整合進Glaze,藝術家可以選擇是否使用這個數(shù)據(jù)投毒工具。團隊也打算將Nightshade開源,這將允許其他人對其進行修改并制作自己的版本。Ben Zhao表示,使用它的人數(shù)越多,其版本越多,工具就越強大。大型AI模型的數(shù)據(jù)集可能包含數(shù)十億圖像,因此被刮取到模型中的投毒圖像越多,這種技術造成的破壞就越大。
有針對性的攻擊 Nightshade利用了生成式AI模型的一個安全漏洞,即它們是在大量數(shù)據(jù)上訓練的——在這種情況下,是從互聯(lián)網吸取的圖像。Nightshade攪亂了這些圖像。
那些希望在線上傳作品但不希望其圖像被AI公司刮取的藝術家可以將作品上傳至Glaze,并選擇以與他們不同的藝術風格進行掩蓋。然后,他們還可以選擇使用Nightshade。一旦AI開發(fā)者刮取互聯(lián)網以獲取更多數(shù)據(jù)以調整現(xiàn)有AI模型或構建新模型,這些投毒樣本就會進入模型的數(shù)據(jù)集并導致其發(fā)生故障。投毒數(shù)據(jù)樣本可以操縱模型學習,例如,將帽子的圖像解釋為蛋糕,將手提包的圖像解釋為烤面包機。投毒數(shù)據(jù)很難清除,因為這需要科技公司費力地找出并刪除每一個損壞的樣本。
研究人員在Stable Diffusion的最新模型上測試了這種攻擊,并在他們自己從頭訓練的AI模型上進行了測試。當他們向Stable Diffusion提供了僅50張投毒的狗圖像,然后提示它自己創(chuàng)建狗的圖像時,輸出開始顯得奇怪——有太多肢體和卡通臉的生物。使用300個投毒樣本,攻擊者可以操縱Stable Diffusion生成的狗圖像看起來像貓。生成式AI模型擅長在詞語之間建立聯(lián)系,這有助于毒素傳播。Nightshade不僅感染了“狗”這個詞,還感染了所有類似的概念,如“小狗”、“哈士奇”和“狼”。毒藥攻擊也適用于與之間接相關的圖像。例如,如果該模型刮取了用于提示“幻想藝術”的投毒圖像,“龍”和“《魔戒》中的城堡”等提示同樣會被操縱為其他東西。
Ben Zhao承認,人們可能會濫用數(shù)據(jù)投毒技術進行惡意用途。然而,他說攻擊者需要成千上萬的投毒樣本才能對更大、更強大的模型造成實質性損害,因為它們是在數(shù)十億數(shù)據(jù)樣本上訓練的。
“我們還不知道對這些攻擊的強大防御。我們還沒有在野外看到現(xiàn)代[機器學習]模型的投毒攻擊,但這可能只是時間問題,”康奈爾大學的教授Vitaly Shmatikov說,他研究AI模型安全但沒有參與這項研究?!艾F(xiàn)在是研究防御的時候了,”Shmatikov補充道。
滑鐵盧大學的助理教授Gautam Kamath研究AI模型中的數(shù)據(jù)隱私和魯棒性,他沒有參與這項研究,但表示這項工作是“非常棒的”。Kamath表示,這項研究表明,這些新模型的漏洞“并不會神奇地消失,事實上只會變得更加嚴重。”他說:“這在這些模型變得更加強大,人們對它們的信任更高的情況下尤其如此,因為隨著時間的推移,賭注只會越來越高?!?/p>
強大的威懾力
哥倫比亞大學的計算機科學教授Junfeng Yang研究過深度學習系統(tǒng)的安全性,他沒有參與這項工作,但表示如果Nightshade能讓AI公司更尊重藝術家的權利——例如,更愿意支付版稅,那么它可能會產生巨大影響。
開發(fā)了生成式文本到圖像模型的AI公司,如Stability AI和OpenAI,已提出讓藝術家選擇退出,不將他們的圖像用于訓練模型的未來版本。但藝術家表示這還不夠。使用過Glaze的插畫家和藝術家Eva Toorenent說,退出政策要求藝術家跳過許多環(huán)節(jié),但仍然讓科技公司擁有所有權力。
Toorenent希望Nightshade能改變現(xiàn)狀。她說:“這會讓AI公司三思而后行,因為他們有可能因為未經我們同意使用我們的作品而破壞整個模型?!?/p>
另一位藝術家Autumn Beverly表示,像Nightshade和Glaze這樣的工具讓她重新獲得了在網上發(fā)布作品的信心。此前,在發(fā)現(xiàn)自己的作品未經同意就被刮取到了流行的LAION圖像數(shù)據(jù)庫后,她將其從互聯(lián)網上撤下。她說:“我真的很感激我們有這樣一個工具,能幫助藝術家重新掌控自己作品的權力?!?/p>