五月天成人小说,中文字幕亚洲欧美专区,久久妇女,亚洲伊人久久大香线蕉综合,日日碰狠狠添天天爽超碰97

普通人如何逃離DeepSeek幻覺陷阱

關(guān)注
DeepSeek R1是目前中國應(yīng)用范圍最廣泛的大模型之一。正因為它足夠智能,很容易被充分信任,在“掉鏈子”的時候也不會被察覺,反而有可能成為引發(fā)更大范圍的“輿論幻覺”。

編者按:本文來自微信公眾號 20社(ID:quancaijing_20she),作者: 賈陽 羅立璇,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

DeepSeek橫空出世,我們和人工智能的關(guān)系也隨之進(jìn)入新時代。但對于許多人來說,與AI的蜜月期還沒有結(jié)束,幻覺問題就不合時宜地來預(yù)警。

近期一條“80后死亡率突破5.2%”的假新聞廣為流傳,據(jù)上海網(wǎng)絡(luò)辟謠介紹,最初的信源很可能是來自AI對話。

這種甚至一眼假的數(shù)據(jù)是怎么來的呢?我最近也在嘗試用AI對話代替搜索,發(fā)現(xiàn)確實會給工作埋下一些“地雷”。

例如前幾天我們寫了京東外賣的稿件,嘗試用DeepSeek來搜集資料,“山姆每年為京東即時零售帶來多少訂單”的問題,DeepSeek語氣肯定地給出一個數(shù)據(jù),并稱京東今年將和山姆展開新合作。

我沒有查到這個數(shù)據(jù)的來源,而且我更震驚的是關(guān)于合作的預(yù)測,“山姆和京東不是去年分手了嗎”。

這就是DeepSeek的“幻覺”?;糜X,是大模型的“基因”問題,因為它本質(zhì)上是根據(jù)每個詞出現(xiàn)的概率來選擇回答,所以很容易編出一篇看起來很流暢但完全不符合事實的回答。

所有的大模型或多或少,都有這個問題。

但是,DeepSeek-R1的幻覺在領(lǐng)先的模型中尤為嚴(yán)重,在Vectara HHEM人工智能幻覺測試中達(dá)到了14.3%,是DeepSeek-V3的近4倍,也遠(yuǎn)超行業(yè)平均水平。

圖片

DeepSeek-R1的幻覺率高于同行(圖源自Semafor)

同時,DeepSeek R1是目前中國應(yīng)用范圍最廣泛的大模型之一。正因為它足夠智能,很容易被充分信任,在“掉鏈子”的時候也不會被察覺,反而有可能成為引發(fā)更大范圍的“輿論幻覺”。

01 DeepSeek怎么背刺我

球球今年讀大四,最近都在一家實驗室實習(xí)。用Kimi、豆包等AI助手來撰寫資料、找文獻(xiàn),他已經(jīng)駕輕就熟,在DeepSeek上線以后,更是感到如虎添翼。

最近剛開學(xué),他就開始忙著寫論文。不過,他這學(xué)期已經(jīng)不敢直接使用AI生成的內(nèi)容了。

網(wǎng)上最近流傳的一個貼子,DeepSeek生成的一個綜述中,參考文獻(xiàn)全是自己編的,“秉持著嚴(yán)謹(jǐn)?shù)膽B(tài)度,我去搜了這些參考文獻(xiàn),竟然!!竟然沒有一篇是真的!! ”

一位大模型業(yè)內(nèi)人士表示,這是一個很有意思的案例,“見過胡編事實的,沒看到編造論文引用的?!?/p>

類似胡編的情況還有很多,比如有網(wǎng)友問DeepSeek上海有幾家麻六記,地址都在哪里?結(jié)果DeepSeek給了他四個地址,且四個地址都是錯誤的。

圖片

最搞笑的,是一位玩具博主,讓DeepSeek幫她查國內(nèi)兒童玩具理論的文獻(xiàn)綜述,其中引用了一本名為《玩具與兒童發(fā)展》的書。

“我咋沒見過呢?就讓它詳細(xì)介紹一下”,結(jié)果,她就在思維鏈里發(fā)現(xiàn)DeepSeek說,這本書是虛構(gòu)的,而且“要避免指出這本書是虛構(gòu)的,以免讓用戶感到困惑”。

音樂自媒體“亂彈山”進(jìn)一步發(fā)現(xiàn),DeepSeek特別擅長使用陌生信息和專業(yè)領(lǐng)域的詞匯來胡編亂造。

他發(fā)現(xiàn)一個小紅書筆記,名叫《我聽了這么多年五月天,還不如DeepSeek》,讓DeepSeek來提供五月天歌曲里面的彩蛋?!捌鋵嵗锩嫒浅兜?。

比如里面提到《倉頡》前奏中“需要你 需要你 需要你”,倒放會變成“宇宙爆炸的瞬間 我看見了你的臉”。大部分人試一試就會知道,這三個音節(jié)怎么來回折騰,都成不了這句話。但依然不妨礙下面有很多人都說,被感動到了!

圖片

另外,他還讓DeepSeek深度解析韓國音樂人Woodz的風(fēng)格。DeepSeek解析出的“雙聲道交替”“呼吸聲放大”“元音拉伸”等巧思,都是對應(yīng)歌曲中沒有的,很像我們剛學(xué)會了一些專業(yè)名詞就張冠李戴胡亂賣弄的樣子。

但值得指出的是,當(dāng)這些專業(yè)詞匯足夠多,這些專業(yè)足夠陌生的時候,普通人根本無法分辨這些敘述的真實性。

就像前面提到的央視新聞報道的“80后的死亡率已經(jīng)達(dá)到5.2%”的謠言,中國人民大學(xué)人口與健康學(xué)院教授李婷梳理發(fā)現(xiàn),很可能就是AI大模型導(dǎo)致的錯誤,但普通人對這些數(shù)據(jù)并沒有概念,就很容易相信。

這幾天,已經(jīng)有好幾篇被認(rèn)為由AI撰寫的謠言騙倒了不少人:梁文峰在知乎上對于DeepSeepk的首次回應(yīng),《哪吒2》員工996是因為公司在成都分房,電梯墜落再沖頂?shù)氖鹿试颉侣務(wù)鎸嵑吞摌?gòu)段落被很好地捏合到一起,常人很難分辨。

而且,就算DeepSeek沒掉鏈子,很多時候普通人連使用它的方式都不正確。AI訓(xùn)練的獎懲方式,簡單來說,就是它猜你最想要的是什么回答,而不是最正確的是什么回答。

丁香園前兩天寫過,已經(jīng)有很多人拿著DeepSeek的診斷,來向醫(yī)生咨詢。一位發(fā)熱兒童的家長,堅信醫(yī)生開的檢查沒有必要,是過度治療;醫(yī)生不開抗甲流的抗病毒藥物,就是拖延治療。醫(yī)生很疑惑,“你們怎么能確定是甲流呢?發(fā)熱的原因有很多?!奔议L說,他們問了DeepSeek。

醫(yī)生打開手機(jī)發(fā)現(xiàn),家長的提問是,“得了甲流要做什么治療?”這個問題首先就預(yù)設(shè)了孩子已經(jīng)得了甲流,大模型自然也只會作出相應(yīng)的回答,并不會綜合實際條件來進(jìn)行決策?;糜X能借此危害現(xiàn)實。

02幻覺,是bless也是curse

幻覺本身其實并不是“劇毒”,只能算是大模型的“基因”。在研究人工智能的早期,幻覺被認(rèn)為是好事,代表AI有了產(chǎn)生智能的可能性。這也是AI業(yè)界研究非常久遠(yuǎn)的話題。

但在AI有了判斷和生成的能力后,幻覺被用來形容偏差和錯誤。而在LLM領(lǐng)域,幻覺更是每個模型與生俱來的缺陷。

用最簡單的邏輯來描述,LLM訓(xùn)練過程中,是將海量數(shù)據(jù)高度壓縮抽象,輸入的是內(nèi)容之間關(guān)系的數(shù)學(xué)表征,而不是內(nèi)容本身。就像柏拉圖的洞穴寓言,囚徒看到的全是外部世界的投影,而不是真實世界本身。

LLM在輸出時,是無法將壓縮后的規(guī)律和知識完全復(fù)原的,因此會去填補空白,于是產(chǎn)生幻覺。

不同研究還依據(jù)來源或領(lǐng)域不同,將幻覺分為“認(rèn)知不確定性和偶然不確定性”,或“數(shù)據(jù)源、訓(xùn)練過程和推理階段導(dǎo)致的幻覺”。

但OpenAI等團(tuán)隊的研究者們發(fā)現(xiàn),推理增強(qiáng)會明顯減少幻覺。

此前普通用戶使用 ChatGPT(GPT3)時就發(fā)現(xiàn),在模型本身不變的情況下,只需要在提示詞中加上“讓我們一步步思考(let’s think step by step)”,就能生成chain-of-thought(CoT),提高推理的準(zhǔn)確性,減少幻覺。OpenAI用o系列的模型進(jìn)一步證明了這一點。

但是DeepSeek-R1的表現(xiàn),跟這一發(fā)現(xiàn)恰好相反。

R1在數(shù)學(xué)相關(guān)的推理上極強(qiáng),而在涉及到創(chuàng)意創(chuàng)造的領(lǐng)域非常容易胡編亂造。非常極端。

一個案例能很好地說明DeepSeek的能力。相信有不少人看到過,一個博主用“strawberry里有幾個r”這個經(jīng)典問題去測試R1。

絕大多數(shù)大模型會回答“2個”。這是模型之間互相“學(xué)習(xí)”傳遞的謬誤,也說明了LLM的“黑盒子”境地,它看不到外部世界,甚至看不到單詞中的最簡單的字母。

而DeepSeek在經(jīng)歷了來回非常多輪長達(dá)100多秒的深度思考后,終于選擇堅信自己推理出來的數(shù)字“3個”,戰(zhàn)勝了它習(xí)得的思想鋼印“2個”。

圖片來自 @斯庫里「上下滑動查看全部」

而這種強(qiáng)大的推理能力(CoT深度思考能力),是雙刃劍。在與數(shù)學(xué)、科學(xué)真理無關(guān)的任務(wù)中,它有時會生成出一套自圓其說的“真理”,且捏造出配合自己理論的論據(jù)。

據(jù)騰訊科技,出門問問大模型團(tuán)隊前工程副總裁李維認(rèn)為,R1比V3幻覺高4倍,有模型層的原因:

V3: query --〉answer

R1: query+CoT --〉answer

“對于V3已經(jīng)能很好完成的任務(wù),比如摘要或翻譯,任何思維鏈的長篇引導(dǎo)都可能帶來偏離或發(fā)揮的傾向,這就為幻覺提供了溫床?!?/p>

一個合理的推測是,R1在強(qiáng)化學(xué)習(xí)階段去掉了人工干預(yù),減少了大模型為了討好人類偏好而鉆空子,但單純的準(zhǔn)確性信號反饋,或許讓R1在文科類的任務(wù)中把“創(chuàng)造性”當(dāng)成了更高優(yōu)先級。而后續(xù)的Alignment并未對此進(jìn)行有效彌補。

OpenAI的前科學(xué)家翁荔在2024年曾撰寫過一篇重要blog(Extrinsic Hallucinations in LLMs),她在OpenAI任職后期專注于大模型安全問題。

她提出,如果將預(yù)訓(xùn)練數(shù)據(jù)集看作是世界知識的象征,那么本質(zhì)上是試圖確保模型輸出是事實性的,并可以通過外部世界知識進(jìn)行驗證?!爱?dāng)模型不了解某個事實時,它應(yīng)該明確表示不知道?!?/p>

如今一些大模型如今在觸碰到知識邊界時,會給出“不知道”或者“不確定”的回答。

R2或許會在減少幻覺方面有顯著成效。而眼下R1有龐大的應(yīng)用范圍,其模型的幻覺程度,需要被大家意識到,從而減少不必要的傷害和損失。

03來,讓我們打敗幻覺

那么,在現(xiàn)實使用的過程中,我們普通人對大模型的幻覺就束手無策了嗎?

互聯(lián)網(wǎng)資深產(chǎn)品經(jīng)理Sam,最近一直在用大模型做應(yīng)用,他對ChatGPT和DeepSeek都有豐富的使用體驗。

對于Sam這樣的開發(fā)者來說,最靠譜的反幻覺手段有兩種。

第一個就是在調(diào)用API時,根據(jù)需求設(shè)置一些參數(shù),如temperature和top_p等,以控制幻覺問題。有些大模型,還支持設(shè)置信息標(biāo),如對于模糊信息,需標(biāo)注“此處為推測內(nèi)容”等。

第二種方法更專業(yè)。大模型的答案是否靠譜,很大程序依賴語料質(zhì)量,同樣一個大模型語料質(zhì)量也可能不一樣,比如說,現(xiàn)在同樣是滿血版的DeepSeek,百度版和騰訊版的語料,就來自于各自的內(nèi)容生態(tài)。此時就需要開發(fā)者選擇自己信任的生態(tài)。

對于專業(yè)的企業(yè)用戶,就可以從數(shù)據(jù)側(cè)下手規(guī)避幻覺。在這方面,現(xiàn)在RAG技術(shù)已經(jīng)在應(yīng)用開發(fā)中普遍采用。

RAG,也就是檢索增強(qiáng)生成,是先從一個數(shù)據(jù)集中檢索信息,然后指導(dǎo)內(nèi)容生成。當(dāng)然,這個集合是要根據(jù)企業(yè)自己的需求,搭建的事實性、權(quán)威性數(shù)據(jù)庫。

Sam認(rèn)為,這種方法雖好,但不適合一般的個人用戶,因為涉及到大樣本的數(shù)據(jù)標(biāo)注,成本很高。

ChatGPT為個人用戶也設(shè)置了一個調(diào)整方案來減少幻覺。在ChatGPT開發(fā)者中心的playground中,有一個調(diào)節(jié)參數(shù)功能,專門用來給普通用戶使用。但目前DeepSeek沒有提供這個功能。

圖片

ChatGPT在playground提供了參數(shù)調(diào)整功能

實際上,就算有這個功能,一般用戶可能也會嫌麻煩。Sam說,他發(fā)現(xiàn)ChatGPT的這個功能,一般的個人用戶就很少會使用。

那么個人用戶怎么辦呢?目前來看,對于大家反應(yīng)較多的DeepSeek幻覺問題,最靠譜的方法也有兩個,第一個是多方查詢,交叉驗證。

例如,我的一位養(yǎng)貓的朋友說,使用DeepSeek之前,她一般是在小紅書上學(xué)習(xí)養(yǎng)貓知識,DeepSeek雖然方便,但是她現(xiàn)在仍然會用小紅書,用兩個結(jié)果去交叉驗證,經(jīng)常會發(fā)現(xiàn)DeepSeek的結(jié)果被此前一些廣泛流行的錯誤觀念污染。

如果是想用DeepSeek做一些專業(yè)數(shù)據(jù)搜集,這個方法可能就沒那么好用。此外,還有一個更簡單的方法。

具體來說,就是你在對話中,如果發(fā)現(xiàn)DeepSeek有自己腦補的內(nèi)容,就可以直接告訴它,“說你知道的就好,不用胡說”,DeepSeek馬上就會修正自己的生成內(nèi)容。

chatgpt給出的建議「上下滑動查看全部」

Sam說,對一般用戶來說,這個方法效果不錯。

實際上,正如我們前文所說,DeepSeek幻覺更嚴(yán)重,一部分原因是因它更智能。反過來說,我們要打敗幻覺,也要利用它這個特點。

本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個人觀點,不代表創(chuàng)業(yè)邦立場,轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn。

反饋
聯(lián)系我們
推薦訂閱