五月天成人小说,中文字幕亚洲欧美专区,久久妇女,亚洲伊人久久大香线蕉综合,日日碰狠狠添天天爽超碰97

普通人如何逃離DeepSeek幻覺(jué)陷阱

關(guān)注
DeepSeek R1是目前中國(guó)應(yīng)用范圍最廣泛的大模型之一。正因?yàn)樗銐蛑悄?,很容易被充分信任,在“掉鏈子”的時(shí)候也不會(huì)被察覺(jué),反而有可能成為引發(fā)更大范圍的“輿論幻覺(jué)”。

編者按:本文來(lái)自微信公眾號(hào) 20社(ID:quancaijing_20she),作者: 賈陽(yáng) 羅立璇,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

DeepSeek橫空出世,我們和人工智能的關(guān)系也隨之進(jìn)入新時(shí)代。但對(duì)于許多人來(lái)說(shuō),與AI的蜜月期還沒(méi)有結(jié)束,幻覺(jué)問(wèn)題就不合時(shí)宜地來(lái)預(yù)警。

近期一條“80后死亡率突破5.2%”的假新聞廣為流傳,據(jù)上海網(wǎng)絡(luò)辟謠介紹,最初的信源很可能是來(lái)自AI對(duì)話(huà)。

這種甚至一眼假的數(shù)據(jù)是怎么來(lái)的呢?我最近也在嘗試用AI對(duì)話(huà)代替搜索,發(fā)現(xiàn)確實(shí)會(huì)給工作埋下一些“地雷”。

例如前幾天我們寫(xiě)了京東外賣(mài)的稿件,嘗試用DeepSeek來(lái)搜集資料,“山姆每年為京東即時(shí)零售帶來(lái)多少訂單”的問(wèn)題,DeepSeek語(yǔ)氣肯定地給出一個(gè)數(shù)據(jù),并稱(chēng)京東今年將和山姆展開(kāi)新合作。

我沒(méi)有查到這個(gè)數(shù)據(jù)的來(lái)源,而且我更震驚的是關(guān)于合作的預(yù)測(cè),“山姆和京東不是去年分手了嗎”。

這就是DeepSeek的“幻覺(jué)”?;糜X(jué),是大模型的“基因”問(wèn)題,因?yàn)樗举|(zhì)上是根據(jù)每個(gè)詞出現(xiàn)的概率來(lái)選擇回答,所以很容易編出一篇看起來(lái)很流暢但完全不符合事實(shí)的回答。

所有的大模型或多或少,都有這個(gè)問(wèn)題。

但是,DeepSeek-R1的幻覺(jué)在領(lǐng)先的模型中尤為嚴(yán)重,在Vectara HHEM人工智能幻覺(jué)測(cè)試中達(dá)到了14.3%,是DeepSeek-V3的近4倍,也遠(yuǎn)超行業(yè)平均水平。

圖片

DeepSeek-R1的幻覺(jué)率高于同行(圖源自Semafor)

同時(shí),DeepSeek R1是目前中國(guó)應(yīng)用范圍最廣泛的大模型之一。正因?yàn)樗銐蛑悄?,很容易被充分信任,在“掉鏈子”的時(shí)候也不會(huì)被察覺(jué),反而有可能成為引發(fā)更大范圍的“輿論幻覺(jué)”。

01 DeepSeek怎么背刺我

球球今年讀大四,最近都在一家實(shí)驗(yàn)室實(shí)習(xí)。用Kimi、豆包等AI助手來(lái)撰寫(xiě)資料、找文獻(xiàn),他已經(jīng)駕輕就熟,在DeepSeek上線(xiàn)以后,更是感到如虎添翼。

最近剛開(kāi)學(xué),他就開(kāi)始忙著寫(xiě)論文。不過(guò),他這學(xué)期已經(jīng)不敢直接使用AI生成的內(nèi)容了。

網(wǎng)上最近流傳的一個(gè)貼子,DeepSeek生成的一個(gè)綜述中,參考文獻(xiàn)全是自己編的,“秉持著嚴(yán)謹(jǐn)?shù)膽B(tài)度,我去搜了這些參考文獻(xiàn),竟然!!竟然沒(méi)有一篇是真的!! ”

一位大模型業(yè)內(nèi)人士表示,這是一個(gè)很有意思的案例,“見(jiàn)過(guò)胡編事實(shí)的,沒(méi)看到編造論文引用的?!?/p>

類(lèi)似胡編的情況還有很多,比如有網(wǎng)友問(wèn)DeepSeek上海有幾家麻六記,地址都在哪里?結(jié)果DeepSeek給了他四個(gè)地址,且四個(gè)地址都是錯(cuò)誤的。

圖片

最搞笑的,是一位玩具博主,讓DeepSeek幫她查國(guó)內(nèi)兒童玩具理論的文獻(xiàn)綜述,其中引用了一本名為《玩具與兒童發(fā)展》的書(shū)。

“我咋沒(méi)見(jiàn)過(guò)呢?就讓它詳細(xì)介紹一下”,結(jié)果,她就在思維鏈里發(fā)現(xiàn)DeepSeek說(shuō),這本書(shū)是虛構(gòu)的,而且“要避免指出這本書(shū)是虛構(gòu)的,以免讓用戶(hù)感到困惑”。

音樂(lè)自媒體“亂彈山”進(jìn)一步發(fā)現(xiàn),DeepSeek特別擅長(zhǎng)使用陌生信息和專(zhuān)業(yè)領(lǐng)域的詞匯來(lái)胡編亂造。

他發(fā)現(xiàn)一個(gè)小紅書(shū)筆記,名叫《我聽(tīng)了這么多年五月天,還不如DeepSeek》,讓DeepSeek來(lái)提供五月天歌曲里面的彩蛋。“其實(shí)里面全是扯淡”。

比如里面提到《倉(cāng)頡》前奏中“需要你 需要你 需要你”,倒放會(huì)變成“宇宙爆炸的瞬間 我看見(jiàn)了你的臉”。大部分人試一試就會(huì)知道,這三個(gè)音節(jié)怎么來(lái)回折騰,都成不了這句話(huà)。但依然不妨礙下面有很多人都說(shuō),被感動(dòng)到了!

圖片

另外,他還讓DeepSeek深度解析韓國(guó)音樂(lè)人Woodz的風(fēng)格。DeepSeek解析出的“雙聲道交替”“呼吸聲放大”“元音拉伸”等巧思,都是對(duì)應(yīng)歌曲中沒(méi)有的,很像我們剛學(xué)會(huì)了一些專(zhuān)業(yè)名詞就張冠李戴胡亂賣(mài)弄的樣子。

但值得指出的是,當(dāng)這些專(zhuān)業(yè)詞匯足夠多,這些專(zhuān)業(yè)足夠陌生的時(shí)候,普通人根本無(wú)法分辨這些敘述的真實(shí)性。

就像前面提到的央視新聞報(bào)道的“80后的死亡率已經(jīng)達(dá)到5.2%”的謠言,中國(guó)人民大學(xué)人口與健康學(xué)院教授李婷梳理發(fā)現(xiàn),很可能就是AI大模型導(dǎo)致的錯(cuò)誤,但普通人對(duì)這些數(shù)據(jù)并沒(méi)有概念,就很容易相信。

這幾天,已經(jīng)有好幾篇被認(rèn)為由AI撰寫(xiě)的謠言騙倒了不少人:梁文峰在知乎上對(duì)于DeepSeepk的首次回應(yīng),《哪吒2》員工996是因?yàn)楣驹诔啥挤址浚娞輭嬄湓贈(zèng)_頂?shù)氖鹿试颉侣務(wù)鎸?shí)和虛構(gòu)段落被很好地捏合到一起,常人很難分辨。

而且,就算DeepSeek沒(méi)掉鏈子,很多時(shí)候普通人連使用它的方式都不正確。AI訓(xùn)練的獎(jiǎng)懲方式,簡(jiǎn)單來(lái)說(shuō),就是它猜你最想要的是什么回答,而不是最正確的是什么回答。

丁香園前兩天寫(xiě)過(guò),已經(jīng)有很多人拿著DeepSeek的診斷,來(lái)向醫(yī)生咨詢(xún)。一位發(fā)熱兒童的家長(zhǎng),堅(jiān)信醫(yī)生開(kāi)的檢查沒(méi)有必要,是過(guò)度治療;醫(yī)生不開(kāi)抗甲流的抗病毒藥物,就是拖延治療。醫(yī)生很疑惑,“你們?cè)趺茨艽_定是甲流呢?發(fā)熱的原因有很多?!奔议L(zhǎng)說(shuō),他們問(wèn)了DeepSeek。

醫(yī)生打開(kāi)手機(jī)發(fā)現(xiàn),家長(zhǎng)的提問(wèn)是,“得了甲流要做什么治療?”這個(gè)問(wèn)題首先就預(yù)設(shè)了孩子已經(jīng)得了甲流,大模型自然也只會(huì)作出相應(yīng)的回答,并不會(huì)綜合實(shí)際條件來(lái)進(jìn)行決策?;糜X(jué)能借此危害現(xiàn)實(shí)。

02幻覺(jué),是bless也是curse

幻覺(jué)本身其實(shí)并不是“劇毒”,只能算是大模型的“基因”。在研究人工智能的早期,幻覺(jué)被認(rèn)為是好事,代表AI有了產(chǎn)生智能的可能性。這也是AI業(yè)界研究非常久遠(yuǎn)的話(huà)題。

但在AI有了判斷和生成的能力后,幻覺(jué)被用來(lái)形容偏差和錯(cuò)誤。而在LLM領(lǐng)域,幻覺(jué)更是每個(gè)模型與生俱來(lái)的缺陷。

用最簡(jiǎn)單的邏輯來(lái)描述,LLM訓(xùn)練過(guò)程中,是將海量數(shù)據(jù)高度壓縮抽象,輸入的是內(nèi)容之間關(guān)系的數(shù)學(xué)表征,而不是內(nèi)容本身。就像柏拉圖的洞穴寓言,囚徒看到的全是外部世界的投影,而不是真實(shí)世界本身。

LLM在輸出時(shí),是無(wú)法將壓縮后的規(guī)律和知識(shí)完全復(fù)原的,因此會(huì)去填補(bǔ)空白,于是產(chǎn)生幻覺(jué)。

不同研究還依據(jù)來(lái)源或領(lǐng)域不同,將幻覺(jué)分為“認(rèn)知不確定性和偶然不確定性”,或“數(shù)據(jù)源、訓(xùn)練過(guò)程和推理階段導(dǎo)致的幻覺(jué)”。

但OpenAI等團(tuán)隊(duì)的研究者們發(fā)現(xiàn),推理增強(qiáng)會(huì)明顯減少幻覺(jué)。

此前普通用戶(hù)使用 ChatGPT(GPT3)時(shí)就發(fā)現(xiàn),在模型本身不變的情況下,只需要在提示詞中加上“讓我們一步步思考(let’s think step by step)”,就能生成chain-of-thought(CoT),提高推理的準(zhǔn)確性,減少幻覺(jué)。OpenAI用o系列的模型進(jìn)一步證明了這一點(diǎn)。

但是DeepSeek-R1的表現(xiàn),跟這一發(fā)現(xiàn)恰好相反。

R1在數(shù)學(xué)相關(guān)的推理上極強(qiáng),而在涉及到創(chuàng)意創(chuàng)造的領(lǐng)域非常容易胡編亂造。非常極端。

一個(gè)案例能很好地說(shuō)明DeepSeek的能力。相信有不少人看到過(guò),一個(gè)博主用“strawberry里有幾個(gè)r”這個(gè)經(jīng)典問(wèn)題去測(cè)試R1。

絕大多數(shù)大模型會(huì)回答“2個(gè)”。這是模型之間互相“學(xué)習(xí)”傳遞的謬誤,也說(shuō)明了LLM的“黑盒子”境地,它看不到外部世界,甚至看不到單詞中的最簡(jiǎn)單的字母。

而DeepSeek在經(jīng)歷了來(lái)回非常多輪長(zhǎng)達(dá)100多秒的深度思考后,終于選擇堅(jiān)信自己推理出來(lái)的數(shù)字“3個(gè)”,戰(zhàn)勝了它習(xí)得的思想鋼印“2個(gè)”。

圖片來(lái)自 @斯庫(kù)里「上下滑動(dòng)查看全部」

而這種強(qiáng)大的推理能力(CoT深度思考能力),是雙刃劍。在與數(shù)學(xué)、科學(xué)真理無(wú)關(guān)的任務(wù)中,它有時(shí)會(huì)生成出一套自圓其說(shuō)的“真理”,且捏造出配合自己理論的論據(jù)。

據(jù)騰訊科技,出門(mén)問(wèn)問(wèn)大模型團(tuán)隊(duì)前工程副總裁李維認(rèn)為,R1比V3幻覺(jué)高4倍,有模型層的原因:

V3: query --〉answer

R1: query+CoT --〉answer

“對(duì)于V3已經(jīng)能很好完成的任務(wù),比如摘要或翻譯,任何思維鏈的長(zhǎng)篇引導(dǎo)都可能帶來(lái)偏離或發(fā)揮的傾向,這就為幻覺(jué)提供了溫床。”

一個(gè)合理的推測(cè)是,R1在強(qiáng)化學(xué)習(xí)階段去掉了人工干預(yù),減少了大模型為了討好人類(lèi)偏好而鉆空子,但單純的準(zhǔn)確性信號(hào)反饋,或許讓R1在文科類(lèi)的任務(wù)中把“創(chuàng)造性”當(dāng)成了更高優(yōu)先級(jí)。而后續(xù)的Alignment并未對(duì)此進(jìn)行有效彌補(bǔ)。

OpenAI的前科學(xué)家翁荔在2024年曾撰寫(xiě)過(guò)一篇重要blog(Extrinsic Hallucinations in LLMs),她在OpenAI任職后期專(zhuān)注于大模型安全問(wèn)題。

她提出,如果將預(yù)訓(xùn)練數(shù)據(jù)集看作是世界知識(shí)的象征,那么本質(zhì)上是試圖確保模型輸出是事實(shí)性的,并可以通過(guò)外部世界知識(shí)進(jìn)行驗(yàn)證?!爱?dāng)模型不了解某個(gè)事實(shí)時(shí),它應(yīng)該明確表示不知道?!?/p>

如今一些大模型如今在觸碰到知識(shí)邊界時(shí),會(huì)給出“不知道”或者“不確定”的回答。

R2或許會(huì)在減少幻覺(jué)方面有顯著成效。而眼下R1有龐大的應(yīng)用范圍,其模型的幻覺(jué)程度,需要被大家意識(shí)到,從而減少不必要的傷害和損失。

03來(lái),讓我們打敗幻覺(jué)

那么,在現(xiàn)實(shí)使用的過(guò)程中,我們普通人對(duì)大模型的幻覺(jué)就束手無(wú)策了嗎?

互聯(lián)網(wǎng)資深產(chǎn)品經(jīng)理Sam,最近一直在用大模型做應(yīng)用,他對(duì)ChatGPT和DeepSeek都有豐富的使用體驗(yàn)。

對(duì)于Sam這樣的開(kāi)發(fā)者來(lái)說(shuō),最靠譜的反幻覺(jué)手段有兩種。

第一個(gè)就是在調(diào)用API時(shí),根據(jù)需求設(shè)置一些參數(shù),如temperature和top_p等,以控制幻覺(jué)問(wèn)題。有些大模型,還支持設(shè)置信息標(biāo),如對(duì)于模糊信息,需標(biāo)注“此處為推測(cè)內(nèi)容”等。

第二種方法更專(zhuān)業(yè)。大模型的答案是否靠譜,很大程序依賴(lài)語(yǔ)料質(zhì)量,同樣一個(gè)大模型語(yǔ)料質(zhì)量也可能不一樣,比如說(shuō),現(xiàn)在同樣是滿(mǎn)血版的DeepSeek,百度版和騰訊版的語(yǔ)料,就來(lái)自于各自的內(nèi)容生態(tài)。此時(shí)就需要開(kāi)發(fā)者選擇自己信任的生態(tài)。

對(duì)于專(zhuān)業(yè)的企業(yè)用戶(hù),就可以從數(shù)據(jù)側(cè)下手規(guī)避幻覺(jué)。在這方面,現(xiàn)在RAG技術(shù)已經(jīng)在應(yīng)用開(kāi)發(fā)中普遍采用。

RAG,也就是檢索增強(qiáng)生成,是先從一個(gè)數(shù)據(jù)集中檢索信息,然后指導(dǎo)內(nèi)容生成。當(dāng)然,這個(gè)集合是要根據(jù)企業(yè)自己的需求,搭建的事實(shí)性、權(quán)威性數(shù)據(jù)庫(kù)。

Sam認(rèn)為,這種方法雖好,但不適合一般的個(gè)人用戶(hù),因?yàn)樯婕暗酱髽颖镜臄?shù)據(jù)標(biāo)注,成本很高。

ChatGPT為個(gè)人用戶(hù)也設(shè)置了一個(gè)調(diào)整方案來(lái)減少幻覺(jué)。在ChatGPT開(kāi)發(fā)者中心的playground中,有一個(gè)調(diào)節(jié)參數(shù)功能,專(zhuān)門(mén)用來(lái)給普通用戶(hù)使用。但目前DeepSeek沒(méi)有提供這個(gè)功能。

圖片

ChatGPT在playground提供了參數(shù)調(diào)整功能

實(shí)際上,就算有這個(gè)功能,一般用戶(hù)可能也會(huì)嫌麻煩。Sam說(shuō),他發(fā)現(xiàn)ChatGPT的這個(gè)功能,一般的個(gè)人用戶(hù)就很少會(huì)使用。

那么個(gè)人用戶(hù)怎么辦呢?目前來(lái)看,對(duì)于大家反應(yīng)較多的DeepSeek幻覺(jué)問(wèn)題,最靠譜的方法也有兩個(gè),第一個(gè)是多方查詢(xún),交叉驗(yàn)證。

例如,我的一位養(yǎng)貓的朋友說(shuō),使用DeepSeek之前,她一般是在小紅書(shū)上學(xué)習(xí)養(yǎng)貓知識(shí),DeepSeek雖然方便,但是她現(xiàn)在仍然會(huì)用小紅書(shū),用兩個(gè)結(jié)果去交叉驗(yàn)證,經(jīng)常會(huì)發(fā)現(xiàn)DeepSeek的結(jié)果被此前一些廣泛流行的錯(cuò)誤觀念污染。

如果是想用DeepSeek做一些專(zhuān)業(yè)數(shù)據(jù)搜集,這個(gè)方法可能就沒(méi)那么好用。此外,還有一個(gè)更簡(jiǎn)單的方法。

具體來(lái)說(shuō),就是你在對(duì)話(huà)中,如果發(fā)現(xiàn)DeepSeek有自己腦補(bǔ)的內(nèi)容,就可以直接告訴它,“說(shuō)你知道的就好,不用胡說(shuō)”,DeepSeek馬上就會(huì)修正自己的生成內(nèi)容。

chatgpt給出的建議「上下滑動(dòng)查看全部」

Sam說(shuō),對(duì)一般用戶(hù)來(lái)說(shuō),這個(gè)方法效果不錯(cuò)。

實(shí)際上,正如我們前文所說(shuō),DeepSeek幻覺(jué)更嚴(yán)重,一部分原因是因它更智能。反過(guò)來(lái)說(shuō),我們要打敗幻覺(jué),也要利用它這個(gè)特點(diǎn)。

本文為專(zhuān)欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn),不代表創(chuàng)業(yè)邦立場(chǎng),轉(zhuǎn)載請(qǐng)聯(lián)系原作者。如有任何疑問(wèn),請(qǐng)聯(lián)系editor@cyzone.cn。

反饋
聯(lián)系我們
推薦訂閱