五月天成人小说,中文字幕亚洲欧美专区,久久妇女,亚洲伊人久久大香线蕉综合,日日碰狠狠添天天爽超碰97

?DeepSeek 爆火背后,必須看清的3大趨勢

關注
一文讀懂,怎樣高效使用DeepSeek。

編者按:本文來自微信公眾號 “筆記俠”(ID:Notesman),作者:陳旸,創(chuàng)業(yè)邦經(jīng)授權轉載。

內容來源:量子教育,企業(yè)人才培養(yǎng)優(yōu)質內容及創(chuàng)新解決方案服務商。

分享嘉賓: 陳旸,阿里云MVP,清華大學計算機博士。

春節(jié)前夕,DeepSeek-R1模型公布開源,下載量迅速登上了免費榜榜首。隨后,引起了美國資本市場的大波動,算力巨頭英偉達出現(xiàn)了股價暴跌17%的罕見跌幅……

開源后的DeepSeek到底對資本、科技產(chǎn)生了何種影響?是什么讓其具有這么大的能量?我們如何擁抱DeepSeek帶來的新AI時代?繼DeepSeek之后,AI將有什么新的趨勢?

這篇文章,將由清華大學計算機博士、阿里云MVP(人工智能領域最有價值專家)陳旸為我們一一解讀上述問題。

一、DeepSeek的影響力

1.對手惶恐,資本青睞

2025年1月20日,DeepSeek-R1模型正式公布;1月26日在中國區(qū)、美國區(qū)蘋果App Store中的免費榜上同時沖到了第一名。

隨后,美國資本市場出現(xiàn)大幅波動,標準普爾500指數(shù)在10天內跌幅接近10%。英偉達股票在1月27日當天暴跌了17%,美股主要科技公司(英偉達、微軟、Meta、亞馬遜等)市值共計蒸發(fā)上萬億美元。

在DeepSeek-R1出現(xiàn)前,算力是大模型訓練的關鍵因素,美國限制中國使用英偉達的顯卡,因此大家普遍會認為美國在AI大模型的領先優(yōu)勢是“斷層式”的,這也是美國對華科技限制采取“小院高墻”戰(zhàn)略的底層邏輯。

DeepSeek用少量的顯卡訓練出了與其媲美的模型,相當于打破了美國對華在人工智能領域的戰(zhàn)略限制。

就連OpenAI的CEO山姆奧特曼也重新思考了OpenAI的開源戰(zhàn)略,迅速推出了o3-mini模型,在使用中開放了思考推理過程。

在這之前,OpenAI并不是完全開源的,我們只能使用o1模型,現(xiàn)在我們也可以使用其o3模型進行更深入的思考。

通過OpenAI o3 mini與DeepSeek R1的使用對比,可以發(fā)現(xiàn)DeepSeek-R1的思考時間更長,思考邏輯更完整,推理結果更好。

同時,DeepSeek會將推理過程完整地展現(xiàn)出來,而OpenAI以前不會展示思考的過程,而思考的過程其實非常有價值的。

今年1月,美國宣布“星際之門”計劃,軟銀向OpenAI投資400億美元,用于OpenAI對星際之門的承諾,投后估值達3000億美元;而具有對標OpenAI能力的DeepSeek,同樣受到國內近百家資本的青睞,對其表達了投資意向,可以預見DeepSeek的估值將會上到一個新的高度。

2.DeepSeek開源,行業(yè)爭相部署

在DeepSeek宣布開源R1之后,各個行業(yè)都開始集成或部署DeepSeek的相關模型。

國內的華為云、百度智能云、阿里云、騰訊云、京東云、火山引擎以及三大運營商等云平臺都相繼部署了DeepSeek的R1/V3等模型。

國外的亞馬遜、微軟、英偉達、AMD等平臺也快速地將DeepSeek R1/V3模型部署或集成到相關的產(chǎn)品和服務上。

在產(chǎn)業(yè)端,吉利、嵐圖、東風、廣汽、智己、長城、寶駿、零跑等車企也宣布與DeepSeek進行融合,未來智駕上也可以體驗到與DeepSeek的交互。

金融領域,國泰君安、國金證券、興業(yè)證券、廣發(fā)證券等證券機構進行了本地化部署和調試,應用于行業(yè)研究、市場研判、風險管理、信息檢索、文檔處理等多種場景。

當然,部署與開發(fā)完成還需一定的測試過程,但也體現(xiàn)出各個行業(yè)不甘落后的狀態(tài),也說明與先進的大模型融合使用將是大勢所趨。

二、DeepSeek撕破了算力面紗

1.DeepSeek的完全版與蒸餾版

DeepSeek完全版的尺寸是671B,由于采用創(chuàng)新的MOE架構,在推理過程中激活少部分參數(shù),因此推理速度更快,所需訓練資源更小。

DeepSeek蒸餾版有Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Uama-3.1-8B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.3-70B-Instruct等多個尺寸。它選了兩個開源模型進行訓練,國內是Qwen2.5,國外則選用了Llama,蒸餾模型更小更快,但能力相對弱一些。

對于性能要求不太高、GPU資源有限的企業(yè),蒸餾版是一個更優(yōu)選擇。因為完全版需要的顯存是496GB,而R1:1.5B只需要2G顯存、R1:7B也只需要8G顯存,最高的R1:70B蒸餾版也只需要128G顯存,大幅降低了私有化部署的資源要求。

2.蒸餾技術路線,讓DeepSeek R1性能大幅提升

在R1模型之前,DeepSeek推出V3通用模型,在推理速度上相較歷史模型有了大幅提升。一度在大模型主流榜單中,位于開源模型榜首,與世界最先進的閉源模型也不分伯仲。

而V3模型最大的特點是訓練成本極低,需要的顯卡數(shù)量和訓練時間較于OpenAI只是一個零頭。

2024年12月,V3模型正式推出,但當時并沒有太大波瀾。

而以V3模型為基礎,通過新的獎勵機制GRPO(group relative policy optimization),并使用規(guī)則類驗證機制自動對輸出進行打分,在一個多月時間內訓練出了DeepSeek-R1模型,性能堪比GPT-o1模型,使R1迅速火出了圈。而R1模型與V3模型相比,其性能也有了大幅提升。

R1模型遵循MIT License(一種非常寬松的開源許可協(xié)議,允許用戶自由地使用、修改、分發(fā)和商業(yè)化軟件或模型。),允許用戶通過蒸餾技術借助R1訓練其他模型。

相比之下,Meta Llama的License相對嚴格,雖然LLaMA3是開源的,但許可協(xié)議限制了商業(yè)用途和對模型的修改,比如新的模型如果使用LLaMA,需要名稱上帶有LLaMA標識。

DeepSeek-R1上線API,對用戶開放思維鏈輸出,因此一經(jīng)發(fā)布,多家企業(yè)就宣布融合DeepSeek-R1的各個版本,因為是完全開源的模型,在版權上就減少了不少風險。

在開源DeepSeek-R1-Zero和DeepSeek-R1兩個660B模型的同時,通過DeepSeek-R1的輸出,蒸餾了6個小模型,其中32B和70B模型在多項能力上實現(xiàn)了對標0penAlo1-mini的效果.

3.DeepSeek的創(chuàng)新策略及產(chǎn)生的效果

① 創(chuàng)新策略

第一,引入MLA(Multi-Head Latent Attention)。

在“All you need is attention”的背景下,傳統(tǒng)的多頭注意力(MHA,Multi-Head Attention)的鍵值(KV)緩存機制事實上對計算效率形成了較大阻礙。縮小KV緩存(KV Cache)大小,并提高性能,在之前的模型架構中并未得到很好的解決。

DeepSeek引入了MLA,一種通過低秩鍵值聯(lián)合壓縮的注意力機制,在顯著減小KV緩存的同時提高計算效率。低秩近似是快速矩陣計算的常用方法,在MLA之前很少用于大模型計算。

從大模型架構的演進情況來看,Prefill和KV Cache容量瓶頸的問題正一步步被新的模型架構攻克,巨大的KV Cache正逐漸成為歷史(實際上在2024年6月發(fā)布的DeepSeek-V2就已經(jīng)很好的降低了KV Cache的大小)。

第二,創(chuàng)新使用了DeepSeek-MoE架構策略。

V3使用了61個MoE(Mix of Expert混合專家)block,雖然總參數(shù)量很大,但每次訓練或推理時只激活了很少鏈路,訓練成本大大降低,推理速度顯著提高。

第三,DeepSeek采用混合精度框架。

在不同的區(qū)塊里使用不同的精度來存儲數(shù)據(jù)。我們知道精度越高,內存占用越多,運算復雜度越大。

DeepSeek在一些不需要很高精度的模塊,使用很低的精度FP8儲存數(shù)據(jù),極大的降低了訓練計算量。

② 創(chuàng)新策略帶來的效果

第一,計算速度快,成本低。

架構設計方面:DeepSeek MoE架構在推理時僅激活部分專家,避免了激活所有參數(shù)帶來的計算資源浪費;MLA架構通過降秩KV矩陣,減少了顯存消耗。

訓練策略方面:在訓練過程中采用多token預測(MTP)目標,即在每個位置上預測多個未來token,增加了訓練信號的密度,提高了數(shù)據(jù)效率。

在訓練中,對于占據(jù)大量計算量的通用矩陣乘法(GEMM)操作,采用FP8精度執(zhí)行;同時,通過細粒度量化策略和高精度累積過程,解決了低精度訓練中出現(xiàn)的量化誤差問題。

第二,推理能力強大。

強化學習驅動:DeepSeek-R1通過大規(guī)模強化學習技術顯著提升了推理能力。在數(shù)學、代碼和自然語言推理等任務上表現(xiàn)出色,性能與OpenAl的o1正式版相當。

長鏈推理(CoT)技術:DeepSeek-R1采用長鏈推理技術,其思維鏈長度可達數(shù)萬字,能夠逐步分解復雜問題,通過多步驟的邏輯推理來解決問題。

三、如何高效使用DeepSeek?

1.DeepSeek的多種使用方式及其表現(xiàn)

第一種,直接訪問DeepSeek官網(wǎng)。雖然免費,但由于訪問量過大,表現(xiàn)極不穩(wěn)定。

第二種,在GitHub上下載cherry Studio(或者一些其它工具),使用Cherry Studio+DeepSeek API做本地部署。但官方DeepSeek API也存在不穩(wěn)定的情況。

第三種,使用Cherry Studio+第三方云廠商DeepSeek API做本地部署。使用第三方云廠商的DeepSeekAPI穩(wěn)定很多,相比官方API價格也便宜。

Cherry部署之后,除了DeepSeek,還可以使用OpenAI、月之暗面、智譜清言等API。

假設我們來解一道高考數(shù)學題:設集合A中的元素皆為無重復數(shù)字的三位正整數(shù),且元素中任意兩者之積皆為偶數(shù),求集合中元素個數(shù)的最大值是多少?

這是一個非常復雜、難度較大的問題,如果采用通義千問等通用大模型,大概率得不出正確答案,而DeepSeek通過分步驟的長鏈深度思考,一步步給出了正確答案。

2.簡單應用:DeepSeek+知識庫

以構建投資研究框架為例,我們來展示用DeepSeek+知識庫的使用。

第一步,配置embedding模型。嵌入模型,把知識庫進行向量化,并進行快速檢索;選擇嵌入模型(可以使用硅基流動),在Cherry Studio設置中,設置對應的API Key。

第二步,整理知識庫。在Cherry studio的知識庫中,配置投研報告知識庫,上傳相關投研報告(處理知識庫主要用到文字,所以知識庫支持PDF、PPT、Excel、word等多種文本文件)。完成后,你就在本地有了知識庫。

第三步,在智能對話助手中,選擇對應的知識庫。

最后一步,針對知識庫進行提問。可以看到,DeepSeek會進行長鏈思考并展現(xiàn)思考過程。

需要注意,雖然云廠商不會主動收集你的數(shù)據(jù),但并不能100%保證數(shù)據(jù)安全,對于企業(yè)的敏感數(shù)據(jù)(如財務、營銷數(shù)據(jù)),建議進行本地私有化部署。

3.復雜應用:DeepSeek+Cursor

知識庫并不能完全展現(xiàn)DeepSeek的深度思考能力,借助于其它工具(如Cursor)可以完成更復雜的任務,如物理世界的小球碰撞實驗。

首先,我們在Cursor的【File->Preferences->Cursor Settings】中設置DeepSeek-r1和DeepSeek-v3模型。

然后,在openAI API Key中進行設置(這里采用openAI的協(xié)議),可以使用自定義的模型。

設置好DeepSeek-r1和DeepSeek-v3模型之后,接下來就可以在Cursor中選擇該模型進行編程。

我們看一個實際的例子:一個紅色的小球在三角區(qū)域內運動,碰到邊界就反彈,編寫一個HTML網(wǎng)頁。

Cursor會新建一個工程,動態(tài)展示編程結構。而DeepSeek在長鏈思考之后,編寫出HTML代碼,但代碼運行可能不符合要求,需要進一步調整,調整的過程我們也只需發(fā)出語言(文字對話)指令。

調整過程如下:

基于之前的思考,幫我完善HTML。(動作:DeepSeek思考并完善HTML代碼。效果:HTML樣式有了調整,但是小球還是會飛出三角區(qū)域,需要進一步調整。)

小球彈了之后,彈出去了啊,幫我檢查代碼……

考慮小球的重力,以及三角區(qū)域的支撐力,小球的彈力進行完善……

每次運行,小球可以從隨機的任意方向拋出……

小球的彈力大一些……

最后到地面都垂直彈跳了,不是應該還會滾動么,就是有水平的速度……

下面增加一個刷新按鈕,可以重新執(zhí)行這個HTML……

中文顯示是亂碼,另外考慮到手機顯示,頁面需要做自適應……

經(jīng)過多次調校,DeepSeek終于生成了符合我們要求的HTML代碼,并在Cursor工程中進行效果演示。

通過上面的演示,我們發(fā)現(xiàn),即使不懂代碼,也可以通過DeepSeek來完成機器編程,獲得期望的效果。

4.這一次,AI真的“智能”了

從AlphaGo與圍棋世界冠軍李世石大戰(zhàn)開始,人工智能逐漸介入我們的生活。機器第一次能進行自主思考,完成簡單(其實戰(zhàn)勝世界冠軍這個任務并不簡單)任務。

在發(fā)展中的人工智能也一度被我們吐槽為“人工智障”,但從OpenAI開始,人工智能逐漸會處理一些復雜任務了,而DeepSeek展現(xiàn)出了超越普通人的長思維鏈路,我們不得不感嘆:AI真的“智能”了。

可見,在學習過程中,對于復雜任務的處理有一個逐漸成熟的過程,一切都可以從最簡單的開始。當你具備了一些常見的思考、自我更新、自我迭代的能力,就可以完成一些更有價值的作品。

比如,如果你是一名投資分析師,會用哪種AI助手來輔助完成投研報告呢?如果用通用大模型(相當于文科生)寫報告,可能也會完成任務,但顯然缺乏嚴謹?shù)倪壿嬐评磉^程。

因此可能帶來市場的盲目跟投或者瘋狂踩踏,而DeepSeek的R1模型的嚴謹推理過程,可以勝任你的助手了。

四、DeepSeek掀桌子,打通了另一條路

1.李飛飛50美金復刻R1模型

在R1及其蒸餾模型推出后,李飛飛團隊用不到50美金的云計算費用,成功訓練出了一個名為s1的推理模型。該模型在數(shù)學和編碼能力中的表現(xiàn),與0penAI的o1和DeepSeek-R1等尖端推理模型不相上下。

s1模型的訓練只用了1000個樣本數(shù)據(jù),具體過程是:使用Gemini對這1000個樣本完善推理過程,然后對Qwen模型進行監(jiān)督微調。

消息出來,在網(wǎng)絡上一度刷屏。但我們也要了解這個模型成功的背景:

其一,s1模型是站在巨人的肩膀上,在阿里Qwen和谷歌Gemini大模型進一步訓練得到的;

其二,成本之所以低,是因為只使用了1000個樣本(對于企業(yè)來說,1000個樣本可能足夠了,但對于訓練完整的大模型是不可能的),通過26分鐘花費50美金,達到了一個比較理想的推理效果(與o1相差不大)。

也就是說,在每個企業(yè)中,未來大家都有機會用1000個樣本經(jīng)過精細訓練就可能達到類似效果。

如果稍微展開,可以發(fā)現(xiàn)s1模型背后有自己的獨特方法論:

首先,數(shù)據(jù)集的構建有三個標準(難度、多樣性和質量),從這三個標準出發(fā),挑選了1000個問題及對應的推理路徑。

S1的數(shù)據(jù)集包含了不同領域,如數(shù)學競賽、物理競賽,并且新增了兩個原創(chuàng)數(shù)據(jù)集;s1-prob和s1-teasers,分別涵蓋了概率問題和定量交易面試中的難題。

其次,采用了預算強制技術。這是一種控制測試時計算的技術,通過強制終止或延長模型的思考過程(通過添加“wait”字符串),使模型有機會重新檢查答案,從而可能糾正錯誤的推理步驟。

在預算強制技術下,有三個強制策略。

其一,設定思考時間限制:當模型開始處理一個問題時,首先為其設定了一個最大思考時間(以token數(shù)量衡量)。如果模型在這個時間內完成了思考并準備給出答案,則按照正常流程進行。

其二,強制結束思考過程:如果模型生成的思考token超過了預設的最大值,系統(tǒng)會強行終止模型的思考過程。這通常是通過添加一個特殊的end-of-thinking token delimiter實現(xiàn)的,促使模型停止進一步的推理,并轉向生成最終答案。

其三,鼓勵更深入的探索:如果希望模型花更多的時間來考慮一個問題,可以抑制end-of-thinking token delimiter的生成,并在當前的推理路徑后面追加“wait”字符串=>為了讓模型有機會重新評估其先前的推理步驟,可能會糾正一些快速但不準確的回答。

2.繼DeepSeek后的AI趨勢

趨勢一:小模型將成為主流(大模型蒸餾)。

通過蒸餾技術將大型模型的推理能力成功遷移到小型模型中,顯著提升了小型模型的性能(DeepSeek-R1-Distil-Qwen-7B在AIME 2024競賽中擊敗了32B模型)。

趨勢二:使用合成數(shù)據(jù)進行訓練成為主流。

雖然蒸餾數(shù)據(jù)是公開的秘密,但很多表現(xiàn)不是蒸餾能解釋的。比如v3的中文能力,很多用詞和表達方式非常接地氣,可能是用了數(shù)據(jù)合成方法做的預訓練。

趨勢三:AI模型將自我迭代(強化學習新范式)。

讓模型自己出題自己做,自己檢查。第一步:模型自己出題(比如100萬道);第二步,模型自己檢查對錯;第三步,篩選驗證對的內容,將結果與思維鏈合成新的數(shù)據(jù)。

比如在100萬道題目中,模型檢查后發(fā)現(xiàn)有1萬道能驗證是對的,那么解出這1萬道題的思維鏈就成了新的訓練數(shù)據(jù)。通過不斷迭代,探索出之前人類沒有探索到的地方(類似AlphaGo-Zero戰(zhàn)勝AlphaGo)。

本文為專欄作者授權創(chuàng)業(yè)邦發(fā)表,版權歸原作者所有。文章系作者個人觀點,不代表創(chuàng)業(yè)邦立場,轉載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn。

反饋
聯(lián)系我們
推薦訂閱