用大白話，講一下最近爆火的Deepseek

星海情報局·2025-01-29

關(guān)注

太強(qiáng)了

編者按：本文來自微信公眾號星海情報局（ID：junwu2333），作者：星海老局，創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

1957年10月4日，蘇聯(lián)成功發(fā)射了"斯普特尼克1號"人造衛(wèi)星。消息傳出后，從華盛頓到倫敦，整個西方都陷入了震驚和恐慌——因為這意味著：西方國家開始在技術(shù)上落后于非西方的國家。

從此之后，"斯普特尼克時刻"也就成了一個專有詞匯，特指那些使得西方國家陷入技術(shù)落后局面的事件。

現(xiàn)在，"斯普特尼克時刻"又來了：頂著各種制裁，用著遠(yuǎn)低于美國科技企業(yè)的預(yù)算，一家中國企業(yè)開發(fā)的AI大模型，竟然實現(xiàn)了近似于GPT-4o大模型的效果。

更重磅的是：就在今天中午時分，DeepSeek已經(jīng)登頂了中國和美國的應(yīng)用商店，超過了ChatGPT，成為了最受歡迎的AI應(yīng)用。這個歷史性的時刻，至少在目前十年內(nèi)絕無僅有。

這家中國企業(yè)，叫幻方量化。他們開發(fā)的AI大模型，就是這幾天爆火的Deepseek（深度求索）。《黑神話：悟空》背后的那個男人，Yocar馮驥將其稱為“國運級別的科技成果”。

今天，我們就來聊聊Deepseek，看它為何能成為AI界的"斯普特尼克"。

01不傳統(tǒng)的技術(shù)路線

從技術(shù)原理上來說，Deepseek的成功，尤其是最新一代deepseek R1的成功，來自于它所采用的RL強(qiáng)化學(xué)習(xí)策略，這是它以極低的成本卻可以實現(xiàn)和GPT-4o差不多效果的根本原因。

要理解這種顛覆性，得先看清傳統(tǒng)AI的局限。

在之前的文章里，我們就認(rèn)為當(dāng)下AI的故事很可能已經(jīng)講不下去了——因為以GPT為代表的傳統(tǒng)AI，其策略的本質(zhì)是"在人類監(jiān)督下的猜字謎游戲"——GPT們其實并不會思考，它們雖然會生成看上去還挺靠譜的回答，但它們做出這些回答并不是它們了解事物運行的原理，而是這樣回答有更大概率被人類所接受。

這種猜字謎的游戲，最多也就是生成一些"看似靠譜實則無法深究"的東西，根本沒有辦法投入現(xiàn)實、轉(zhuǎn)化為生產(chǎn)力工具。早期繪畫AI經(jīng)常把人畫出六個指頭也是類似的原因——AI根本不知道人的手掌上應(yīng)該有幾個指頭，它只是生成一個"乍一看還可以"的東西。

但deepseek不一樣，deepseek是真的會“思考”，或者說“推理”的。

以現(xiàn)在爆火的deepseek R1來說，它完全拋棄了那種"猜字謎"的訓(xùn)練方式，轉(zhuǎn)而采用了之前在圍棋和智能駕駛領(lǐng)域常用的RL策略（強(qiáng)化學(xué)習(xí)）。

如果說以前的策略是人類告訴AI什么是對的什么是錯的，AI只是在人類的指導(dǎo)下對人類進(jìn)行模仿。那么RL就是人類僅僅起一個"引進(jìn)門"的作用，剩下的"修行"就全部靠AI自己慢慢學(xué)習(xí)了。

這種"修行"在最初階段或許很笨拙，但越訓(xùn)練AI的能力就越強(qiáng)——關(guān)鍵在于AI不需要遵循人類的生理極限。人類要吃飯睡覺，但AI不用，在高性能芯片的加持下，AI訓(xùn)練一年所見識過的棋局、游戲，往往比一個職業(yè)棋手、職業(yè)電競玩家十輩子見過的都多——老司機(jī)哪怕開一輩子車，最多也就開個幾百萬公里。但自動駕駛AI只要開始訓(xùn)練，公里數(shù)就是以億為單位計算了。

簡而言之就是：RL策略，是真正地讓AI學(xué)會認(rèn)識世界、了解事物規(guī)律，而不是亦步亦趨地迎合人類的口味——這也就是為什么很多人在看到deepseek的成功后都認(rèn)為2025年將會是RL強(qiáng)化學(xué)習(xí)的元年。

沒辦法，RL策略現(xiàn)在看來確實是太誘人了。

02技術(shù)突破帶來的降本增效

當(dāng)技術(shù)路線換道超車，成本結(jié)構(gòu)就會發(fā)生核爆式變革。

因為底層的技術(shù)路線上顛覆了以GPT為代表的傳統(tǒng)AI，所以deepseek R1把性價比拉高到了一個不可思議的程度——相比起硅谷那群人動輒數(shù)億數(shù)十億美金的投資和數(shù)萬張顯卡的超級集群，我們僅僅靠著2000多張顯卡和600萬美元左右的成本就實現(xiàn)了近似乃至更好的效果。

用美國META公司一位匿名員工的話來說："META內(nèi)部一個負(fù)責(zé)AI項目的高管年薪拿出來，就足夠訓(xùn)練deepseek了，而這樣高薪的高管，META有幾十個。"

......我只能說：跟著這群蟲豸在一起，怎么能搞好AI呢？

同時，這波操作直接改寫了游戲規(guī)則。deepseek的顛覆式創(chuàng)新也向外界傳播了一個信息：不需要那么高的投入，也不需要那么多英偉達(dá)的GPU，你也可以做出很棒的大模型——OpenAI訓(xùn)練GPT-4耗費約6300萬美元和25000張A100顯卡，而Deepseek R1僅用600萬美元達(dá)到可比效果，甚至可能用的還是國產(chǎn)顯卡。

數(shù)據(jù)最能說明問題：RL策略使模型在對話輪次、任務(wù)復(fù)雜度等維度實現(xiàn)80%的收斂速度提升，數(shù)據(jù)利用率提高5倍以上。

黃仁勛一覺醒來，感覺自己家的地基被人刨了，因為AI的泡沫眼看著就要被戳破了——在傳統(tǒng)技術(shù)路徑下，90%的算力消耗在試錯過程中，而Deepseek的自主學(xué)習(xí)機(jī)制能將無效訓(xùn)練降低60%。RL策略對并行計算的需求較傳統(tǒng)架構(gòu)下降40%，這使得國產(chǎn)顯卡在特定計算任務(wù)中能達(dá)到英偉達(dá)GPU 75%的能效比。

這就帶來了更大的打擊：算力市場上的格局將會被重構(gòu)——隨著華為昇騰910B等國產(chǎn)芯片在RL框架中表現(xiàn)持續(xù)優(yōu)化，美國試圖通過A100/H100禁運遏制中國AI發(fā)展的策略正加速失效——國產(chǎn)顯卡又不是不能用，那我為啥還要高價進(jìn)口呢？既然如此，那么美國的"小院高墻"的制裁路線還有意義嗎？靠芯片靠GPU還能卡住東方大國的脖子嗎？

03結(jié)語

deepseek的爆火背后的幾點觀察

毫無疑問，deepseek確實是取得了巨大的成功，而且使用體驗的確遠(yuǎn)超GPT系列的大模型，尤其是R1版本特有的思考過程，真的不再是單純模仿人類，而是真的有自己的想法，甚至比人類更全面、更周密。

綜上所述，老局有這么幾點觀察：

第一，RL路線的含金量已經(jīng)不再需要懷疑，必然會是下一個階段AI大模型的核心策略。這也意味著我們向著真正的“人工智能”開始了前進(jìn)。

第二，靠著堆顯卡、堆資本來發(fā)展AI的“Scaling law”的價值需要被重新審視，這不意味著Scaling law的崩盤，反而可能是Scaling law的二階段形態(tài)。因為雖然定價已經(jīng)虛高了，并不需要這么多錢也可以實現(xiàn)很棒的效果，但不意味著英偉達(dá)就是割韭菜——不得不承認(rèn)，如果有更好的條件，AI必然會有更大的進(jìn)步。

第三，AI行業(yè)可能真的沒有什么核心的護(hù)城河，模型技術(shù)的超越將會是常態(tài)。今天deepseek超越了OpenAI，明天指不定有人也能超越deepseek——整個行業(yè)的格局沒有固化，中美AI競爭的大局還早著呢。

第四，deepseek的成功確實意味著之前一個階段里美國的“小院高墻”制裁策略失效了。但對我們來說，硬件上的突破和國產(chǎn)替代之路遠(yuǎn)未結(jié)束。國產(chǎn)GPU還要繼續(xù)發(fā)力，這是基礎(chǔ)性的力量，不能因為deepseek的成功，就覺得咱們已經(jīng)不需要再警惕英偉達(dá)的技術(shù)優(yōu)勢了。

本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表，版權(quán)歸原作者所有。文章系作者個人觀點，不代表創(chuàng)業(yè)邦立場，轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問，請聯(lián)系editor@cyzone.cn。