編者按:本文來自微信公眾號 星海情報(bào)局(ID:junwu2333),作者:星海老局,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。
1957年10月4日,蘇聯(lián)成功發(fā)射了"斯普特尼克1號"人造衛(wèi)星。消息傳出后,從華盛頓到倫敦,整個西方都陷入了震驚和恐慌——因?yàn)檫@意味著:西方國家開始在技術(shù)上落后于非西方的國家。
從此之后,"斯普特尼克時(shí)刻"也就成了一個專有詞匯,特指那些使得西方國家陷入技術(shù)落后局面的事件。
現(xiàn)在,"斯普特尼克時(shí)刻"又來了:頂著各種制裁,用著遠(yuǎn)低于美國科技企業(yè)的預(yù)算,一家中國企業(yè)開發(fā)的AI大模型,竟然實(shí)現(xiàn)了近似于GPT-4o大模型的效果。
更重磅的是:就在今天中午時(shí)分,DeepSeek已經(jīng)登頂了中國和美國的應(yīng)用商店,超過了ChatGPT,成為了最受歡迎的AI應(yīng)用。這個歷史性的時(shí)刻,至少在目前十年內(nèi)絕無僅有。
這家中國企業(yè),叫幻方量化。他們開發(fā)的AI大模型,就是這幾天爆火的Deepseek(深度求索)?!逗谏裨挘何蚩铡繁澈蟮哪莻€男人,Yocar馮驥將其稱為“國運(yùn)級別的科技成果”。
今天,我們就來聊聊Deepseek,看它為何能成為AI界的"斯普特尼克"。
01不傳統(tǒng)的技術(shù)路線
從技術(shù)原理上來說,Deepseek的成功,尤其是最新一代deepseek R1的成功,來自于它所采用的RL強(qiáng)化學(xué)習(xí)策略,這是它以極低的成本卻可以實(shí)現(xiàn)和GPT-4o差不多效果的根本原因。
要理解這種顛覆性,得先看清傳統(tǒng)AI的局限。
在之前的文章里,我們就認(rèn)為當(dāng)下AI的故事很可能已經(jīng)講不下去了——因?yàn)橐訥PT為代表的傳統(tǒng)AI,其策略的本質(zhì)是"在人類監(jiān)督下的猜字謎游戲"——GPT們其實(shí)并不會思考,它們雖然會生成看上去還挺靠譜的回答,但它們做出這些回答并不是它們了解事物運(yùn)行的原理,而是這樣回答有更大概率被人類所接受。
這種猜字謎的游戲,最多也就是生成一些"看似靠譜實(shí)則無法深究"的東西,根本沒有辦法投入現(xiàn)實(shí)、轉(zhuǎn)化為生產(chǎn)力工具。早期繪畫AI經(jīng)常把人畫出六個指頭也是類似的原因——AI根本不知道人的手掌上應(yīng)該有幾個指頭,它只是生成一個"乍一看還可以"的東西。
但deepseek不一樣,deepseek是真的會“思考”,或者說“推理”的。
以現(xiàn)在爆火的deepseek R1來說,它完全拋棄了那種"猜字謎"的訓(xùn)練方式,轉(zhuǎn)而采用了之前在圍棋和智能駕駛領(lǐng)域常用的RL策略(強(qiáng)化學(xué)習(xí))。
如果說以前的策略是人類告訴AI什么是對的什么是錯的,AI只是在人類的指導(dǎo)下對人類進(jìn)行模仿。那么RL就是人類僅僅起一個"引進(jìn)門"的作用,剩下的"修行"就全部靠AI自己慢慢學(xué)習(xí)了。
這種"修行"在最初階段或許很笨拙,但越訓(xùn)練AI的能力就越強(qiáng)——關(guān)鍵在于AI不需要遵循人類的生理極限。人類要吃飯睡覺,但AI不用,在高性能芯片的加持下,AI訓(xùn)練一年所見識過的棋局、游戲,往往比一個職業(yè)棋手、職業(yè)電競玩家十輩子見過的都多——老司機(jī)哪怕開一輩子車,最多也就開個幾百萬公里。但自動駕駛AI只要開始訓(xùn)練,公里數(shù)就是以億為單位計(jì)算了。
簡而言之就是:RL策略,是真正地讓AI學(xué)會認(rèn)識世界、了解事物規(guī)律,而不是亦步亦趨地迎合人類的口味——這也就是為什么很多人在看到deepseek的成功后都認(rèn)為2025年將會是RL強(qiáng)化學(xué)習(xí)的元年。
沒辦法,RL策略現(xiàn)在看來確實(shí)是太誘人了。
02技術(shù)突破帶來的降本增效
當(dāng)技術(shù)路線換道超車,成本結(jié)構(gòu)就會發(fā)生核爆式變革。
因?yàn)榈讓拥募夹g(shù)路線上顛覆了以GPT為代表的傳統(tǒng)AI,所以deepseek R1把性價(jià)比拉高到了一個不可思議的程度——相比起硅谷那群人動輒數(shù)億數(shù)十億美金的投資和數(shù)萬張顯卡的超級集群,我們僅僅靠著2000多張顯卡和600萬美元左右的成本就實(shí)現(xiàn)了近似乃至更好的效果。
用美國META公司一位匿名員工的話來說:"META內(nèi)部一個負(fù)責(zé)AI項(xiàng)目的高管年薪拿出來,就足夠訓(xùn)練deepseek了,而這樣高薪的高管,META有幾十個。"
......我只能說:跟著這群蟲豸在一起,怎么能搞好AI呢?
同時(shí),這波操作直接改寫了游戲規(guī)則。deepseek的顛覆式創(chuàng)新也向外界傳播了一個信息:不需要那么高的投入,也不需要那么多英偉達(dá)的GPU,你也可以做出很棒的大模型——OpenAI訓(xùn)練GPT-4耗費(fèi)約6300萬美元和25000張A100顯卡,而Deepseek R1僅用600萬美元達(dá)到可比效果,甚至可能用的還是國產(chǎn)顯卡。
數(shù)據(jù)最能說明問題:RL策略使模型在對話輪次、任務(wù)復(fù)雜度等維度實(shí)現(xiàn)80%的收斂速度提升,數(shù)據(jù)利用率提高5倍以上。
黃仁勛一覺醒來,感覺自己家的地基被人刨了,因?yàn)锳I的泡沫眼看著就要被戳破了——在傳統(tǒng)技術(shù)路徑下,90%的算力消耗在試錯過程中,而Deepseek的自主學(xué)習(xí)機(jī)制能將無效訓(xùn)練降低60%。RL策略對并行計(jì)算的需求較傳統(tǒng)架構(gòu)下降40%,這使得國產(chǎn)顯卡在特定計(jì)算任務(wù)中能達(dá)到英偉達(dá)GPU 75%的能效比。
這就帶來了更大的打擊:算力市場上的格局將會被重構(gòu)——隨著華為昇騰910B等國產(chǎn)芯片在RL框架中表現(xiàn)持續(xù)優(yōu)化,美國試圖通過A100/H100禁運(yùn)遏制中國AI發(fā)展的策略正加速失效——國產(chǎn)顯卡又不是不能用,那我為啥還要高價(jià)進(jìn)口呢?既然如此,那么美國的"小院高墻"的制裁路線還有意義嗎?靠芯片靠GPU還能卡住東方大國的脖子嗎?
03結(jié)語
deepseek的爆火背后的幾點(diǎn)觀察
毫無疑問,deepseek確實(shí)是取得了巨大的成功,而且使用體驗(yàn)的確遠(yuǎn)超GPT系列的大模型,尤其是R1版本特有的思考過程,真的不再是單純模仿人類,而是真的有自己的想法,甚至比人類更全面、更周密。
綜上所述,老局有這么幾點(diǎn)觀察:
第一,RL路線的含金量已經(jīng)不再需要懷疑,必然會是下一個階段AI大模型的核心策略。這也意味著我們向著真正的“人工智能”開始了前進(jìn)。
第二,靠著堆顯卡、堆資本來發(fā)展AI的“Scaling law”的價(jià)值需要被重新審視,這不意味著Scaling law的崩盤,反而可能是Scaling law的二階段形態(tài)。因?yàn)殡m然定價(jià)已經(jīng)虛高了,并不需要這么多錢也可以實(shí)現(xiàn)很棒的效果,但不意味著英偉達(dá)就是割韭菜——不得不承認(rèn),如果有更好的條件,AI必然會有更大的進(jìn)步。
第三,AI行業(yè)可能真的沒有什么核心的護(hù)城河,模型技術(shù)的超越將會是常態(tài)。今天deepseek超越了OpenAI,明天指不定有人也能超越deepseek——整個行業(yè)的格局沒有固化,中美AI競爭的大局還早著呢。
第四,deepseek的成功確實(shí)意味著之前一個階段里美國的“小院高墻”制裁策略失效了。但對我們來說,硬件上的突破和國產(chǎn)替代之路遠(yuǎn)未結(jié)束。國產(chǎn)GPU還要繼續(xù)發(fā)力,這是基礎(chǔ)性的力量,不能因?yàn)閐eepseek的成功,就覺得咱們已經(jīng)不需要再警惕英偉達(dá)的技術(shù)優(yōu)勢了。
本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個人觀點(diǎn),不代表創(chuàng)業(yè)邦立場,轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn。