編者按:本文來自微信公眾號(hào) 20社(ID:quancaijing_20she),作者: 賈陽(yáng) 羅立璇,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。
市場(chǎng)開始關(guān)注DeepSeek如何影響英偉達(dá)估值時(shí),英國(guó)《金融時(shí)報(bào)》發(fā)表了一篇評(píng)論認(rèn)為,對(duì)于DeepSeek的成功,市場(chǎng)更應(yīng)該擔(dān)心的是:這意味著中國(guó)已經(jīng)掌握了“改善”的藝術(shù)。
什么是“改善”?
這是一個(gè)來源于日本的概念:Kaizen(改善的日文發(fā)音),大致涵蓋了模仿、優(yōu)化流程、生產(chǎn)物美價(jià)廉的產(chǎn)品。Kaizen被認(rèn)為是豐田生產(chǎn)方式的核心之一,在中國(guó)汽車行業(yè)也曾備受推崇,比如長(zhǎng)城汽車的座右銘就是,每天進(jìn)步一點(diǎn)點(diǎn)。
在歐美研究者看來,Kaizen是日本在1970年代和80年代經(jīng)濟(jì)起飛,成為超級(jí)大國(guó)的主要原因之一。這是一個(gè)先發(fā)國(guó)家,或者說所有市場(chǎng)霸主很容易認(rèn)可的邏輯:后來者,可以通過在原有產(chǎn)品、技術(shù)的基礎(chǔ)上加以優(yōu)化改善,打敗先行者。
正是沿著這個(gè)路線,日本公司在汽車、消費(fèi)電子和半導(dǎo)體等行業(yè)從技術(shù)和質(zhì)量上擊敗了歐美傳統(tǒng)巨頭。
用這個(gè)詞來描述當(dāng)下的中國(guó)AI行業(yè),這背后代表了一種混雜的態(tài)度,既有對(duì)于DeepSeek“創(chuàng)新含量”的質(zhì)疑,也有對(duì)中國(guó)工程師團(tuán)隊(duì)能夠在最尖端行業(yè)平推工藝優(yōu)化迭代的驚嘆。但相較于美國(guó)人一驚一乍的“Sputnik”,《金融時(shí)報(bào)》多了一份旁觀者的冷靜。
或許在這一段DS熱潮稍息之際,我們可以有余??匆幌赂诵牡膯栴}:中國(guó)以什么體系、路徑,誕生了DeepSeek這樣的現(xiàn)象級(jí)創(chuàng)新。DeepSeek路徑,能否泛化為中國(guó)路徑?
01一個(gè)典型的中國(guó)式“改善”
兩周前,字節(jié)發(fā)布了視頻生成模型OmniHuman,用戶僅需輸入一張圖片和一段音頻,就可以生成一條AI視頻。
你可以讓愛因斯坦成為物理名師課堂的講師,讓泰勒·斯威夫特唱中文神曲。這比之前的做對(duì)口型視頻的流程更簡(jiǎn)單,效果也非常真實(shí)。
OmniHuman可以生成光線、質(zhì)感、細(xì)節(jié)相對(duì)應(yīng)的,任意圖像比例、任意人物比例的視頻。
一位國(guó)內(nèi)大模型廠商從業(yè)者認(rèn)為,OmniHuman屬于一種AI口播類產(chǎn)品,沒有什么創(chuàng)新之處,功能都不是全新的,但他也承認(rèn)是在AI口播這個(gè)垂直領(lǐng)域,OmniHuman還是非常實(shí)用。
“AI口播的核心功能是要素替換,而不是內(nèi)容創(chuàng)造”。這是一個(gè)很窄的領(lǐng)域,因此OmniHuman發(fā)布后,沒有像可靈那樣吸引來廣泛關(guān)注。
OmniHuman可以適配不同畫風(fēng),生成以前做不出來的姿勢(shì),來適配人物。
由于我們最近一直在找最簡(jiǎn)單的數(shù)字人方案來做視頻,這個(gè)大模型還是一下就吸引了我的注意,因?yàn)樗_實(shí)用戶友好,如果再搭配剪映加上字幕,就很容易實(shí)現(xiàn)讓AI替我們念稿子的想法。
本質(zhì)上,OmniHuman這個(gè)“傻瓜級(jí)”視頻生成模型,是一個(gè)垂直模型。把原本更垂直的面部動(dòng)畫模型和姿勢(shì)調(diào)節(jié)模型,合并成了更有適用性的數(shù)字人動(dòng)畫模型。
它的長(zhǎng)處在于,給定一個(gè)基礎(chǔ)人像,讓它按照語(yǔ)音/視頻的指令一邊演講/唱歌,一邊身體自然律動(dòng),效果無(wú)比出色(參考演示視頻效果)。至于從無(wú)到有的內(nèi)容創(chuàng)造,對(duì)不起,不是我的專業(yè)。
而它之所以能做到小賽道的高分(據(jù)OmniHuman論文數(shù)據(jù)),答案其實(shí)并不復(fù)雜。那就是針對(duì)單一目標(biāo),做極致的工程學(xué)優(yōu)化。
據(jù)OmniHuman的論文,原本更垂直的數(shù)字人模型(如主播類),大多專注口型,為求精確,往往需要過濾裁剪大量與面部表情無(wú)關(guān)的訓(xùn)練數(shù)據(jù)。而OmniHuman,從原本被浪費(fèi)的數(shù)據(jù)中,提煉出有價(jià)值的運(yùn)動(dòng)模式,驅(qū)動(dòng)面部表情的同時(shí),也驅(qū)動(dòng)身體姿勢(shì),使生成的形象更自然靈動(dòng)。
這是一款中國(guó)AI產(chǎn)業(yè)“應(yīng)用”思維下誕生的典型產(chǎn)品。
如果在基礎(chǔ)研究上沒有足夠能力,或短時(shí)間內(nèi)大模型的能力無(wú)法顯著突破,又或大模型本身的商業(yè)化遙遙無(wú)期,那么用已有技術(shù)打磨出一個(gè)好用的應(yīng)用,是商業(yè)公司的最優(yōu)解。
事實(shí)上,字節(jié)的AI產(chǎn)品覆蓋相當(dāng)全面,在AI視頻生成這個(gè)方向上,我們甚至看到豆包和剪映兩個(gè)團(tuán)隊(duì)在賽馬,在OmniHuman發(fā)布前,豆包也發(fā)布了一款視頻生成產(chǎn)品。
這某種程度上而言,算是原本意義上的“Kaizen”的實(shí)踐。
Kaizen的核心,就是在原有產(chǎn)品基礎(chǔ)上去追求極致,無(wú)論是單點(diǎn)的優(yōu)化,還是整個(gè)系統(tǒng)的再降本增效。
但“Kaizen”的壁壘能維持多久,是一個(gè)問題。比如,過去幾周,一個(gè)經(jīng)常被拿來對(duì)比的產(chǎn)品是豆包:就在豆包好不容易有了近千萬(wàn)的DAU,成了國(guó)內(nèi)排名第一的AI產(chǎn)品時(shí),DeepSeek R1發(fā)布了,上線僅20天DAU超過2000萬(wàn)。
這可能也是這一領(lǐng)域的獨(dú)特風(fēng)險(xiǎn)。大模型的進(jìn)步曲線十分陡峭,不像互聯(lián)網(wǎng)產(chǎn)品或者是傳統(tǒng)制造業(yè)已經(jīng)平緩。雖然中國(guó)互聯(lián)網(wǎng)企業(yè)在AI應(yīng)用打造上更有優(yōu)勢(shì),但AI技術(shù)目前仍在發(fā)展中。我們看到的產(chǎn)品仍然都是是階段性的,也就很難形成絕對(duì)壁壘,無(wú)論對(duì)于open AI還是豆包。
而DeepSeek,則是在最前沿的方向,把Kaizen做到了極致。
02共同的秘訣
來自東方的神秘力量——“工程科學(xué)”,不僅出現(xiàn)在OmniHuman這個(gè)小模型中,更在整個(gè)AI產(chǎn)業(yè)中涌現(xiàn),產(chǎn)生效果。揭開今年科技圈春晚序幕的DeepSeek,是這方面的佼佼者。
DeepSeek最讓人矚目的要數(shù)兩點(diǎn),一是極致的性價(jià)比,二是優(yōu)越的模型表現(xiàn)。
而這兩點(diǎn)的實(shí)現(xiàn),來自DeepSeek高密度、一環(huán)扣一環(huán)的工程創(chuàng)新。
很多讀者可能已經(jīng)遺忘了,去年拉開大模型價(jià)格戰(zhàn)不是大廠,而是幻方。當(dāng)時(shí)它發(fā)布了DeepSeek-v2,帶來全方位的推理成本下降,能夠在盈利的基礎(chǔ)上進(jìn)行降價(jià)。而年末發(fā)布的DeepSeek-v3,進(jìn)一步進(jìn)行了工程上的創(chuàng)新優(yōu)化。
最值得稱道的工程創(chuàng)新,是模型架構(gòu)層面的。
新的混合專家系統(tǒng)(Mixure of Experts,MoE)架構(gòu),作為一個(gè)更精細(xì)的任務(wù)“分診臺(tái)”,只激活少量合適的專家,從而在推理過程中減少參數(shù)量,提升效率。
也有算法層面的,新的多頭潛在注意力機(jī)制(Multi-Head Latent Attention,MLA),把加載上下文的顯存占用,降到了常見架構(gòu)的5%-13%,顯著降低了推理成本。這來自于DeepSeek一個(gè)年輕研究員的個(gè)人靈感,最終被團(tuán)隊(duì)落地,實(shí)現(xiàn)了極其罕見、有魄力的Attention架構(gòu)創(chuàng)新。
此外,還有幾乎無(wú)人工干預(yù)的強(qiáng)化學(xué)習(xí)(RL)。尤其是DeepSeek-R1-Zero模型,僅靠簡(jiǎn)單的獎(jiǎng)懲信號(hào)來優(yōu)化模型行為,純RL。而這個(gè)過程中,R1-Zero自發(fā)獲得了優(yōu)化推理的能力,在推理過程中產(chǎn)生了令人激動(dòng)的“頓悟時(shí)刻”(Aha Moment)。這是GPT-o1隱藏的秘密和壁壘,DeepSeek自己攻破了這個(gè)謎題。
(論文記錄了一個(gè)案例,R1-Zero在數(shù)學(xué)推理的過程中,突然停下,"Wait, wait. Wait. That's an aha moment I can flag here",而后重新審視了自己的解題思路。研究團(tuán)隊(duì)也將這視為RL能力的彰顯。)
當(dāng)然還有一系列針對(duì)數(shù)據(jù)壓縮、數(shù)據(jù)處理流程、芯片帶寬通信調(diào)度等等的細(xì)節(jié)創(chuàng)新優(yōu)化。
(來自騰訊科技)
這就進(jìn)入到一些爭(zhēng)議環(huán)節(jié)了。
以FutureLabs首席專家胡延平為代表的一些人認(rèn)為,DeepSeek的亮點(diǎn),按實(shí)際價(jià)值其實(shí)依次是強(qiáng)化學(xué)習(xí)、混合專家模型MoE、知識(shí)與模型蒸餾、多頭注意力、多Token預(yù)測(cè)、混合精度訓(xùn)練和PTX等。盡管其中沒有一項(xiàng)是DeepSeek自己完全原創(chuàng)、獨(dú)創(chuàng)的,但是DeepSeek成功地進(jìn)行了非常系統(tǒng)的再創(chuàng)新。
那么,這實(shí)際上是最經(jīng)典的“改善”邏輯——博采眾長(zhǎng),從而實(shí)現(xiàn)效率最大化。
也有一些人,尤其是在閱讀了DeepSeek的多份論文后,發(fā)出了“低成本高效率”之外的另一種的感嘆——這不是單點(diǎn)的巧思,而是一整個(gè)系統(tǒng)的創(chuàng)新。
比如,在R1發(fā)布前,Perplexity CEO Aravind Srinivas對(duì)V3評(píng)價(jià)已經(jīng)非常高,他在接受CNBC專訪時(shí)稱,MoE非常難訓(xùn)練,有準(zhǔn)確度的8位浮點(diǎn)訓(xùn)練很難做到,在美國(guó)并不常見。
通常的認(rèn)知是中國(guó)人擅長(zhǎng)復(fù)制,如果美國(guó)人停止發(fā)表論文,他們就趕不上?!暗F(xiàn)實(shí)是,DeepSeek-V3中一些細(xì)節(jié)非常出色,我甚至不會(huì)驚訝Meta會(huì)借鑒并應(yīng)用到Llama中。他們不是在復(fù)制,而是在創(chuàng)新。”
VC機(jī)構(gòu)Benchmark合伙人Chetan Puttagunta讀了V3的論文,他認(rèn)為DeepSeek團(tuán)隊(duì)貢獻(xiàn)了一些在算法方面真正的創(chuàng)新,某種程度上是世界領(lǐng)先水平的創(chuàng)新。
公允地說,DeepSeek沒有做出Transformer模型之外的底層創(chuàng)新——像楊立昆(Yann LeCun)所說的大語(yǔ)言模型之外的世界模型,但在Transformer領(lǐng)域內(nèi),DeepSeek做出了有突破價(jià)值的工程學(xué)創(chuàng)新,從而讓Transformer模型更強(qiáng)大了。
本質(zhì)上,它做的正是GPT3做的事。
在AI領(lǐng)域,工程創(chuàng)新,跟最前沿的理論創(chuàng)新,并不是孤立存在的。它們往往是并行的,互相驗(yàn)證,互相啟發(fā)。規(guī)模效應(yīng)、工程本身會(huì)帶來意外的aha moment,從而推動(dòng)理論、模型創(chuàng)新進(jìn)入新的階段。
在R1發(fā)布后,據(jù)DeepSeek團(tuán)隊(duì)研究員Daya Guo稱,R1-Zero的性能曲線還在“不斷上升”,真切感受到RL的威力。
梁文鋒最近又新發(fā)了署名論文,又提出了一個(gè)新的Attention模型——NSA(Native Sparse Attention),相較于其之前的MLA模型,提升推理效率的同時(shí),能更好地模擬人類對(duì)長(zhǎng)文本的理解方式。
要求大算力的預(yù)訓(xùn)練階段比拼,競(jìng)爭(zhēng)強(qiáng)度下降。而在RL這個(gè)想象空間巨大的領(lǐng)域,中國(guó)的AI企業(yè)正在迅速追趕Open AI。
03“Kaizen”的極致階段,創(chuàng)新涌現(xiàn)
一位大模型公司的人士在和我們討論Kaizen時(shí)認(rèn)為,持續(xù)改善說起來容易做起來很難,因?yàn)槔@行和摸魚才更符合人性。
實(shí)際上DeepSeek所做的嘗試,很多公司都曾做過一項(xiàng)或者是幾項(xiàng),但發(fā)現(xiàn)效果不佳后,就不再繼續(xù)。DeepSeek某種意義上的價(jià)值,在于掀開了中國(guó)從業(yè)者心中的天花板。
日本公司成功的核心在于恒心,豐田等日本公司將其發(fā)展成一種企業(yè)文化。將改善的權(quán)力交給了每一位員工,在生產(chǎn)線上,任何員工發(fā)現(xiàn)問題都有權(quán)舉手叫停。
這種改善帶來的進(jìn)步,看起來并不復(fù)雜,只是在原本的產(chǎn)品路徑上又跨越了一個(gè)難點(diǎn),或者是降低一點(diǎn)點(diǎn)成本、一點(diǎn)點(diǎn)使用門檻。
《金融時(shí)報(bào)》認(rèn)為,回顧豐田“Kaizen”式的成功,或許更能解釋中國(guó)企業(yè)的進(jìn)步,以及為什么這樣的進(jìn)步,有可能幫助這些公司獲得最大的市場(chǎng)成功。
豐田在上世紀(jì)80年代,通過更高效和低成本的生產(chǎn)方式,制造出了廉價(jià)但可靠的科羅拉,打敗了大眾的甲殼蟲,從而重塑了美國(guó)的汽車工業(yè)。
比起美國(guó)公司所習(xí)慣的“大力出奇跡”來得到創(chuàng)新,豐田更專注于在作業(yè)過程中,杜絕資源浪費(fèi)和自發(fā)實(shí)現(xiàn)漸進(jìn)式的進(jìn)步,這樣的方法被總結(jié)為“改善”。
豐田能夠在美國(guó)市場(chǎng)迎頭趕上,做到了以下三點(diǎn):
1、大量模仿,小幅提升。最后,技術(shù)落后的豐田,靠逆向工程雪佛蘭的發(fā)動(dòng)機(jī),研發(fā)出了自己的引擎,馬力比之前提高了10%。
2、認(rèn)真調(diào)研市場(chǎng)需求。當(dāng)時(shí)的美國(guó)處于石油危機(jī)下,消費(fèi)者特別需要油耗低的小型車。豐田的小型車的拋錨率遠(yuǎn)低于當(dāng)時(shí)大熱的大眾甲殼蟲,還便宜。
3、改善生產(chǎn)流程,去掉無(wú)用的環(huán)節(jié),實(shí)現(xiàn)全局細(xì)節(jié)優(yōu)化,從而做到成本和質(zhì)量上的雙優(yōu)化。
這樣的路線,在今天中國(guó)的很多行業(yè)也在被不斷執(zhí)行且發(fā)揚(yáng)光大。
比如在電動(dòng)車行業(yè),最早的阻礙是電池。比亞迪找用磷酸鐵鋰迭代了此前主流的三元鋰。但最初的方案續(xù)航旅程很短,比亞迪又在2020年推出了“刀片電池”,基本彌補(bǔ)了在續(xù)航上和三元鋰電池的差距,且成本極低。
同時(shí),在實(shí)現(xiàn)大部分零件自產(chǎn)的前提下,比亞迪造出了性價(jià)比最高的車輛,從而成為新能源“銷冠”。
但到如今,中國(guó)的新能源汽車,早已經(jīng)超出了原本的“改善”范疇。
作為全球最大的電動(dòng)車生產(chǎn)與消費(fèi)國(guó),中國(guó)的電動(dòng)車行業(yè)是一個(gè)有機(jī)整體,在電池、壓鑄技術(shù)、空氣懸掛、汽車芯片、智能座椅、智能駕駛、軟件等多個(gè)方面都在內(nèi)卷式創(chuàng)新。它們的對(duì)手,也從特斯拉變成了彼此。
一年前,中國(guó)還沒有能提供全場(chǎng)景L2輔助駕駛能力的頭部供應(yīng)商,但沒有意外的話,到今年底,L2+就會(huì)成為所有主力車型的標(biāo)配。
用深入觀察中國(guó)電動(dòng)車的Reddit用戶singularity的觀點(diǎn),這是整個(gè)生態(tài)系統(tǒng)整體發(fā)展的故事,推動(dòng)快速應(yīng)用,優(yōu)化產(chǎn)業(yè)鏈,構(gòu)建特定專業(yè)領(lǐng)域的龐大集群——飛輪開始加速。而在AI領(lǐng)域最近發(fā)生的事情,讓他想起了汽車領(lǐng)域發(fā)生過的事。
在人工智能領(lǐng)域,這個(gè)軌跡目前為止確實(shí)是相似的。
Open AI目前最強(qiáng)大的o3固然驚艷,但僅部分向公眾開放,且價(jià)格高昂。能夠?qū)崿F(xiàn)相似智能水平的DeepSeek-R1-Zero橫空出世,將其在RL階段實(shí)現(xiàn)深度思考的秘訣開源,追趕Open AI的路徑似乎已被解密。
和DeepSeek R1幾乎同時(shí)發(fā)布的月之暗面的Kimi k1.5,也英雄所見略同地推出了稀疏注意力機(jī)制,名為MoBA(混合塊注意力機(jī)制),同樣對(duì)標(biāo)o1正式版。
而k1.5的推理能力也相當(dāng)不錯(cuò)。Open AI的論文表示,R1和k1.5兩者的獨(dú)立研究都證明,利用思維鏈能夠提升大模型在數(shù)學(xué)與編程上的能力。
字節(jié)隨后發(fā)布的豆包大模型1.5 Pro,也聲稱采用了稀疏MoE架構(gòu)。其稀疏模型架構(gòu)命名為UltraMem,稱推理速度相比MoE架構(gòu)提升2-6倍,推理成本最高可降低83%。
在scaling law告急后,行業(yè)轉(zhuǎn)向加碼RL,中國(guó)企業(yè)則還有一個(gè)突破Transformer算力桎梏的共同目標(biāo)——Attention架構(gòu)提高了模型智能程度,但卻需要占用大量?jī)?nèi)存,且計(jì)算成本高昂。
在海量的AI人才努力下,大家都給出了相似的解題思路,只不過DeepSeek的創(chuàng)新更加密集,更系統(tǒng),給出了最高分答卷。
《金融時(shí)報(bào)》樂觀估計(jì),相較于日本原版,中國(guó)式的 “改善” 能在更快節(jié)奏、更具顛覆性的時(shí)期發(fā)揮作用,且成果可能更為顯著。
首先是中國(guó)的人力資源和人才規(guī)模與以往完全不是一個(gè)量級(jí),讓“改善”能夠在更大范圍內(nèi)進(jìn)行,改善再加上規(guī)模化的威力,是不可小覷的。
其次是,在數(shù)字化時(shí)代,消費(fèi)者反饋和公司調(diào)整會(huì)更快。
更重要的是,中國(guó)不論官方還是民間,依然有意愿和能力為快速規(guī)?;峁┵Y金支持。
在大語(yǔ)言模型的scaling law被質(zhì)疑觸墻的過去一年,我時(shí)常想起古早美劇《疑犯追蹤》中的一個(gè)情節(jié)——引入了壓縮算法后,原本需要巨型數(shù)據(jù)庫(kù)容身的AI,可以被裝進(jìn)一個(gè)手提箱。
科幻有時(shí)候會(huì)給出先驗(yàn)的預(yù)言。人工智能一定要寄居在海量算力上嗎?能不能讓AI既聰明,又低能耗呢?
在最新近的現(xiàn)實(shí)中,中國(guó)的AI創(chuàng)業(yè)公司正在為這個(gè)使命做出最核心的貢獻(xiàn)。
本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn),不代表創(chuàng)業(yè)邦立場(chǎng),轉(zhuǎn)載請(qǐng)聯(lián)系原作者。如有任何疑問,請(qǐng)聯(lián)系editor@cyzone.cn。