五月天成人小说,中文字幕亚洲欧美专区,久久妇女,亚洲伊人久久大香线蕉综合,日日碰狠狠添天天爽超碰97

楊植麟和梁文鋒,論文撞車了

當(dāng)兩個創(chuàng)始人把自己的名字寫進(jìn)論文里。

編者按:本文來自微信公眾號硅星人Pro(ID:Si-Planet),作者:王兆洋,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

01

在馬斯克發(fā)布了他用20萬張卡訓(xùn)出的Grok3的同一天,兩篇與馬氏大力出奇跡“相反”路線的論文也發(fā)表在了技術(shù)社區(qū)。

在這兩篇論文的作者名目里,各自有一個大家熟悉的名字:

梁文鋒,楊植麟。

圖片

圖片

2月18日,DeepSeek和月之暗面幾乎同時發(fā)布了他們各自最新的論文,而主題直接“撞車”——都是挑戰(zhàn)Transformer架構(gòu)最核心的注意力機制,讓它能更高效的處理更長的上下文。而更有趣的是,兩家公司的技術(shù)派明星創(chuàng)始人的名字出現(xiàn)在各自的論文和技術(shù)報告里。

DeepSeek 發(fā)布的論文,標(biāo)題名為:《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》。

根據(jù)論文,它提出的新架構(gòu)NSA(原生稀疏注意力)在基準(zhǔn)測試中,與全注意力機制相比,準(zhǔn)確率相同或更高;處理 64k 標(biāo)記序列時,速度可提高至 11.6 倍,訓(xùn)練也更高效,所需算力更少;在處理超長上下文的任務(wù)(如書籍摘要、代碼生成、推理任務(wù))中表現(xiàn)出色。

圖片

與此前人們津津樂道的算法上的創(chuàng)新相比,DeepSeek這一次把手伸向了最核心的注意力機制(attention)的改造上。

Transformer是今天所有大模型繁榮的基礎(chǔ),但它的核心算法注意力機制依然有先天的問題:拿讀書做比喻,傳統(tǒng)的“全注意力機制”為了理解和生成,會閱讀文本里的每個詞,并拿它與其他所有詞作比較。這樣導(dǎo)致處理文本越長它越復(fù)雜,技術(shù)越卡,甚至崩潰。

此前學(xué)術(shù)界一直在提供各種解決的思路,NSA通過真實環(huán)境的工程優(yōu)化和實驗,組裝出了一個由三個環(huán)節(jié)組成的可以用在訓(xùn)練階段的架構(gòu)方案:

它包括,1)語義壓縮——不再是看每個詞,而是分成一個組,也就是“塊”,在保留全局語義的同時將序列長度縮減至1/k,同時引入位置編碼來降低信息的損耗,進(jìn)而將計算復(fù)雜度從O(n2)降為O(n2/k)。

2)動態(tài)選擇——模型以某種得分判斷機制,從文本中挑出最多關(guān)注的詞,對它們進(jìn)行細(xì)粒度的計算。這種重要性采樣策略在減少75%計算量的情況下仍能保持98%的細(xì)粒度信息。

3)滑動窗口——前兩者是摘要和劃重點的話,滑動窗口就是查看最近的上下文信息,這樣可以保持連貫性,而通過硬件級顯存復(fù)用技術(shù)可以將內(nèi)存訪問頻次降低40%。

這些思路每一個都不是DeepSeek的發(fā)明,但可以把它想象成ASML式的工作——這些技術(shù)元素已經(jīng)存在,散落在各處,但工程上把它們組合在一起成為一個可以規(guī)?;姆桨?,新的算法架構(gòu),還沒人做過?,F(xiàn)在有人通過強大的工程能力做出來了一臺“光刻機”,其他人可以用這個來在真實工業(yè)環(huán)境里訓(xùn)練模型。

圖片

而月之暗面在同天發(fā)布的論文,提出了一個在核心思想上非常一致的架構(gòu):MoBA。(MoBA: MIXTURE OF BLOCK ATTENTION FOR LONG-CONTEXT LLMS)

從它的名字就可以看到,它同樣使用了把“詞”變成塊的方法。在“切塊”后,MoBA 里有個像 “智能篩選員” 一樣的門控網(wǎng)絡(luò),它負(fù)責(zé)挑選與一個“塊”最相關(guān)的 Top-K 個塊,只對這些選中的塊計算注意力。在實際實現(xiàn)過程中,MoBA 還結(jié)合了 FlashAttention(能讓注意力計算更高效)和 MoE(專家混合模型)的優(yōu)化手段。

圖片

與NSA相比,它更強調(diào)靈活性,沒有完全離開現(xiàn)在最主流的全注意力機制,而是設(shè)計了一套可以自由切換的方式,讓這些模型可以在全注意力和稀疏注意力機制之間切換,給已有的全注意力的模型更多的適配空間。

根據(jù)論文,MoBA的計算復(fù)雜度隨著上下文長度增加而優(yōu)勢明顯。在1M token的測試中,MoBA比全注意力快了6.5倍;到10M token時,則提速16倍。而且,它已經(jīng)在Kimi的產(chǎn)品中使用,用來處理日常用戶們的超長上下文的處理需求。

楊植麟最初創(chuàng)辦月之暗面受到關(guān)注的一個重要原因,是他的論文影響力和引用量,但K1.5論文之前,他最后一篇論文類的研究停留在2024年1月。而梁文鋒雖然作為作者出現(xiàn)在DeepSeek最重要的模型技術(shù)報告里,但這些報告的作者名錄幾乎相當(dāng)于DeepSeek的員工名錄,幾乎所有人都列在里面。而NSA的論文作者則只有幾人。由此可以看出這兩個工作對這兩家公司創(chuàng)始人來說的重要性,以及對了解這兩家公司技術(shù)路線的意義。

另一個可以為這種重要性做注腳的細(xì)節(jié)是,有網(wǎng)友發(fā)現(xiàn),arxiv 上NSA這篇論文的提交記錄顯示,它在2月16日提交,提交者正是梁文鋒自己。

圖片

02

這不是月之暗面和DeepSeek第一次“撞車”。在R1發(fā)布的同時,Kimi難得的發(fā)布了K 1.5的技術(shù)報告,此前這家公司并不以對外展示它的技術(shù)思考為優(yōu)先重點。當(dāng)時這兩篇論文同時把目標(biāo)瞄準(zhǔn)了RL推動的推理模型。事實上,仔細(xì)閱讀這兩篇技術(shù)報告,在K1.5的論文里,月之暗面對如何訓(xùn)練一個推理模型做了更詳細(xì)的分享,甚至單從信息度和細(xì)節(jié)程度上,它是高過R1論文的。但之后DeepSeek的風(fēng)潮掩蓋掉了不少對這篇論文本身的討論。

一個可以作為印證的,是OpenAI最近難得發(fā)布的一篇對其o系列模型推理能力講解的論文里,同時點了DeepSeek R1和Kimi k1.5的名字。“DeepSeek-R1和Kimi k1.5通過獨立研究顯示,利用思維鏈學(xué)習(xí)(COT)方法,可顯著提升模型在數(shù)學(xué)解題與編程挑戰(zhàn)中的綜合表現(xiàn)。”也就是說,這是OpenAI自己選來用來對比的兩個推理模型。

圖片

“大模型這套架構(gòu)最神奇的一點我感覺就是它似乎自己就指出了前進(jìn)的路線,讓不同的人從不同的角度得出了相似的前進(jìn)方向?!?/p>

參與了MoBa核心研究的清華大學(xué)教授章明星在知乎上分享。

他還提供了一個很有趣的對比。

“DeepSeek R1 和 Kimi K1.5 都指向了 ORM based RL,不過 R1 從 Zero 開始,更加“存粹”或者說“l(fā)ess structure”一些,上線更早,同步開源模型。

Kimi MoBA 和 DeepSeek NSA 再一次都指向了可以反向傳遞的 learned sparse attention,這一次 MoBA 更加 less structure 一些,上線更早,同步開源代碼?!?/p>

這兩家的連續(xù)“撞車”有助于人們對比著更好理解強化學(xué)習(xí)的技術(shù)發(fā)展,以及更高效更長文本的注意力機制的進(jìn)化方向。

“結(jié)合 R1 和 K1.5 一起看能更好的學(xué)習(xí) Reasoning Model 怎么訓(xùn)一樣,結(jié)合 MoBA 和 NSA 一起看能從不同側(cè)面更好的理解我們對于——Attention 中 sparsity 應(yīng)當(dāng)存在而且可以通過端到端訓(xùn)練習(xí)得——的相信?!闭旅餍菍懙健?/p>

03

在MoBA發(fā)布后,月之暗面的許欣然也在社交媒體上稱,這是一個做了一年半的工作,現(xiàn)在開發(fā)者可以開箱即用。

而選擇此刻開源注定還是會被放在DeepSeek的“陰影”里討論。有意思的是,在各家積極接入DeepSeek和開源自己的模型的今天,外界似乎總在第一時間想到月之暗面,對于Kimi是否會接入、模型是否會開源的討論不停,月之暗面和豆包似乎成了兩個僅剩的“異類”。

而現(xiàn)在看來,DeepSeek對月之暗面的影響相比其他玩家是更加持續(xù)的,它帶來了從技術(shù)路線到用戶爭奪全方位的挑戰(zhàn):一方面它證明了哪怕是進(jìn)入到產(chǎn)品的競爭上,基礎(chǔ)模型能力也依然是最重要的;另外,今天越來越清晰的另一個連鎖反應(yīng)是,騰訊的微信搜索和元寶的組合拳,正借DeepSeek R1的勢頭補上一次它之前錯過的營銷投放戰(zhàn),最終也是沖著Kimi和豆包而來。

月之暗面的應(yīng)對思路也就變得引人注目。其中開源是必須要做的一步。而看起來月之暗面的選擇,是想要真正匹配DeepSeek的開源思路——目前在DeepSeek后出現(xiàn)的諸多開源大部分像是應(yīng)激反應(yīng),它們還是用此前Llama時期的開源思路來跟隨。事實上DeepSeek的開源與此前的已經(jīng)不同,不再是Llama似的防守擾亂閉源對手式的開源,而是一種能帶來明確收益的競爭策略。

月之暗面最近傳出內(nèi)部“把SOTA(state-of-the-art)結(jié)果做為目標(biāo)”,看起來是最接近這種新的開源模式的策略,要開的是最強的模型,最強的架構(gòu)方法,這樣反而會得到它一直渴望的在應(yīng)用側(cè)的影響力。

根據(jù)兩家的論文,MoBA已經(jīng)用在月之暗面的模型和產(chǎn)品上,NSA也一樣,它甚至讓外界可以對DeepSeek接下來的模型有更明確預(yù)期。于是接下來的看點就是,月之暗面和DeepSeek用MoBA和 NSA各自訓(xùn)練出的下一代模型,要不要再撞車一次,并且還是以開源的方式——這可能也是月之暗面在等待著的那個節(jié)點。

本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個人觀點,不代表創(chuàng)業(yè)邦立場,轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn。

反饋
聯(lián)系我們
推薦訂閱