楊植麟和梁文鋒，論文撞車了

硅星人·2025-02-20

當兩個創(chuàng)始人把自己的名字寫進論文里。

編者按：本文來自微信公眾號硅星人Pro（ID：Si-Planet），作者：王兆洋，創(chuàng)業(yè)邦經授權轉載。

01

在馬斯克發(fā)布了他用20萬張卡訓出的Grok3的同一天，兩篇與馬氏大力出奇跡“相反”路線的論文也發(fā)表在了技術社區(qū)。

在這兩篇論文的作者名目里，各自有一個大家熟悉的名字：

梁文鋒，楊植麟。

2月18日，DeepSeek和月之暗面幾乎同時發(fā)布了他們各自最新的論文，而主題直接“撞車”——都是挑戰(zhàn)Transformer架構最核心的注意力機制，讓它能更高效的處理更長的上下文。而更有趣的是，兩家公司的技術派明星創(chuàng)始人的名字出現(xiàn)在各自的論文和技術報告里。

DeepSeek 發(fā)布的論文，標題名為：《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》。

根據論文，它提出的新架構NSA（原生稀疏注意力）在基準測試中，與全注意力機制相比，準確率相同或更高；處理 64k 標記序列時，速度可提高至 11.6 倍，訓練也更高效，所需算力更少；在處理超長上下文的任務（如書籍摘要、代碼生成、推理任務）中表現(xiàn)出色。

與此前人們津津樂道的算法上的創(chuàng)新相比，DeepSeek這一次把手伸向了最核心的注意力機制（attention）的改造上。

Transformer是今天所有大模型繁榮的基礎，但它的核心算法注意力機制依然有先天的問題：拿讀書做比喻，傳統(tǒng)的“全注意力機制”為了理解和生成，會閱讀文本里的每個詞，并拿它與其他所有詞作比較。這樣導致處理文本越長它越復雜，技術越卡，甚至崩潰。

此前學術界一直在提供各種解決的思路，NSA通過真實環(huán)境的工程優(yōu)化和實驗，組裝出了一個由三個環(huán)節(jié)組成的可以用在訓練階段的架構方案：

它包括，1）語義壓縮——不再是看每個詞，而是分成一個組，也就是“塊”，在保留全局語義的同時將序列長度縮減至1/k，同時引入位置編碼來降低信息的損耗，進而將計算復雜度從O(n2)降為O(n2/k)。

2）動態(tài)選擇——模型以某種得分判斷機制，從文本中挑出最多關注的詞，對它們進行細粒度的計算。這種重要性采樣策略在減少75%計算量的情況下仍能保持98%的細粒度信息。

3）滑動窗口——前兩者是摘要和劃重點的話，滑動窗口就是查看最近的上下文信息，這樣可以保持連貫性，而通過硬件級顯存復用技術可以將內存訪問頻次降低40%。

這些思路每一個都不是DeepSeek的發(fā)明，但可以把它想象成ASML式的工作——這些技術元素已經存在，散落在各處，但工程上把它們組合在一起成為一個可以規(guī)模化的方案，新的算法架構，還沒人做過?，F(xiàn)在有人通過強大的工程能力做出來了一臺“光刻機”，其他人可以用這個來在真實工業(yè)環(huán)境里訓練模型。

而月之暗面在同天發(fā)布的論文，提出了一個在核心思想上非常一致的架構：MoBA。（MoBA: MIXTURE OF BLOCK ATTENTION FOR LONG-CONTEXT LLMS）

從它的名字就可以看到，它同樣使用了把“詞”變成塊的方法。在“切塊”后，MoBA 里有個像 “智能篩選員” 一樣的門控網絡，它負責挑選與一個“塊”最相關的 Top-K 個塊，只對這些選中的塊計算注意力。在實際實現(xiàn)過程中，MoBA 還結合了 FlashAttention（能讓注意力計算更高效）和 MoE（專家混合模型）的優(yōu)化手段。

與NSA相比，它更強調靈活性，沒有完全離開現(xiàn)在最主流的全注意力機制，而是設計了一套可以自由切換的方式，讓這些模型可以在全注意力和稀疏注意力機制之間切換，給已有的全注意力的模型更多的適配空間。

根據論文，MoBA的計算復雜度隨著上下文長度增加而優(yōu)勢明顯。在1M token的測試中，MoBA比全注意力快了6.5倍；到10M token時，則提速16倍。而且，它已經在Kimi的產品中使用，用來處理日常用戶們的超長上下文的處理需求。

楊植麟最初創(chuàng)辦月之暗面受到關注的一個重要原因，是他的論文影響力和引用量，但K1.5論文之前，他最后一篇論文類的研究停留在2024年1月。而梁文鋒雖然作為作者出現(xiàn)在DeepSeek最重要的模型技術報告里，但這些報告的作者名錄幾乎相當于DeepSeek的員工名錄，幾乎所有人都列在里面。而NSA的論文作者則只有幾人。由此可以看出這兩個工作對這兩家公司創(chuàng)始人來說的重要性，以及對了解這兩家公司技術路線的意義。

另一個可以為這種重要性做注腳的細節(jié)是，有網友發(fā)現(xiàn)，arxiv 上NSA這篇論文的提交記錄顯示，它在2月16日提交，提交者正是梁文鋒自己。

02

這不是月之暗面和DeepSeek第一次“撞車”。在R1發(fā)布的同時，Kimi難得的發(fā)布了K 1.5的技術報告，此前這家公司并不以對外展示它的技術思考為優(yōu)先重點。當時這兩篇論文同時把目標瞄準了RL推動的推理模型。事實上，仔細閱讀這兩篇技術報告，在K1.5的論文里，月之暗面對如何訓練一個推理模型做了更詳細的分享，甚至單從信息度和細節(jié)程度上，它是高過R1論文的。但之后DeepSeek的風潮掩蓋掉了不少對這篇論文本身的討論。

一個可以作為印證的，是OpenAI最近難得發(fā)布的一篇對其o系列模型推理能力講解的論文里，同時點了DeepSeek R1和Kimi k1.5的名字?！癉eepSeek-R1和Kimi k1.5通過獨立研究顯示，利用思維鏈學習（COT）方法，可顯著提升模型在數(shù)學解題與編程挑戰(zhàn)中的綜合表現(xiàn)?！币簿褪钦f，這是OpenAI自己選來用來對比的兩個推理模型。

“大模型這套架構最神奇的一點我感覺就是它似乎自己就指出了前進的路線，讓不同的人從不同的角度得出了相似的前進方向。”

參與了MoBa核心研究的清華大學教授章明星在知乎上分享。

他還提供了一個很有趣的對比。

“DeepSeek R1 和 Kimi K1.5 都指向了 ORM based RL，不過 R1 從 Zero 開始，更加“存粹”或者說“l(fā)ess structure”一些，上線更早，同步開源模型。

Kimi MoBA 和 DeepSeek NSA 再一次都指向了可以反向傳遞的 learned sparse attention，這一次 MoBA 更加 less structure 一些，上線更早，同步開源代碼。”

這兩家的連續(xù)“撞車”有助于人們對比著更好理解強化學習的技術發(fā)展，以及更高效更長文本的注意力機制的進化方向。

“結合 R1 和 K1.5 一起看能更好的學習 Reasoning Model 怎么訓一樣，結合 MoBA 和 NSA 一起看能從不同側面更好的理解我們對于——Attention 中 sparsity 應當存在而且可以通過端到端訓練習得——的相信?！闭旅餍菍懙健?/p>

03

在MoBA發(fā)布后，月之暗面的許欣然也在社交媒體上稱，這是一個做了一年半的工作，現(xiàn)在開發(fā)者可以開箱即用。

而選擇此刻開源注定還是會被放在DeepSeek的“陰影”里討論。有意思的是，在各家積極接入DeepSeek和開源自己的模型的今天，外界似乎總在第一時間想到月之暗面，對于Kimi是否會接入、模型是否會開源的討論不停，月之暗面和豆包似乎成了兩個僅剩的“異類”。

而現(xiàn)在看來，DeepSeek對月之暗面的影響相比其他玩家是更加持續(xù)的，它帶來了從技術路線到用戶爭奪全方位的挑戰(zhàn)：一方面它證明了哪怕是進入到產品的競爭上，基礎模型能力也依然是最重要的；另外，今天越來越清晰的另一個連鎖反應是，騰訊的微信搜索和元寶的組合拳，正借DeepSeek R1的勢頭補上一次它之前錯過的營銷投放戰(zhàn)，最終也是沖著Kimi和豆包而來。

月之暗面的應對思路也就變得引人注目。其中開源是必須要做的一步。而看起來月之暗面的選擇，是想要真正匹配DeepSeek的開源思路——目前在DeepSeek后出現(xiàn)的諸多開源大部分像是應激反應，它們還是用此前Llama時期的開源思路來跟隨。事實上DeepSeek的開源與此前的已經不同，不再是Llama似的防守擾亂閉源對手式的開源，而是一種能帶來明確收益的競爭策略。

月之暗面最近傳出內部“把SOTA（state-of-the-art）結果做為目標”，看起來是最接近這種新的開源模式的策略，要開的是最強的模型，最強的架構方法，這樣反而會得到它一直渴望的在應用側的影響力。

根據兩家的論文，MoBA已經用在月之暗面的模型和產品上，NSA也一樣，它甚至讓外界可以對DeepSeek接下來的模型有更明確預期。于是接下來的看點就是，月之暗面和DeepSeek用MoBA和 NSA各自訓練出的下一代模型，要不要再撞車一次，并且還是以開源的方式——這可能也是月之暗面在等待著的那個節(jié)點。

本文為專欄作者授權創(chuàng)業(yè)邦發(fā)表，版權歸原作者所有。文章系作者個人觀點，不代表創(chuàng)業(yè)邦立場，轉載請聯(lián)系原作者。如有任何疑問，請聯(lián)系editor@cyzone.cn。