米哈游騰訊投的AI獨(dú)角獸火出圈，背后竟有心動(dòng)的人？

游戲葡萄·2025-01-25

堅(jiān)持做有價(jià)值的事，一定會(huì)有意義。

編者按：本文來(lái)自微信公眾號(hào) 游戲葡萄（ID：youxiputao），作者：以撒，創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

年關(guān)將至，AI業(yè)界卷王輩出，好幾家公司都在最近拿出了重量級(jí)的大模型。雖然很熱鬧，不過(guò)放在平時(shí)，你可能會(huì)覺(jué)得這和游戲公司沒(méi)什么太大的聯(lián)系。

但這次的情況不太一樣：在被稱為「新一代國(guó)產(chǎn)LLM之光」的大模型背后，我們聽(tīng)到一個(gè)特別神奇的，和游戲行業(yè)有千絲萬(wàn)縷聯(lián)系的故事。

1月15日，MiniMax發(fā)布了公司首個(gè)開源模型——MiniMax-01系列，首次在4000億以上參數(shù)的大模型中，使用了不同于傳統(tǒng)Transformer架構(gòu)的線性Attention機(jī)制架構(gòu)，能高效處理的上下文長(zhǎng)達(dá)400萬(wàn)token，達(dá)到了全球最長(zhǎng)的水平。

這個(gè)成果是什么概念？你可以理解為，MiniMax大膽地在商用級(jí)別規(guī)模上，驗(yàn)證了一條前人沒(méi)走通的路，結(jié)果不僅讓AI大模型的“記憶”被延長(zhǎng)到了一個(gè)相當(dāng)可觀的程度，且成本還比GPT-4o低10倍。所以海外不乏對(duì)MiniMax-01的熱議甚至贊美，還有人稱其為“來(lái)自中國(guó)的AI變革”。

與此同時(shí)，也有人從MiniMax發(fā)表的論文中注意到，這次突破所使用的核心架構(gòu)——以Lightning Attention為主的架構(gòu)，早在數(shù)年前就有人開始發(fā)表相關(guān)論文。這個(gè)人叫秦臻，他的框架理論從2022年到2024年不斷更新，第一作者全是他。在新模型的相關(guān)論文中，MiniMax大量引述了他的研究成果。

這就引出了第一件神奇的事：有人順藤摸瓜，發(fā)現(xiàn)秦臻竟然并非AI創(chuàng)業(yè)公司的人，而是在心動(dòng) TapTap 增長(zhǎng)和商業(yè)化部門（IEM）下的AI團(tuán)隊(duì)擔(dān)任算法研究員，研究高效序列建模方法。

更巧的是，MiniMax這家成立于2021年的AI獨(dú)角獸，背后也站著游戲公司：2023年，米哈游、騰訊都曾參股MiniMax，次年米哈游又追加了一輪投資——不過(guò)，這真的只是巧合，和背后游戲公司的關(guān)系毫無(wú)關(guān)聯(lián)。因?yàn)镸iniMax也一直在研究線性Attention這條路線。只不過(guò)秦臻的研究成果，恰好為他們提供了重要的理論支撐。

問(wèn)題在于，心動(dòng)不能說(shuō)和AI毫無(wú)聯(lián)系，但也實(shí)在沒(méi)太多牽扯；即便有所涉獵，研究條件、深度想來(lái)也很難比得上專業(yè)AI團(tuán)隊(duì)……他們?yōu)槭裁磿?huì)招到這樣的人？為什么會(huì)搞出這樣的研究成果？

通過(guò)心動(dòng)，葡萄君聯(lián)系上了秦臻，以及他的同事，TapTap IEM AI算法組的Leader 賴?guó)櫜?/p>

他們聊到了第二件神奇的事：秦臻此前在商湯科技工作，在小組被解散之后，他也曾向各種大廠投遞過(guò)簡(jiǎn)歷。但他沒(méi)選擇資源豐厚的大廠，最終卻和TapTap來(lái)了個(gè)雙向奔赴。

在AI領(lǐng)域，TapTap 倒是很早就有所行動(dòng)，負(fù)責(zé)人戴云杰早在2021年就于Slack上表示過(guò)，要關(guān)注相關(guān)技術(shù)、推動(dòng)投入研究資源。

但光看團(tuán)隊(duì)背景的話，這依然有點(diǎn)不可思議——一直以來(lái)，TapTap 的AI部門實(shí)際上沒(méi)有所謂的“主線任務(wù)”，公司只是抱著長(zhǎng)期主義的態(tài)度，覺(jué)得AI值得提前探索和投入，因此對(duì)團(tuán)隊(duì)也沒(méi)有太多要求，只是鼓勵(lì)他們多做一些探索性的嘗試，無(wú)論是做算法設(shè)計(jì)，還是結(jié)合App、游戲。為了讓團(tuán)隊(duì)安心探索，據(jù)說(shuō)他們還有一條制度：無(wú)論產(chǎn)出如何，都不會(huì)存在M-績(jī)效。

而秦臻的存在就顯得更為特殊：部門的算力資源當(dāng)然比不上大廠，能支持他做研究的顯卡不多，雖然可以小規(guī)模驗(yàn)證想法，但肯定支撐不了商用級(jí)別規(guī)模的LLM驗(yàn)證；公司角度呢，秦臻研究的線性Transformer架構(gòu)，實(shí)際上也和心動(dòng)的游戲業(yè)務(wù)沒(méi)有太大聯(lián)系，很難說(shuō)會(huì)對(duì)業(yè)務(wù)增長(zhǎng)有真正的幫助。

但第三件神奇的事，卻正是由這些神奇的人和事匯集而成：在業(yè)務(wù)關(guān)聯(lián)不大的情況下，TapTap一直支持著AI部門的探索，秦臻也堅(jiān)持把線性Transformer架構(gòu)鉆研了下去。最終，他的多篇論文被發(fā)布于頂刊，被持續(xù)研究相關(guān)技術(shù)的MiniMax引用、發(fā)揚(yáng)光大，做出了國(guó)產(chǎn)LLM的一次重要嘗試和突破。

和他們聊過(guò)之后，我更加覺(jué)得，少了任何一個(gè)巧妙的因素，這件事可能都發(fā)展不到這個(gè)地步。但有時(shí)候，這種重大的突破，可能就是和游戲研發(fā)一樣，需要更多的耐心、更包容的環(huán)境以及長(zhǎng)期主義，來(lái)支撐那些有動(dòng)力堅(jiān)持探索的人，去把有價(jià)值的事做下去。

就像秦臻和我們說(shuō)的，他相信：如果你做的事真的很有價(jià)值，最后一定會(huì)有它被用上的一天。

以下為對(duì)話的內(nèi)容實(shí)錄：

01大廠難落地的項(xiàng)目，換個(gè)地方生根發(fā)芽

葡萄君：你是怎么來(lái)到TapTap的？

秦臻：在上一家公司的小組解散后，我看過(guò)一些大模型公司和大廠的機(jī)會(huì)。我那時(shí)的目標(biāo)還不是很明確，但對(duì)之前做的線性Attention方向比較感興趣，也比較擅長(zhǎng)這件事，所以就想找個(gè)地方繼續(xù)研究。

2023年初聊下來(lái)一圈，我感覺(jué)大廠唯一的好處就是資源會(huì)更多，但規(guī)章制度會(huì)相對(duì)死板，給你的自由發(fā)揮度比較小。和TapTap聊過(guò)之后，我覺(jué)得這邊會(huì)提供一個(gè)相對(duì)寬松自由的氛圍?？陀^來(lái)說(shuō)，對(duì)于做Research這件事，TapTap提供的算力也絕對(duì)充足——因?yàn)榧词乖诖髲S，這件事也很難推動(dòng)。綜合考慮，我最后選擇了TapTap。

葡萄君：是不是大廠們不太關(guān)注這個(gè)方向，你們聊不到一塊？

秦臻：我一般都會(huì)介紹我做過(guò)的一些工作，大部分人也算是有興趣，但真正指望落地還是比較困難的。因?yàn)楫?dāng)時(shí)算是大模型的混沌階段、古早時(shí)期，大家可能還是想先追趕LLaMA之類的模型。

葡萄君：線性Attention在早期的潛力還沒(méi)有被驗(yàn)證，那時(shí)會(huì)不會(huì)有面試官覺(jué)得你在吹牛？

秦臻：還好，因?yàn)閷W(xué)術(shù)論文的論點(diǎn)不會(huì)那么大，只是表明它會(huì)在某些場(chǎng)景下可能有優(yōu)勢(shì)，沒(méi)人會(huì)想著用這個(gè)替代大模型。而且論文總歸會(huì)有一些亮點(diǎn)，否則也發(fā)不出去。

葡萄君：AI大廠都涉獵不深，TapTap為什么會(huì)接觸到這種技術(shù)？

賴?guó)櫜?/strong>2020年GPT-3面世時(shí)，TapTap 負(fù)責(zé)人戴云杰就關(guān)注到了大語(yǔ)言模型，并開始思考技術(shù)突破可能帶來(lái)哪些新的變化。在2023年，必應(yīng)發(fā)布了第一款GPT應(yīng)用New Bing后，TapTap 也嘗試做了類似的游戲AI交互式搜索。

戴云杰早期對(duì)GPT-3的關(guān)注

后來(lái)開始在市場(chǎng)上篩選目標(biāo)候選人，招聘了大半年都沒(méi)有合適的簡(jiǎn)歷，直到后來(lái)篩到了秦臻。

當(dāng)時(shí)我們的感受是，秦臻有很好的學(xué)術(shù)審美，知道自己該做什么。這個(gè)方向雖然與業(yè)務(wù)沒(méi)有直接關(guān)聯(lián)，但是最關(guān)鍵的事是要follow前沿，保持與學(xué)術(shù)、工業(yè)界的交流，不要掉隊(duì)。所以我們決定，一定要有一個(gè)這樣的人才來(lái)帶著我們?nèi)プ鲆恍┣把匮芯俊?/p>

葡萄君：你們聊得怎么樣？

賴?guó)櫜?/strong>雙方都很愉快，很快就敲定了。他講的線性Attention，我們大概能get到。而且這個(gè)研究成本我們能cover住，也能很好地follow到學(xué)術(shù)前沿。

另一方面，做這個(gè)方向的人本來(lái)就不多，而秦臻可以說(shuō)就是專家，也有很強(qiáng)的自驅(qū)力。如果他真的跑通了，即使TapTap不能落地超大參數(shù)量模型，我們也可以用相對(duì)可控的成本，去做一個(gè)可能符合自己業(yè)務(wù)場(chǎng)景的模型，這是一個(gè)長(zhǎng)遠(yuǎn)規(guī)劃。

葡萄君：公司給你的資源真的夠用嗎？

秦臻：對(duì)于做Research來(lái)說(shuō)，絕對(duì)是充足的，很多高校的實(shí)驗(yàn)室，據(jù)我所知一般都沒(méi)有這種資源。只不過(guò)你要大規(guī)模驗(yàn)證，又是完全不夠用的狀態(tài)。

這就是心動(dòng)和大廠的一個(gè)區(qū)別——你在大廠可能能得到很多資源，但是發(fā)揮空間很小。而且因?yàn)槿撕芏?，你一次性能調(diào)動(dòng)的資源，可能沒(méi)有想象的那么多。比如一個(gè)組內(nèi)大幾千張顯卡，但首先訓(xùn)練大模型的人占了大部分，幾個(gè)組一分，到最后你自己探索的卡，可能也就是百?gòu)埖牧考?jí)，沒(méi)有本質(zhì)的區(qū)別。

賴?guó)櫜?/strong>：我們團(tuán)隊(duì)也認(rèn)真討論過(guò)，有這些卡夠不夠、用來(lái)干嘛，以及要不要加。

討論的結(jié)果是，我們需要克制地去看待和發(fā)展AI，讓自己不會(huì)掉隊(duì)，而不是要一開始就梭哈AI。正是這種克制，才使得秦臻最后能跑出來(lái)。我們比的不是誰(shuí)資源更多，而是誰(shuí)能做得更久。

葡萄君：在這么混沌的領(lǐng)域搞探索，你們團(tuán)隊(duì)會(huì)覺(jué)得迷?；蚱D難嗎？

賴?guó)櫜?/strong>無(wú)論是我們還是其他人，在做AI應(yīng)用的情況下，都會(huì)有點(diǎn)迷茫的。你會(huì)發(fā)現(xiàn)在技術(shù)上、落地上，都有很多的不可行，投入產(chǎn)出都需要評(píng)估，這對(duì)一個(gè)獨(dú)立團(tuán)隊(duì)來(lái)說(shuō)是比較痛苦的。

在秦臻來(lái)之前，我們做過(guò)各種應(yīng)用探索，沒(méi)有特別明確的主線，也是因?yàn)榇蟛糠质虑槎紵o(wú)法成為主線。

葡萄君：未知數(shù)太多，可能是AI研究魅力和痛苦的共同來(lái)源。

賴?guó)櫜?/strong>是的，所以去年，我們團(tuán)隊(duì)的Leader李昀澤定下了基調(diào)，他期望大家按照自己的興趣去研究。先有了符合自己認(rèn)知的需求和場(chǎng)景，再去實(shí)現(xiàn)落地，方向就會(huì)變得明確。而且我們團(tuán)隊(duì)和公司給的氛圍，也是以自由度和自驅(qū)為主，讓專業(yè)的人去做專業(yè)的事。這也比較符合心動(dòng)與TapTap的文化。

02你不可能永遠(yuǎn)領(lǐng)先，但也不會(huì)永遠(yuǎn)落后

葡萄君：MiniMax的大模型，實(shí)現(xiàn)了上下文400萬(wàn)token，這是什么樣的一個(gè)概念？

秦臻：技術(shù)背景上，Transformer的核心模塊是Attention，它的復(fù)雜度和上下文長(zhǎng)度是平方關(guān)系，也就是說(shuō)400萬(wàn)的長(zhǎng)度，需要400萬(wàn)平方的算力成本。之前大家不會(huì)做那么長(zhǎng)，根本原因就是成本扛不住。

但假設(shè)你把Attention換成線性的，成本會(huì)變成400萬(wàn)。而MiniMax使用混合模型后，線性比例是7/8，也就是說(shuō)它的成本約等于（7/8×4000000）+（1/8×4000000^2），這遠(yuǎn)遠(yuǎn)低于純Attention的成本。

另外，能訓(xùn)到這么大，意味著它有Scaling能力。一直以來(lái)沒(méi)有公司去做這件事，就是因?yàn)閾?dān)心Scaling會(huì)失敗，這樣你訓(xùn)練的那些成本可能就白費(fèi)了，所以MiniMax能付出這樣的勇氣去走通這條路，還是非常有前瞻性、讓人敬佩的。

葡萄君：這件事的實(shí)現(xiàn)，可能對(duì)AI發(fā)展有什么樣的影響？

秦臻：從去年年初到年中，混合模型在學(xué)術(shù)界一直有所討論，但規(guī)模一般都不是特別大，大概就是LLaMA 7B、13B的級(jí)別。大模型團(tuán)隊(duì)肯定也有業(yè)績(jī)壓力，訓(xùn)一個(gè)月模型，最后發(fā)現(xiàn)不work？大部分人都沒(méi)有勇氣做這種事。

現(xiàn)在MiniMax可以說(shuō)是跑通了，之后大家可能會(huì)去復(fù)現(xiàn)這個(gè)事情。同時(shí)它也會(huì)引起工業(yè)界的關(guān)注度，因?yàn)橹按蠹視?huì)覺(jué)得，相比真正的大模型來(lái)說(shuō)，線性Attention還是一個(gè)學(xué)術(shù)玩具級(jí)別的東西。但是當(dāng)一家公司把混合模型在商用規(guī)模上跑通之后，事情就不一樣了。

MiniMax 01模型的混合架構(gòu)

葡萄君：它能降低的成本，大概是一個(gè)什么樣的量級(jí)？

秦臻：理論上，假設(shè)之前的成本是N^2，現(xiàn)在則是（1-P）*N+P*N^2，這個(gè)P你可以取得很小。在P=1/8的時(shí)候，它看起來(lái)還沒(méi)有降得特別明顯，但假設(shè)P=1%，你的N又比較長(zhǎng)，可能就會(huì)降100倍。

葡萄君：基數(shù)越大，省得就越多。

賴?guó)櫜?/strong>是的，大模型的參數(shù)，平方關(guān)系下很容易乘數(shù)爆炸。400B的模型，再平方一下就是天文數(shù)字。所以大家為了降低成本做了很多工作，從FlashAttention到線性Attention，都是為了把復(fù)雜度降低，先有理論上的可能，最終變成實(shí)際工業(yè)中可投產(chǎn)的技術(shù)。

葡萄君：秦臻是從多早開始關(guān)注這種技術(shù)方向的？

秦臻：從2021年下半年開始，我在上一家公司就在做這個(gè)方向，到現(xiàn)在已經(jīng)三年半了。也是機(jī)緣巧合，在幾條路線中正好選到這個(gè)方向。中間一段時(shí)間，我嘗試過(guò)其他方案，最后發(fā)現(xiàn)有的方案不太行，有的方案是殊途同歸，最后還是選擇了線性Attention。這個(gè)方法它首先比較有趣，其次復(fù)雜度也是最低的，后面就一直做下去了。

葡萄君：有趣在哪？

秦臻：在算法設(shè)計(jì)上，它是一個(gè)普適的想法，能應(yīng)用到很多乍一看不相關(guān)的領(lǐng)域，相當(dāng)于你不止研究了算法，還學(xué)會(huì)了一種設(shè)計(jì)思路。另一方面，研究這個(gè)領(lǐng)域，也能讓我和那些喜歡這種算法之美的有趣同行交流。

葡萄君：線性Attention方面的研究成果，這幾年你是如何思考研究方向的？

秦臻：大家公認(rèn)的第一篇提出線性Transformer的論文，是在2020~2021年間發(fā)布的。大概從這時(shí)到ChatGPT面世之前，將近兩年時(shí)間，相關(guān)文章都搜不到幾篇。大家對(duì)這塊的理解也不夠深——現(xiàn)在很多人知道的Mamba模型，它的核心是狀態(tài)空間模型（State Space Model, SSM），也是21年左右提出雛形的，現(xiàn)在看來(lái)和線性Attention是一個(gè)東西，只不過(guò)那時(shí)候大家互不知曉。

到2023年ChatGPT面世，線性Attention的關(guān)注度逐漸上升了一點(diǎn)。Lightning Attention就是在2023年下半年開始做的，同期也有不少類似的工作，包括Mamba，我看到之后，就感覺(jué)這個(gè)東西后面肯定會(huì)火，只是它火的程度超出我的預(yù)期了。

在那段時(shí)間，我發(fā)現(xiàn)所謂的線性Attention以及另一個(gè)小方向，叫Linear RNN和SSM其實(shí)都是一回事。雖然設(shè)計(jì)時(shí)有區(qū)別，但最后在計(jì)算邏輯上基本完全等價(jià)。

這個(gè)發(fā)現(xiàn)讓我有點(diǎn)開心，也有點(diǎn)擔(dān)心。開心在于，如果說(shuō)你從很多不同方向去研究一件事，發(fā)現(xiàn)最后的方案收斂了，那收斂的結(jié)果應(yīng)該是蠻有價(jià)值的；而擔(dān)憂在于，如果未來(lái)大家都一樣了，后面的區(qū)別到底在哪里呢？

之后直到2023年底，我也嘗試訓(xùn)練過(guò)線性Attention架構(gòu)。雖然那時(shí)有幾個(gè)團(tuán)隊(duì)，能把線性Attention做到7B、13B這種規(guī)模，但是距離真正的LLM，肯定還是有差距的。

葡萄君：做不起來(lái)的主要問(wèn)題出在哪？

秦臻：我當(dāng)時(shí)的認(rèn)知是，檢索是推理的前置條件，我們一般讓模型有推理能力會(huì)通過(guò)添加很長(zhǎng)的Prompt（即CoT），而Prompt起作用的前提是模型能完整記住prompt的內(nèi)容。假設(shè)你輸入一個(gè)很長(zhǎng)的Prompt，模型只能記住后面20%的位置，你這個(gè)Prompt就相當(dāng)于幾乎沒(méi)起作用。

我試過(guò)一些市面上開源的線性Attention模型，也試過(guò)自己設(shè)計(jì)模型，發(fā)現(xiàn)檢索能力都比較弱。做到這個(gè)時(shí)候，就感覺(jué)路還蠻難走的，因?yàn)楫?dāng)時(shí)既不知道線性Attention的未來(lái)是什么樣，又發(fā)現(xiàn)它有這樣的問(wèn)題，所以一度感覺(jué)走進(jìn)了死胡同。

葡萄君：行業(yè)可能也對(duì)這個(gè)方向信心不足。

秦臻：關(guān)于這個(gè)領(lǐng)域的未來(lái)，我自己也不清楚——你能不能拿固定大小的東西，記住任意長(zhǎng)度的上下文？這個(gè)問(wèn)題看起來(lái)是不太實(shí)際的。悲觀派就覺(jué)得，有限大小的東西，記憶能力肯定是有限的；樂(lè)觀派一方面覺(jué)得，記憶的大小、空間可能沒(méi)有你想的那么小，還有些人會(huì)拿人腦的儲(chǔ)存量與記憶能力做類比。

所以純線性Attention能不能做所謂的推理檢索任務(wù)，這應(yīng)該是個(gè)開放問(wèn)題，可能樂(lè)觀一點(diǎn)的人還會(huì)去嘗試。

葡萄君：你算是樂(lè)觀派嗎？

秦臻：我不算樂(lè)觀，但我肯定不悲觀。如果你想到比較有意思的idea，發(fā)現(xiàn)沒(méi)人做過(guò)，那至少試了才知道行不行。

賴?guó)櫜?/strong>技術(shù)發(fā)展往往是螺旋上升，總會(huì)有一些去修正與改進(jìn)，也不是說(shuō)所有研究都要一條道走到黑。從Transformer最早發(fā)布到現(xiàn)在，也有很多新的變化。

葡萄君：在這幾年的研究中，你有沒(méi)有碰到什么巨大的難點(diǎn)？

秦臻：剛?cè)腴T和入行比較久之后都碰到過(guò)。剛?cè)腴T時(shí)碰到的問(wèn)題是缺少idea，但這個(gè)階段還還比較好解決，因?yàn)樯抖疾欢?，接近白紙的狀態(tài)，盡管你會(huì)沒(méi)有什么想法，但是多讀同行的論文就行，至少會(huì)有一些嘗試的新方向。

因?yàn)槔碚撋?，一個(gè)領(lǐng)域A的方案也可以借鑒到領(lǐng)域B。閱讀量大了之后，你只會(huì)存在一個(gè)問(wèn)題，就是有沒(méi)有時(shí)間去嘗試、到底要試哪個(gè)，因?yàn)闀r(shí)間是有限的。

入行比較久之后，又是另一種艱難——你看不到太多新東西了。鉆研一兩年之后，發(fā)現(xiàn)大家都在同一個(gè)水平線上，你從別人的論文里得不到太多靈感。這時(shí)你可能會(huì)去看看古早時(shí)期的論文，像RNN這個(gè)領(lǐng)域，上世紀(jì)六七十年代的論文都有，但看多之后，又會(huì)發(fā)現(xiàn)好多所謂的新東西，其實(shí)是幾十年前的翻新。

在這個(gè)階段，我感覺(jué)沒(méi)有太多新的思路可以做?；蛘哒f(shuō)有一些新的，同行已經(jīng)在做了，我現(xiàn)在去做意義也不大。那段時(shí)間還是有點(diǎn)悲觀的，感覺(jué)純線性好像又沒(méi)什么用，那做什么呢？

葡萄君：你是怎么走出來(lái)的？

秦臻：有很多同行也在做類似的事，多看幾遍之后，確實(shí)會(huì)有一些新的靈感。你不可能永遠(yuǎn)領(lǐng)先，但也不會(huì)永遠(yuǎn)落后。只要一直保持探索、進(jìn)一步去閱讀，大家總歸會(huì)在類似的水平線上交流的。

賴?guó)櫜?/strong>這很像剛才那個(gè)心態(tài)問(wèn)題，我們做AI探索，一開始會(huì)很興奮，那個(gè)時(shí)候可以說(shuō)是真的愚昧之巔。到了去年，可能都落到了絕望之谷，這樣的曲線在我們行業(yè)很常見(jiàn)。我們也經(jīng)常會(huì)陷入自我否定、自我懷疑，但是又繼續(xù)去閱讀找靈感的狀態(tài)。

反正不管是應(yīng)用還是研究，應(yīng)該都是慢慢打磨出來(lái)的，急躁的心態(tài)很難做好。

03堅(jiān)持做有價(jià)值的事，一定有獨(dú)特的意義

葡萄君：你們覺(jué)得MiniMax為什么會(huì)先人一步注意到這種技術(shù)選型，還把它在這么大的一個(gè)規(guī)模上實(shí)現(xiàn)了？

秦臻：可能因?yàn)樗麄兪窃诖竽Ｐ屠顺敝皠?chuàng)立的公司，這類公司的特點(diǎn)就是，相比于浪潮之后的公司會(huì)更有一些技術(shù)信仰。

賴?guó)櫜?/strong>秦臻的工作驗(yàn)證了理論可能性，我們確實(shí)很佩服MiniMax愿意去嘗試，能真的把這個(gè)研究成果最終落地。因?yàn)?00B的模型，和我們做驗(yàn)證的難度不是一個(gè)量級(jí)的，他們也做了很多其他工作。

葡萄君：你看到他們的成果時(shí)，第一反應(yīng)是什么，會(huì)有一些哭笑不得嗎？

秦臻：不會(huì)，我很高興。因?yàn)槲沂紫戎溃赥apTap訓(xùn)那么大的模型肯定是不現(xiàn)實(shí)的。所以從個(gè)人角度，你看到你所提的方案，被應(yīng)用在這么大規(guī)模的模型里，肯定是會(huì)高興的。

另一方面，從領(lǐng)域發(fā)展的角度，大家之前覺(jué)得線性Attention在小規(guī)模下可以跑通，但一直沒(méi)有人有勇氣做到這么大，而MiniMax做到了非常關(guān)鍵的臨門一腳。我相信這會(huì)給行業(yè)注入新鮮血液，讓這個(gè)領(lǐng)域發(fā)展得更好。

葡萄君：站在圈外看熱鬧的視角，我感覺(jué)不了解事情的人是不是會(huì)有一種誤解——“心動(dòng)的研究成果被別人摘桃子了”。

秦臻：你只要發(fā)表了論文，那任何一家公司都可以使用其中的技術(shù)。當(dāng)你提出的技術(shù)被商業(yè)化落地，心情只有興奮。

賴?guó)櫜?/strong>或者說(shuō)，他們是在把我們提供的食材做成一道菜。我們也是滿滿的敬畏，而且樂(lè)于見(jiàn)到這樣的事情發(fā)生。

葡萄君：最近成果出現(xiàn)之后，是不是會(huì)有很多人來(lái)打聽(tīng)你？這會(huì)對(duì)你造成一些影響嗎？

秦臻：這個(gè)領(lǐng)域很小，之前的我相當(dāng)于小透明，現(xiàn)在可能會(huì)有一些領(lǐng)域外的同行對(duì)我好奇，畢竟我是在TapTap做Research，這是一個(gè)比較神奇的事情。

一些社群中對(duì)秦臻的討論

葡萄君：我有點(diǎn)好奇，你實(shí)際上是這個(gè)方向的翹楚，卻一直在當(dāng)小透明，會(huì)不會(huì)覺(jué)得心里有點(diǎn)憋屈？

秦臻：如果沒(méi)人關(guān)注，你心里不可能毫無(wú)波瀾。但我也想過(guò)這個(gè)問(wèn)題——如果你認(rèn)為你做的東西有價(jià)值，別人看不看沒(méi)那么重要。因?yàn)槿绻娴暮苡袃r(jià)值，最后一定會(huì)有它被用上的一天。

如果你真的這么想，也喜歡自己認(rèn)定的方向，就要盡量避免浮躁的心態(tài)。因?yàn)槟阕鲞@些事不是為了贏得更多的關(guān)注度，而是為了你認(rèn)定的價(jià)值去堅(jiān)持。如果有一天它真的落地了，那還是一個(gè)額外的驚喜。

賴?guó)櫜?/strong>無(wú)論有沒(méi)有人關(guān)注、成果如何，都能長(zhǎng)期做某一件事情，這也是秦臻作為Researcher的一個(gè)天賦，其他人很難維持這樣的心態(tài)。

葡萄君：在AI這個(gè)方向上，你們還有什么想做到的事情嗎？

賴?guó)櫜?/strong>第一，不要去過(guò)早地判斷，因?yàn)锳I領(lǐng)域的可能性，本身遠(yuǎn)超我們能做判斷的能力。

第二，我們希望順著這條路，在今年更多嘗試多模態(tài)大模型，支撐TapTap的業(yè)務(wù)，最好能在具體業(yè)務(wù)問(wèn)題上用自己的模型解決。今年，我們會(huì)想辦法去做1~2款應(yīng)用，同時(shí)也要保持投入保持韌性，接受失敗。在我們最終做完那一兩款之前，肯定是要再失敗N次的。

秦臻：從Research角度來(lái)說(shuō)，去年半年我在線性模型方向有點(diǎn)陷入低谷，但現(xiàn)在的理解更進(jìn)了一步，能嘗試的還蠻多的。比如，當(dāng)你的方案從方向A和方向B都升級(jí)過(guò)之后，那必然會(huì)得到一個(gè)更好的成果，但你不知道是方向A還是方向B起了作用，誰(shuí)是冗余的，這對(duì)我來(lái)說(shuō)就是一個(gè)值得研究的問(wèn)題。

葡萄君：對(duì)AI行業(yè)未來(lái)的發(fā)展，你們還有什么樣的展望嗎？

秦臻：從工業(yè)界角度來(lái)說(shuō)，這個(gè)領(lǐng)域就是OpenAI領(lǐng)跑，大家跟進(jìn)。所以除非OpenAI本身碰到很大困難，否則應(yīng)該還能再蓬勃發(fā)展一段時(shí)間。從我自己預(yù)測(cè)的角度來(lái)說(shuō)，我還是比較關(guān)心線性模型。假設(shè)真的能work，它能解鎖的場(chǎng)景真的很多。

但是關(guān)鍵在于，這事情有個(gè)悖論——就算沒(méi)跑通，因?yàn)樯疃葘W(xué)習(xí)的理論并沒(méi)有特別完善，你做了一個(gè)不work的研究，它實(shí)際上可能還是work的。所以除非你真把它做work了，才能證明它work；但你沒(méi)做work，卻不代表它一定不work。所以這個(gè)方向，可能還會(huì)有人持續(xù)去嘗試。

賴?guó)櫜?/strong>大模型行業(yè)就應(yīng)該在競(jìng)爭(zhēng)中發(fā)展，而大家最后都會(huì)變成技術(shù)都受益者。我們能保持follow，在某個(gè)時(shí)間節(jié)點(diǎn)來(lái)臨的時(shí)候有所準(zhǔn)備，那就是最好的結(jié)果。

本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表，版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn)，不代表創(chuàng)業(yè)邦立場(chǎng)，轉(zhuǎn)載請(qǐng)聯(lián)系原作者。如有任何疑問(wèn)，請(qǐng)聯(lián)系editor@cyzone.cn。