編者按:本文來(lái)自微信公眾號(hào) 游戲葡萄(ID:youxiputao),作者:以撒,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。
年關(guān)將至,AI業(yè)界卷王輩出,好幾家公司都在最近拿出了重量級(jí)的大模型。雖然很熱鬧,不過(guò)放在平時(shí),你可能會(huì)覺(jué)得這和游戲公司沒(méi)什么太大的聯(lián)系。
但這次的情況不太一樣:在被稱為「新一代國(guó)產(chǎn)LLM之光」的大模型背后,我們聽(tīng)到一個(gè)特別神奇的,和游戲行業(yè)有千絲萬(wàn)縷聯(lián)系的故事。
1月15日,MiniMax發(fā)布了公司首個(gè)開源模型——MiniMax-01系列,首次在4000億以上參數(shù)的大模型中,使用了不同于傳統(tǒng)Transformer架構(gòu)的線性Attention機(jī)制架構(gòu),能高效處理的上下文長(zhǎng)達(dá)400萬(wàn)token,達(dá)到了全球最長(zhǎng)的水平。
這個(gè)成果是什么概念?你可以理解為,MiniMax大膽地在商用級(jí)別規(guī)模上,驗(yàn)證了一條前人沒(méi)走通的路,結(jié)果不僅讓AI大模型的“記憶”被延長(zhǎng)到了一個(gè)相當(dāng)可觀的程度,且成本還比GPT-4o低10倍。所以海外不乏對(duì)MiniMax-01的熱議甚至贊美,還有人稱其為“來(lái)自中國(guó)的AI變革”。
與此同時(shí),也有人從MiniMax發(fā)表的論文中注意到,這次突破所使用的核心架構(gòu)——以Lightning Attention為主的架構(gòu),早在數(shù)年前就有人開始發(fā)表相關(guān)論文。這個(gè)人叫秦臻,他的框架理論從2022年到2024年不斷更新,第一作者全是他。在新模型的相關(guān)論文中,MiniMax大量引述了他的研究成果。
這就引出了第一件神奇的事:有人順藤摸瓜,發(fā)現(xiàn)秦臻竟然并非AI創(chuàng)業(yè)公司的人,而是在心動(dòng) TapTap 增長(zhǎng)和商業(yè)化部門(IEM)下的AI團(tuán)隊(duì)擔(dān)任算法研究員,研究高效序列建模方法。
更巧的是,MiniMax這家成立于2021年的AI獨(dú)角獸,背后也站著游戲公司:2023年,米哈游、騰訊都曾參股MiniMax,次年米哈游又追加了一輪投資——不過(guò),這真的只是巧合,和背后游戲公司的關(guān)系毫無(wú)關(guān)聯(lián)。因?yàn)镸iniMax也一直在研究線性Attention這條路線。只不過(guò)秦臻的研究成果,恰好為他們提供了重要的理論支撐。
問(wèn)題在于,心動(dòng)不能說(shuō)和AI毫無(wú)聯(lián)系,但也實(shí)在沒(méi)太多牽扯;即便有所涉獵,研究條件、深度想來(lái)也很難比得上專業(yè)AI團(tuán)隊(duì)……他們?yōu)槭裁磿?huì)招到這樣的人?為什么會(huì)搞出這樣的研究成果?
通過(guò)心動(dòng),葡萄君聯(lián)系上了秦臻,以及他的同事,TapTap IEM AI算法組的Leader 賴?guó)櫜?/p>
他們聊到了第二件神奇的事:秦臻此前在商湯科技工作,在小組被解散之后,他也曾向各種大廠投遞過(guò)簡(jiǎn)歷。但他沒(méi)選擇資源豐厚的大廠,最終卻和TapTap來(lái)了個(gè)雙向奔赴。
在AI領(lǐng)域,TapTap 倒是很早就有所行動(dòng),負(fù)責(zé)人戴云杰早在2021年就于Slack上表示過(guò),要關(guān)注相關(guān)技術(shù)、推動(dòng)投入研究資源。
但光看團(tuán)隊(duì)背景的話,這依然有點(diǎn)不可思議——一直以來(lái),TapTap 的AI部門實(shí)際上沒(méi)有所謂的“主線任務(wù)”,公司只是抱著長(zhǎng)期主義的態(tài)度,覺(jué)得AI值得提前探索和投入,因此對(duì)團(tuán)隊(duì)也沒(méi)有太多要求,只是鼓勵(lì)他們多做一些探索性的嘗試,無(wú)論是做算法設(shè)計(jì),還是結(jié)合App、游戲。為了讓團(tuán)隊(duì)安心探索,據(jù)說(shuō)他們還有一條制度:無(wú)論產(chǎn)出如何,都不會(huì)存在M-績(jī)效。
而秦臻的存在就顯得更為特殊:部門的算力資源當(dāng)然比不上大廠,能支持他做研究的顯卡不多,雖然可以小規(guī)模驗(yàn)證想法,但肯定支撐不了商用級(jí)別規(guī)模的LLM驗(yàn)證;公司角度呢,秦臻研究的線性Transformer架構(gòu),實(shí)際上也和心動(dòng)的游戲業(yè)務(wù)沒(méi)有太大聯(lián)系,很難說(shuō)會(huì)對(duì)業(yè)務(wù)增長(zhǎng)有真正的幫助。
但第三件神奇的事,卻正是由這些神奇的人和事匯集而成:在業(yè)務(wù)關(guān)聯(lián)不大的情況下,TapTap一直支持著AI部門的探索,秦臻也堅(jiān)持把線性Transformer架構(gòu)鉆研了下去。最終,他的多篇論文被發(fā)布于頂刊,被持續(xù)研究相關(guān)技術(shù)的MiniMax引用、發(fā)揚(yáng)光大,做出了國(guó)產(chǎn)LLM的一次重要嘗試和突破。
和他們聊過(guò)之后,我更加覺(jué)得,少了任何一個(gè)巧妙的因素,這件事可能都發(fā)展不到這個(gè)地步。但有時(shí)候,這種重大的突破,可能就是和游戲研發(fā)一樣,需要更多的耐心、更包容的環(huán)境以及長(zhǎng)期主義,來(lái)支撐那些有動(dòng)力堅(jiān)持探索的人,去把有價(jià)值的事做下去。
就像秦臻和我們說(shuō)的,他相信:如果你做的事真的很有價(jià)值,最后一定會(huì)有它被用上的一天。
以下為對(duì)話的內(nèi)容實(shí)錄:
01大廠難落地的項(xiàng)目,換個(gè)地方生根發(fā)芽
葡萄君:你是怎么來(lái)到TapTap的?
秦臻:在上一家公司的小組解散后,我看過(guò)一些大模型公司和大廠的機(jī)會(huì)。我那時(shí)的目標(biāo)還不是很明確,但對(duì)之前做的線性Attention方向比較感興趣,也比較擅長(zhǎng)這件事,所以就想找個(gè)地方繼續(xù)研究。
2023年初聊下來(lái)一圈,我感覺(jué)大廠唯一的好處就是資源會(huì)更多,但規(guī)章制度會(huì)相對(duì)死板,給你的自由發(fā)揮度比較小。和TapTap聊過(guò)之后,我覺(jué)得這邊會(huì)提供一個(gè)相對(duì)寬松自由的氛圍??陀^來(lái)說(shuō),對(duì)于做Research這件事,TapTap提供的算力也絕對(duì)充足——因?yàn)榧词乖诖髲S,這件事也很難推動(dòng)。綜合考慮,我最后選擇了TapTap。
葡萄君:是不是大廠們不太關(guān)注這個(gè)方向,你們聊不到一塊?
秦臻:我一般都會(huì)介紹我做過(guò)的一些工作,大部分人也算是有興趣,但真正指望落地還是比較困難的。因?yàn)楫?dāng)時(shí)算是大模型的混沌階段、古早時(shí)期,大家可能還是想先追趕LLaMA之類的模型。
葡萄君:線性Attention在早期的潛力還沒(méi)有被驗(yàn)證,那時(shí)會(huì)不會(huì)有面試官覺(jué)得你在吹牛?
秦臻:還好,因?yàn)閷W(xué)術(shù)論文的論點(diǎn)不會(huì)那么大,只是表明它會(huì)在某些場(chǎng)景下可能有優(yōu)勢(shì),沒(méi)人會(huì)想著用這個(gè)替代大模型。而且論文總歸會(huì)有一些亮點(diǎn),否則也發(fā)不出去。
葡萄君:AI大廠都涉獵不深,TapTap為什么會(huì)接觸到這種技術(shù)?
賴?guó)櫜?/strong>2020年GPT-3面世時(shí),TapTap 負(fù)責(zé)人戴云杰就關(guān)注到了大語(yǔ)言模型,并開始思考技術(shù)突破可能帶來(lái)哪些新的變化。在2023年,必應(yīng)發(fā)布了第一款GPT應(yīng)用New Bing后,TapTap 也嘗試做了類似的游戲AI交互式搜索。
戴云杰早期對(duì)GPT-3的關(guān)注
后來(lái)開始在市場(chǎng)上篩選目標(biāo)候選人,招聘了大半年都沒(méi)有合適的簡(jiǎn)歷,直到后來(lái)篩到了秦臻。
當(dāng)時(shí)我們的感受是,秦臻有很好的學(xué)術(shù)審美,知道自己該做什么。這個(gè)方向雖然與業(yè)務(wù)沒(méi)有直接關(guān)聯(lián),但是最關(guān)鍵的事是要follow前沿,保持與學(xué)術(shù)、工業(yè)界的交流,不要掉隊(duì)。所以我們決定,一定要有一個(gè)這樣的人才來(lái)帶著我們?nèi)プ鲆恍┣把匮芯俊?/p>
葡萄君:你們聊得怎么樣?
賴?guó)櫜?/strong>雙方都很愉快,很快就敲定了。他講的線性Attention,我們大概能get到。而且這個(gè)研究成本我們能cover住,也能很好地follow到學(xué)術(shù)前沿。
另一方面,做這個(gè)方向的人本來(lái)就不多,而秦臻可以說(shuō)就是專家,也有很強(qiáng)的自驅(qū)力。如果他真的跑通了,即使TapTap不能落地超大參數(shù)量模型,我們也可以用相對(duì)可控的成本,去做一個(gè)可能符合自己業(yè)務(wù)場(chǎng)景的模型,這是一個(gè)長(zhǎng)遠(yuǎn)規(guī)劃。
葡萄君:公司給你的資源真的夠用嗎?
秦臻:對(duì)于做Research來(lái)說(shuō),絕對(duì)是充足的,很多高校的實(shí)驗(yàn)室,據(jù)我所知一般都沒(méi)有這種資源。只不過(guò)你要大規(guī)模驗(yàn)證,又是完全不夠用的狀態(tài)。
這就是心動(dòng)和大廠的一個(gè)區(qū)別——你在大廠可能能得到很多資源,但是發(fā)揮空間很小。而且因?yàn)槿撕芏?,你一次性能調(diào)動(dòng)的資源,可能沒(méi)有想象的那么多。比如一個(gè)組內(nèi)大幾千張顯卡,但首先訓(xùn)練大模型的人占了大部分,幾個(gè)組一分,到最后你自己探索的卡,可能也就是百?gòu)埖牧考?jí),沒(méi)有本質(zhì)的區(qū)別。
賴?guó)櫜?/strong>:我們團(tuán)隊(duì)也認(rèn)真討論過(guò),有這些卡夠不夠、用來(lái)干嘛,以及要不要加。
討論的結(jié)果是,我們需要克制地去看待和發(fā)展AI,讓自己不會(huì)掉隊(duì),而不是要一開始就梭哈AI。正是這種克制,才使得秦臻最后能跑出來(lái)。我們比的不是誰(shuí)資源更多,而是誰(shuí)能做得更久。
葡萄君:在這么混沌的領(lǐng)域搞探索,你們團(tuán)隊(duì)會(huì)覺(jué)得迷?;蚱D難嗎?
賴?guó)櫜?/strong>無(wú)論是我們還是其他人,在做AI應(yīng)用的情況下,都會(huì)有點(diǎn)迷茫的。你會(huì)發(fā)現(xiàn)在技術(shù)上、落地上,都有很多的不可行,投入產(chǎn)出都需要評(píng)估,這對(duì)一個(gè)獨(dú)立團(tuán)隊(duì)來(lái)說(shuō)是比較痛苦的。
在秦臻來(lái)之前,我們做過(guò)各種應(yīng)用探索,沒(méi)有特別明確的主線,也是因?yàn)榇蟛糠质虑槎紵o(wú)法成為主線。
葡萄君:未知數(shù)太多,可能是AI研究魅力和痛苦的共同來(lái)源。
賴?guó)櫜?/strong>是的,所以去年,我們團(tuán)隊(duì)的Leader李昀澤定下了基調(diào),他期望大家按照自己的興趣去研究。先有了符合自己認(rèn)知的需求和場(chǎng)景,再去實(shí)現(xiàn)落地,方向就會(huì)變得明確。而且我們團(tuán)隊(duì)和公司給的氛圍,也是以自由度和自驅(qū)為主,讓專業(yè)的人去做專業(yè)的事。這也比較符合心動(dòng)與TapTap的文化。
02你不可能永遠(yuǎn)領(lǐng)先,但也不會(huì)永遠(yuǎn)落后
葡萄君:MiniMax的大模型,實(shí)現(xiàn)了上下文400萬(wàn)token,這是什么樣的一個(gè)概念?
秦臻:技術(shù)背景上,Transformer的核心模塊是Attention,它的復(fù)雜度和上下文長(zhǎng)度是平方關(guān)系,也就是說(shuō)400萬(wàn)的長(zhǎng)度,需要400萬(wàn)平方的算力成本。之前大家不會(huì)做那么長(zhǎng),根本原因就是成本扛不住。
但假設(shè)你把Attention換成線性的,成本會(huì)變成400萬(wàn)。而MiniMax使用混合模型后,線性比例是7/8,也就是說(shuō)它的成本約等于(7/8×4000000)+(1/8×4000000^2),這遠(yuǎn)遠(yuǎn)低于純Attention的成本。
另外,能訓(xùn)到這么大,意味著它有Scaling能力。一直以來(lái)沒(méi)有公司去做這件事,就是因?yàn)閾?dān)心Scaling會(huì)失敗,這樣你訓(xùn)練的那些成本可能就白費(fèi)了,所以MiniMax能付出這樣的勇氣去走通這條路,還是非常有前瞻性、讓人敬佩的。
葡萄君:這件事的實(shí)現(xiàn),可能對(duì)AI發(fā)展有什么樣的影響?
秦臻:從去年年初到年中,混合模型在學(xué)術(shù)界一直有所討論,但規(guī)模一般都不是特別大,大概就是LLaMA 7B、13B的級(jí)別。大模型團(tuán)隊(duì)肯定也有業(yè)績(jī)壓力,訓(xùn)一個(gè)月模型,最后發(fā)現(xiàn)不work?大部分人都沒(méi)有勇氣做這種事。
現(xiàn)在MiniMax可以說(shuō)是跑通了,之后大家可能會(huì)去復(fù)現(xiàn)這個(gè)事情。同時(shí)它也會(huì)引起工業(yè)界的關(guān)注度,因?yàn)橹按蠹視?huì)覺(jué)得,相比真正的大模型來(lái)說(shuō),線性Attention還是一個(gè)學(xué)術(shù)玩具級(jí)別的東西。但是當(dāng)一家公司把混合模型在商用規(guī)模上跑通之后,事情就不一樣了。
MiniMax 01模型的混合架構(gòu)
葡萄君:它能降低的成本,大概是一個(gè)什么樣的量級(jí)?
秦臻:理論上,假設(shè)之前的成本是N^2,現(xiàn)在則是(1-P)*N+P*N^2,這個(gè)P你可以取得很小。在P=1/8的時(shí)候,它看起來(lái)還沒(méi)有降得特別明顯,但假設(shè)P=1%,你的N又比較長(zhǎng),可能就會(huì)降100倍。
葡萄君:基數(shù)越大,省得就越多。
賴?guó)櫜?/strong>是的,大模型的參數(shù),平方關(guān)系下很容易乘數(shù)爆炸。400B的模型,再平方一下就是天文數(shù)字。所以大家為了降低成本做了很多工作,從FlashAttention到線性Attention,都是為了把復(fù)雜度降低,先有理論上的可能,最終變成實(shí)際工業(yè)中可投產(chǎn)的技術(shù)。
葡萄君:秦臻是從多早開始關(guān)注這種技術(shù)方向的?
秦臻:從2021年下半年開始,我在上一家公司就在做這個(gè)方向,到現(xiàn)在已經(jīng)三年半了。也是機(jī)緣巧合,在幾條路線中正好選到這個(gè)方向。中間一段時(shí)間,我嘗試過(guò)其他方案,最后發(fā)現(xiàn)有的方案不太行,有的方案是殊途同歸,最后還是選擇了線性Attention。這個(gè)方法它首先比較有趣,其次復(fù)雜度也是最低的,后面就一直做下去了。
葡萄君:有趣在哪?
秦臻:在算法設(shè)計(jì)上,它是一個(gè)普適的想法,能應(yīng)用到很多乍一看不相關(guān)的領(lǐng)域,相當(dāng)于你不止研究了算法,還學(xué)會(huì)了一種設(shè)計(jì)思路。另一方面,研究這個(gè)領(lǐng)域,也能讓我和那些喜歡這種算法之美的有趣同行交流。
葡萄君:線性Attention方面的研究成果,這幾年你是如何思考研究方向的?
秦臻:大家公認(rèn)的第一篇提出線性Transformer的論文,是在2020~2021年間發(fā)布的。大概從這時(shí)到ChatGPT面世之前,將近兩年時(shí)間,相關(guān)文章都搜不到幾篇。大家對(duì)這塊的理解也不夠深——現(xiàn)在很多人知道的Mamba模型,它的核心是狀態(tài)空間模型(State Space Model, SSM),也是21年左右提出雛形的,現(xiàn)在看來(lái)和線性Attention是一個(gè)東西,只不過(guò)那時(shí)候大家互不知曉。
到2023年ChatGPT面世,線性Attention的關(guān)注度逐漸上升了一點(diǎn)。Lightning Attention就是在2023年下半年開始做的,同期也有不少類似的工作,包括Mamba,我看到之后,就感覺(jué)這個(gè)東西后面肯定會(huì)火,只是它火的程度超出我的預(yù)期了。
在那段時(shí)間,我發(fā)現(xiàn)所謂的線性Attention以及另一個(gè)小方向,叫Linear RNN和SSM其實(shí)都是一回事。雖然設(shè)計(jì)時(shí)有區(qū)別,但最后在計(jì)算邏輯上基本完全等價(jià)。
這個(gè)發(fā)現(xiàn)讓我有點(diǎn)開心,也有點(diǎn)擔(dān)心。開心在于,如果說(shuō)你從很多不同方向去研究一件事,發(fā)現(xiàn)最后的方案收斂了,那收斂的結(jié)果應(yīng)該是蠻有價(jià)值的;而擔(dān)憂在于,如果未來(lái)大家都一樣了,后面的區(qū)別到底在哪里呢?
之后直到2023年底,我也嘗試訓(xùn)練過(guò)線性Attention架構(gòu)。雖然那時(shí)有幾個(gè)團(tuán)隊(duì),能把線性Attention做到7B、13B這種規(guī)模,但是距離真正的LLM,肯定還是有差距的。
葡萄君:做不起來(lái)的主要問(wèn)題出在哪?
秦臻:我當(dāng)時(shí)的認(rèn)知是,檢索是推理的前置條件,我們一般讓模型有推理能力會(huì)通過(guò)添加很長(zhǎng)的Prompt(即CoT),而Prompt起作用的前提是模型能完整記住prompt的內(nèi)容。假設(shè)你輸入一個(gè)很長(zhǎng)的Prompt,模型只能記住后面20%的位置,你這個(gè)Prompt就相當(dāng)于幾乎沒(méi)起作用。
我試過(guò)一些市面上開源的線性Attention模型,也試過(guò)自己設(shè)計(jì)模型,發(fā)現(xiàn)檢索能力都比較弱。做到這個(gè)時(shí)候,就感覺(jué)路還蠻難走的,因?yàn)楫?dāng)時(shí)既不知道線性Attention的未來(lái)是什么樣,又發(fā)現(xiàn)它有這樣的問(wèn)題,所以一度感覺(jué)走進(jìn)了死胡同。
葡萄君:行業(yè)可能也對(duì)這個(gè)方向信心不足。
秦臻:關(guān)于這個(gè)領(lǐng)域的未來(lái),我自己也不清楚——你能不能拿固定大小的東西,記住任意長(zhǎng)度的上下文?這個(gè)問(wèn)題看起來(lái)是不太實(shí)際的。悲觀派就覺(jué)得,有限大小的東西,記憶能力肯定是有限的;樂(lè)觀派一方面覺(jué)得,記憶的大小、空間可能沒(méi)有你想的那么小,還有些人會(huì)拿人腦的儲(chǔ)存量與記憶能力做類比。
所以純線性Attention能不能做所謂的推理檢索任務(wù),這應(yīng)該是個(gè)開放問(wèn)題,可能樂(lè)觀一點(diǎn)的人還會(huì)去嘗試。
葡萄君:你算是樂(lè)觀派嗎?
秦臻:我不算樂(lè)觀,但我肯定不悲觀。如果你想到比較有意思的idea,發(fā)現(xiàn)沒(méi)人做過(guò),那至少試了才知道行不行。
賴?guó)櫜?/strong>技術(shù)發(fā)展往往是螺旋上升,總會(huì)有一些去修正與改進(jìn),也不是說(shuō)所有研究都要一條道走到黑。從Transformer最早發(fā)布到現(xiàn)在,也有很多新的變化。
葡萄君:在這幾年的研究中,你有沒(méi)有碰到什么巨大的難點(diǎn)?
秦臻:剛?cè)腴T和入行比較久之后都碰到過(guò)。剛?cè)腴T時(shí)碰到的問(wèn)題是缺少idea,但這個(gè)階段還還比較好解決,因?yàn)樯抖疾欢?,接近白紙的狀態(tài),盡管你會(huì)沒(méi)有什么想法,但是多讀同行的論文就行,至少會(huì)有一些嘗試的新方向。
因?yàn)槔碚撋?,一個(gè)領(lǐng)域A的方案也可以借鑒到領(lǐng)域B。閱讀量大了之后,你只會(huì)存在一個(gè)問(wèn)題,就是有沒(méi)有時(shí)間去嘗試、到底要試哪個(gè),因?yàn)闀r(shí)間是有限的。
入行比較久之后,又是另一種艱難——你看不到太多新東西了。鉆研一兩年之后,發(fā)現(xiàn)大家都在同一個(gè)水平線上,你從別人的論文里得不到太多靈感。這時(shí)你可能會(huì)去看看古早時(shí)期的論文,像RNN這個(gè)領(lǐng)域,上世紀(jì)六七十年代的論文都有,但看多之后,又會(huì)發(fā)現(xiàn)好多所謂的新東西,其實(shí)是幾十年前的翻新。
在這個(gè)階段,我感覺(jué)沒(méi)有太多新的思路可以做?;蛘哒f(shuō)有一些新的,同行已經(jīng)在做了,我現(xiàn)在去做意義也不大。那段時(shí)間還是有點(diǎn)悲觀的,感覺(jué)純線性好像又沒(méi)什么用,那做什么呢?
葡萄君:你是怎么走出來(lái)的?
秦臻:有很多同行也在做類似的事,多看幾遍之后,確實(shí)會(huì)有一些新的靈感。你不可能永遠(yuǎn)領(lǐng)先,但也不會(huì)永遠(yuǎn)落后。只要一直保持探索、進(jìn)一步去閱讀,大家總歸會(huì)在類似的水平線上交流的。
賴?guó)櫜?/strong>這很像剛才那個(gè)心態(tài)問(wèn)題,我們做AI探索,一開始會(huì)很興奮,那個(gè)時(shí)候可以說(shuō)是真的愚昧之巔。到了去年,可能都落到了絕望之谷,這樣的曲線在我們行業(yè)很常見(jiàn)。我們也經(jīng)常會(huì)陷入自我否定、自我懷疑,但是又繼續(xù)去閱讀找靈感的狀態(tài)。
反正不管是應(yīng)用還是研究,應(yīng)該都是慢慢打磨出來(lái)的,急躁的心態(tài)很難做好。
03堅(jiān)持做有價(jià)值的事,一定有獨(dú)特的意義
葡萄君:你們覺(jué)得MiniMax為什么會(huì)先人一步注意到這種技術(shù)選型,還把它在這么大的一個(gè)規(guī)模上實(shí)現(xiàn)了?
秦臻:可能因?yàn)樗麄兪窃诖竽P屠顺敝皠?chuàng)立的公司,這類公司的特點(diǎn)就是,相比于浪潮之后的公司會(huì)更有一些技術(shù)信仰。
賴?guó)櫜?/strong>秦臻的工作驗(yàn)證了理論可能性,我們確實(shí)很佩服MiniMax愿意去嘗試,能真的把這個(gè)研究成果最終落地。因?yàn)?00B的模型,和我們做驗(yàn)證的難度不是一個(gè)量級(jí)的,他們也做了很多其他工作。
葡萄君:你看到他們的成果時(shí),第一反應(yīng)是什么,會(huì)有一些哭笑不得嗎?
秦臻:不會(huì),我很高興。因?yàn)槲沂紫戎溃赥apTap訓(xùn)那么大的模型肯定是不現(xiàn)實(shí)的。所以從個(gè)人角度,你看到你所提的方案,被應(yīng)用在這么大規(guī)模的模型里,肯定是會(huì)高興的。
另一方面,從領(lǐng)域發(fā)展的角度,大家之前覺(jué)得線性Attention在小規(guī)模下可以跑通,但一直沒(méi)有人有勇氣做到這么大,而MiniMax做到了非常關(guān)鍵的臨門一腳。我相信這會(huì)給行業(yè)注入新鮮血液,讓這個(gè)領(lǐng)域發(fā)展得更好。
葡萄君:站在圈外看熱鬧的視角,我感覺(jué)不了解事情的人是不是會(huì)有一種誤解——“心動(dòng)的研究成果被別人摘桃子了”。
秦臻:你只要發(fā)表了論文,那任何一家公司都可以使用其中的技術(shù)。當(dāng)你提出的技術(shù)被商業(yè)化落地,心情只有興奮。
賴?guó)櫜?/strong>或者說(shuō),他們是在把我們提供的食材做成一道菜。我們也是滿滿的敬畏,而且樂(lè)于見(jiàn)到這樣的事情發(fā)生。
葡萄君:最近成果出現(xiàn)之后,是不是會(huì)有很多人來(lái)打聽(tīng)你?這會(huì)對(duì)你造成一些影響嗎?
秦臻:這個(gè)領(lǐng)域很小,之前的我相當(dāng)于小透明,現(xiàn)在可能會(huì)有一些領(lǐng)域外的同行對(duì)我好奇,畢竟我是在TapTap做Research,這是一個(gè)比較神奇的事情。
一些社群中對(duì)秦臻的討論
葡萄君:我有點(diǎn)好奇,你實(shí)際上是這個(gè)方向的翹楚,卻一直在當(dāng)小透明,會(huì)不會(huì)覺(jué)得心里有點(diǎn)憋屈?
秦臻:如果沒(méi)人關(guān)注,你心里不可能毫無(wú)波瀾。但我也想過(guò)這個(gè)問(wèn)題——如果你認(rèn)為你做的東西有價(jià)值,別人看不看沒(méi)那么重要。因?yàn)槿绻娴暮苡袃r(jià)值,最后一定會(huì)有它被用上的一天。
如果你真的這么想,也喜歡自己認(rèn)定的方向,就要盡量避免浮躁的心態(tài)。因?yàn)槟阕鲞@些事不是為了贏得更多的關(guān)注度,而是為了你認(rèn)定的價(jià)值去堅(jiān)持。如果有一天它真的落地了,那還是一個(gè)額外的驚喜。
賴?guó)櫜?/strong>無(wú)論有沒(méi)有人關(guān)注、成果如何,都能長(zhǎng)期做某一件事情,這也是秦臻作為Researcher的一個(gè)天賦,其他人很難維持這樣的心態(tài)。
葡萄君:在AI這個(gè)方向上,你們還有什么想做到的事情嗎?
賴?guó)櫜?/strong>第一,不要去過(guò)早地判斷,因?yàn)锳I領(lǐng)域的可能性,本身遠(yuǎn)超我們能做判斷的能力。
第二,我們希望順著這條路,在今年更多嘗試多模態(tài)大模型,支撐TapTap的業(yè)務(wù),最好能在具體業(yè)務(wù)問(wèn)題上用自己的模型解決。今年,我們會(huì)想辦法去做1~2款應(yīng)用,同時(shí)也要保持投入保持韌性,接受失敗。在我們最終做完那一兩款之前,肯定是要再失敗N次的。
秦臻:從Research角度來(lái)說(shuō),去年半年我在線性模型方向有點(diǎn)陷入低谷,但現(xiàn)在的理解更進(jìn)了一步,能嘗試的還蠻多的。比如,當(dāng)你的方案從方向A和方向B都升級(jí)過(guò)之后,那必然會(huì)得到一個(gè)更好的成果,但你不知道是方向A還是方向B起了作用,誰(shuí)是冗余的,這對(duì)我來(lái)說(shuō)就是一個(gè)值得研究的問(wèn)題。
葡萄君:對(duì)AI行業(yè)未來(lái)的發(fā)展,你們還有什么樣的展望嗎?
秦臻:從工業(yè)界角度來(lái)說(shuō),這個(gè)領(lǐng)域就是OpenAI領(lǐng)跑,大家跟進(jìn)。所以除非OpenAI本身碰到很大困難,否則應(yīng)該還能再蓬勃發(fā)展一段時(shí)間。從我自己預(yù)測(cè)的角度來(lái)說(shuō),我還是比較關(guān)心線性模型。假設(shè)真的能work,它能解鎖的場(chǎng)景真的很多。
但是關(guān)鍵在于,這事情有個(gè)悖論——就算沒(méi)跑通,因?yàn)樯疃葘W(xué)習(xí)的理論并沒(méi)有特別完善,你做了一個(gè)不work的研究,它實(shí)際上可能還是work的。所以除非你真把它做work了,才能證明它work;但你沒(méi)做work,卻不代表它一定不work。所以這個(gè)方向,可能還會(huì)有人持續(xù)去嘗試。
賴?guó)櫜?/strong>大模型行業(yè)就應(yīng)該在競(jìng)爭(zhēng)中發(fā)展,而大家最后都會(huì)變成技術(shù)都受益者。我們能保持follow,在某個(gè)時(shí)間節(jié)點(diǎn)來(lái)臨的時(shí)候有所準(zhǔn)備,那就是最好的結(jié)果。
本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn),不代表創(chuàng)業(yè)邦立場(chǎng),轉(zhuǎn)載請(qǐng)聯(lián)系原作者。如有任何疑問(wèn),請(qǐng)聯(lián)系editor@cyzone.cn。