編者按:本文來自微信公眾號(hào) 游戲葡萄(ID:youxiputao),作者:以撒,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。
年關(guān)將至,AI業(yè)界卷王輩出,好幾家公司都在最近拿出了重量級的大模型。雖然很熱鬧,不過放在平時(shí),你可能會(huì)覺得這和游戲公司沒什么太大的聯(lián)系。
但這次的情況不太一樣:在被稱為「新一代國產(chǎn)LLM之光」的大模型背后,我們聽到一個(gè)特別神奇的,和游戲行業(yè)有千絲萬縷聯(lián)系的故事。
1月15日,MiniMax發(fā)布了公司首個(gè)開源模型——MiniMax-01系列,首次在4000億以上參數(shù)的大模型中,使用了不同于傳統(tǒng)Transformer架構(gòu)的線性Attention機(jī)制架構(gòu),能高效處理的上下文長達(dá)400萬token,達(dá)到了全球最長的水平。
這個(gè)成果是什么概念?你可以理解為,MiniMax大膽地在商用級別規(guī)模上,驗(yàn)證了一條前人沒走通的路,結(jié)果不僅讓AI大模型的“記憶”被延長到了一個(gè)相當(dāng)可觀的程度,且成本還比GPT-4o低10倍。所以海外不乏對MiniMax-01的熱議甚至贊美,還有人稱其為“來自中國的AI變革”。
與此同時(shí),也有人從MiniMax發(fā)表的論文中注意到,這次突破所使用的核心架構(gòu)——以Lightning Attention為主的架構(gòu),早在數(shù)年前就有人開始發(fā)表相關(guān)論文。這個(gè)人叫秦臻,他的框架理論從2022年到2024年不斷更新,第一作者全是他。在新模型的相關(guān)論文中,MiniMax大量引述了他的研究成果。
這就引出了第一件神奇的事:有人順藤摸瓜,發(fā)現(xiàn)秦臻竟然并非AI創(chuàng)業(yè)公司的人,而是在心動(dòng) TapTap 增長和商業(yè)化部門(IEM)下的AI團(tuán)隊(duì)擔(dān)任算法研究員,研究高效序列建模方法。
更巧的是,MiniMax這家成立于2021年的AI獨(dú)角獸,背后也站著游戲公司:2023年,米哈游、騰訊都曾參股MiniMax,次年米哈游又追加了一輪投資——不過,這真的只是巧合,和背后游戲公司的關(guān)系毫無關(guān)聯(lián)。因?yàn)镸iniMax也一直在研究線性Attention這條路線。只不過秦臻的研究成果,恰好為他們提供了重要的理論支撐。
問題在于,心動(dòng)不能說和AI毫無聯(lián)系,但也實(shí)在沒太多牽扯;即便有所涉獵,研究條件、深度想來也很難比得上專業(yè)AI團(tuán)隊(duì)……他們?yōu)槭裁磿?huì)招到這樣的人?為什么會(huì)搞出這樣的研究成果?
通過心動(dòng),葡萄君聯(lián)系上了秦臻,以及他的同事,TapTap IEM AI算法組的Leader 賴鴻昌。
他們聊到了第二件神奇的事:秦臻此前在商湯科技工作,在小組被解散之后,他也曾向各種大廠投遞過簡歷。但他沒選擇資源豐厚的大廠,最終卻和TapTap來了個(gè)雙向奔赴。
在AI領(lǐng)域,TapTap 倒是很早就有所行動(dòng),負(fù)責(zé)人戴云杰早在2021年就于Slack上表示過,要關(guān)注相關(guān)技術(shù)、推動(dòng)投入研究資源。
但光看團(tuán)隊(duì)背景的話,這依然有點(diǎn)不可思議——一直以來,TapTap 的AI部門實(shí)際上沒有所謂的“主線任務(wù)”,公司只是抱著長期主義的態(tài)度,覺得AI值得提前探索和投入,因此對團(tuán)隊(duì)也沒有太多要求,只是鼓勵(lì)他們多做一些探索性的嘗試,無論是做算法設(shè)計(jì),還是結(jié)合App、游戲。為了讓團(tuán)隊(duì)安心探索,據(jù)說他們還有一條制度:無論產(chǎn)出如何,都不會(huì)存在M-績效。
而秦臻的存在就顯得更為特殊:部門的算力資源當(dāng)然比不上大廠,能支持他做研究的顯卡不多,雖然可以小規(guī)模驗(yàn)證想法,但肯定支撐不了商用級別規(guī)模的LLM驗(yàn)證;公司角度呢,秦臻研究的線性Transformer架構(gòu),實(shí)際上也和心動(dòng)的游戲業(yè)務(wù)沒有太大聯(lián)系,很難說會(huì)對業(yè)務(wù)增長有真正的幫助。
但第三件神奇的事,卻正是由這些神奇的人和事匯集而成:在業(yè)務(wù)關(guān)聯(lián)不大的情況下,TapTap一直支持著AI部門的探索,秦臻也堅(jiān)持把線性Transformer架構(gòu)鉆研了下去。最終,他的多篇論文被發(fā)布于頂刊,被持續(xù)研究相關(guān)技術(shù)的MiniMax引用、發(fā)揚(yáng)光大,做出了國產(chǎn)LLM的一次重要嘗試和突破。
和他們聊過之后,我更加覺得,少了任何一個(gè)巧妙的因素,這件事可能都發(fā)展不到這個(gè)地步。但有時(shí)候,這種重大的突破,可能就是和游戲研發(fā)一樣,需要更多的耐心、更包容的環(huán)境以及長期主義,來支撐那些有動(dòng)力堅(jiān)持探索的人,去把有價(jià)值的事做下去。
就像秦臻和我們說的,他相信:如果你做的事真的很有價(jià)值,最后一定會(huì)有它被用上的一天。
以下為對話的內(nèi)容實(shí)錄:
01大廠難落地的項(xiàng)目,換個(gè)地方生根發(fā)芽
葡萄君:你是怎么來到TapTap的?
秦臻:在上一家公司的小組解散后,我看過一些大模型公司和大廠的機(jī)會(huì)。我那時(shí)的目標(biāo)還不是很明確,但對之前做的線性Attention方向比較感興趣,也比較擅長這件事,所以就想找個(gè)地方繼續(xù)研究。
2023年初聊下來一圈,我感覺大廠唯一的好處就是資源會(huì)更多,但規(guī)章制度會(huì)相對死板,給你的自由發(fā)揮度比較小。和TapTap聊過之后,我覺得這邊會(huì)提供一個(gè)相對寬松自由的氛圍??陀^來說,對于做Research這件事,TapTap提供的算力也絕對充足——因?yàn)榧词乖诖髲S,這件事也很難推動(dòng)。綜合考慮,我最后選擇了TapTap。
葡萄君:是不是大廠們不太關(guān)注這個(gè)方向,你們聊不到一塊?
秦臻:我一般都會(huì)介紹我做過的一些工作,大部分人也算是有興趣,但真正指望落地還是比較困難的。因?yàn)楫?dāng)時(shí)算是大模型的混沌階段、古早時(shí)期,大家可能還是想先追趕LLaMA之類的模型。
葡萄君:線性Attention在早期的潛力還沒有被驗(yàn)證,那時(shí)會(huì)不會(huì)有面試官覺得你在吹牛?
秦臻:還好,因?yàn)閷W(xué)術(shù)論文的論點(diǎn)不會(huì)那么大,只是表明它會(huì)在某些場景下可能有優(yōu)勢,沒人會(huì)想著用這個(gè)替代大模型。而且論文總歸會(huì)有一些亮點(diǎn),否則也發(fā)不出去。
葡萄君:AI大廠都涉獵不深,TapTap為什么會(huì)接觸到這種技術(shù)?
賴鴻昌:2020年GPT-3面世時(shí),TapTap 負(fù)責(zé)人戴云杰就關(guān)注到了大語言模型,并開始思考技術(shù)突破可能帶來哪些新的變化。在2023年,必應(yīng)發(fā)布了第一款GPT應(yīng)用New Bing后,TapTap 也嘗試做了類似的游戲AI交互式搜索。
戴云杰早期對GPT-3的關(guān)注
后來開始在市場上篩選目標(biāo)候選人,招聘了大半年都沒有合適的簡歷,直到后來篩到了秦臻。
當(dāng)時(shí)我們的感受是,秦臻有很好的學(xué)術(shù)審美,知道自己該做什么。這個(gè)方向雖然與業(yè)務(wù)沒有直接關(guān)聯(lián),但是最關(guān)鍵的事是要follow前沿,保持與學(xué)術(shù)、工業(yè)界的交流,不要掉隊(duì)。所以我們決定,一定要有一個(gè)這樣的人才來帶著我們?nèi)プ鲆恍┣把匮芯俊?/p>
葡萄君:你們聊得怎么樣?
賴鴻昌:雙方都很愉快,很快就敲定了。他講的線性Attention,我們大概能get到。而且這個(gè)研究成本我們能cover住,也能很好地follow到學(xué)術(shù)前沿。
另一方面,做這個(gè)方向的人本來就不多,而秦臻可以說就是專家,也有很強(qiáng)的自驅(qū)力。如果他真的跑通了,即使TapTap不能落地超大參數(shù)量模型,我們也可以用相對可控的成本,去做一個(gè)可能符合自己業(yè)務(wù)場景的模型,這是一個(gè)長遠(yuǎn)規(guī)劃。
葡萄君:公司給你的資源真的夠用嗎?
秦臻:對于做Research來說,絕對是充足的,很多高校的實(shí)驗(yàn)室,據(jù)我所知一般都沒有這種資源。只不過你要大規(guī)模驗(yàn)證,又是完全不夠用的狀態(tài)。
這就是心動(dòng)和大廠的一個(gè)區(qū)別——你在大廠可能能得到很多資源,但是發(fā)揮空間很小。而且因?yàn)槿撕芏?,你一次性能調(diào)動(dòng)的資源,可能沒有想象的那么多。比如一個(gè)組內(nèi)大幾千張顯卡,但首先訓(xùn)練大模型的人占了大部分,幾個(gè)組一分,到最后你自己探索的卡,可能也就是百張的量級,沒有本質(zhì)的區(qū)別。
賴鴻昌:我們團(tuán)隊(duì)也認(rèn)真討論過,有這些卡夠不夠、用來干嘛,以及要不要加。
討論的結(jié)果是,我們需要克制地去看待和發(fā)展AI,讓自己不會(huì)掉隊(duì),而不是要一開始就梭哈AI。正是這種克制,才使得秦臻最后能跑出來。我們比的不是誰資源更多,而是誰能做得更久。
葡萄君:在這么混沌的領(lǐng)域搞探索,你們團(tuán)隊(duì)會(huì)覺得迷?;蚱D難嗎?
賴鴻昌:無論是我們還是其他人,在做AI應(yīng)用的情況下,都會(huì)有點(diǎn)迷茫的。你會(huì)發(fā)現(xiàn)在技術(shù)上、落地上,都有很多的不可行,投入產(chǎn)出都需要評估,這對一個(gè)獨(dú)立團(tuán)隊(duì)來說是比較痛苦的。
在秦臻來之前,我們做過各種應(yīng)用探索,沒有特別明確的主線,也是因?yàn)榇蟛糠质虑槎紵o法成為主線。
葡萄君:未知數(shù)太多,可能是AI研究魅力和痛苦的共同來源。
賴鴻昌:是的,所以去年,我們團(tuán)隊(duì)的Leader李昀澤定下了基調(diào),他期望大家按照自己的興趣去研究。先有了符合自己認(rèn)知的需求和場景,再去實(shí)現(xiàn)落地,方向就會(huì)變得明確。而且我們團(tuán)隊(duì)和公司給的氛圍,也是以自由度和自驅(qū)為主,讓專業(yè)的人去做專業(yè)的事。這也比較符合心動(dòng)與TapTap的文化。
02你不可能永遠(yuǎn)領(lǐng)先,但也不會(huì)永遠(yuǎn)落后
葡萄君:MiniMax的大模型,實(shí)現(xiàn)了上下文400萬token,這是什么樣的一個(gè)概念?
秦臻:技術(shù)背景上,Transformer的核心模塊是Attention,它的復(fù)雜度和上下文長度是平方關(guān)系,也就是說400萬的長度,需要400萬平方的算力成本。之前大家不會(huì)做那么長,根本原因就是成本扛不住。
但假設(shè)你把Attention換成線性的,成本會(huì)變成400萬。而MiniMax使用混合模型后,線性比例是7/8,也就是說它的成本約等于(7/8×4000000)+(1/8×4000000^2),這遠(yuǎn)遠(yuǎn)低于純Attention的成本。
另外,能訓(xùn)到這么大,意味著它有Scaling能力。一直以來沒有公司去做這件事,就是因?yàn)閾?dān)心Scaling會(huì)失敗,這樣你訓(xùn)練的那些成本可能就白費(fèi)了,所以MiniMax能付出這樣的勇氣去走通這條路,還是非常有前瞻性、讓人敬佩的。
葡萄君:這件事的實(shí)現(xiàn),可能對AI發(fā)展有什么樣的影響?
秦臻:從去年年初到年中,混合模型在學(xué)術(shù)界一直有所討論,但規(guī)模一般都不是特別大,大概就是LLaMA 7B、13B的級別。大模型團(tuán)隊(duì)肯定也有業(yè)績壓力,訓(xùn)一個(gè)月模型,最后發(fā)現(xiàn)不work?大部分人都沒有勇氣做這種事。
現(xiàn)在MiniMax可以說是跑通了,之后大家可能會(huì)去復(fù)現(xiàn)這個(gè)事情。同時(shí)它也會(huì)引起工業(yè)界的關(guān)注度,因?yàn)橹按蠹視?huì)覺得,相比真正的大模型來說,線性Attention還是一個(gè)學(xué)術(shù)玩具級別的東西。但是當(dāng)一家公司把混合模型在商用規(guī)模上跑通之后,事情就不一樣了。
MiniMax 01模型的混合架構(gòu)
葡萄君:它能降低的成本,大概是一個(gè)什么樣的量級?
秦臻:理論上,假設(shè)之前的成本是N^2,現(xiàn)在則是(1-P)*N+P*N^2,這個(gè)P你可以取得很小。在P=1/8的時(shí)候,它看起來還沒有降得特別明顯,但假設(shè)P=1%,你的N又比較長,可能就會(huì)降100倍。
葡萄君:基數(shù)越大,省得就越多。
賴鴻昌:是的,大模型的參數(shù),平方關(guān)系下很容易乘數(shù)爆炸。400B的模型,再平方一下就是天文數(shù)字。所以大家為了降低成本做了很多工作,從FlashAttention到線性Attention,都是為了把復(fù)雜度降低,先有理論上的可能,最終變成實(shí)際工業(yè)中可投產(chǎn)的技術(shù)。
葡萄君:秦臻是從多早開始關(guān)注這種技術(shù)方向的?
秦臻:從2021年下半年開始,我在上一家公司就在做這個(gè)方向,到現(xiàn)在已經(jīng)三年半了。也是機(jī)緣巧合,在幾條路線中正好選到這個(gè)方向。中間一段時(shí)間,我嘗試過其他方案,最后發(fā)現(xiàn)有的方案不太行,有的方案是殊途同歸,最后還是選擇了線性Attention。這個(gè)方法它首先比較有趣,其次復(fù)雜度也是最低的,后面就一直做下去了。
葡萄君:有趣在哪?
秦臻:在算法設(shè)計(jì)上,它是一個(gè)普適的想法,能應(yīng)用到很多乍一看不相關(guān)的領(lǐng)域,相當(dāng)于你不止研究了算法,還學(xué)會(huì)了一種設(shè)計(jì)思路。另一方面,研究這個(gè)領(lǐng)域,也能讓我和那些喜歡這種算法之美的有趣同行交流。
葡萄君:線性Attention方面的研究成果,這幾年你是如何思考研究方向的?
秦臻:大家公認(rèn)的第一篇提出線性Transformer的論文,是在2020~2021年間發(fā)布的。大概從這時(shí)到ChatGPT面世之前,將近兩年時(shí)間,相關(guān)文章都搜不到幾篇。大家對這塊的理解也不夠深——現(xiàn)在很多人知道的Mamba模型,它的核心是狀態(tài)空間模型(State Space Model, SSM),也是21年左右提出雛形的,現(xiàn)在看來和線性Attention是一個(gè)東西,只不過那時(shí)候大家互不知曉。
到2023年ChatGPT面世,線性Attention的關(guān)注度逐漸上升了一點(diǎn)。Lightning Attention就是在2023年下半年開始做的,同期也有不少類似的工作,包括Mamba,我看到之后,就感覺這個(gè)東西后面肯定會(huì)火,只是它火的程度超出我的預(yù)期了。
在那段時(shí)間,我發(fā)現(xiàn)所謂的線性Attention以及另一個(gè)小方向,叫Linear RNN和SSM其實(shí)都是一回事。雖然設(shè)計(jì)時(shí)有區(qū)別,但最后在計(jì)算邏輯上基本完全等價(jià)。
這個(gè)發(fā)現(xiàn)讓我有點(diǎn)開心,也有點(diǎn)擔(dān)心。開心在于,如果說你從很多不同方向去研究一件事,發(fā)現(xiàn)最后的方案收斂了,那收斂的結(jié)果應(yīng)該是蠻有價(jià)值的;而擔(dān)憂在于,如果未來大家都一樣了,后面的區(qū)別到底在哪里呢?
之后直到2023年底,我也嘗試訓(xùn)練過線性Attention架構(gòu)。雖然那時(shí)有幾個(gè)團(tuán)隊(duì),能把線性Attention做到7B、13B這種規(guī)模,但是距離真正的LLM,肯定還是有差距的。
葡萄君:做不起來的主要問題出在哪?
秦臻:我當(dāng)時(shí)的認(rèn)知是,檢索是推理的前置條件,我們一般讓模型有推理能力會(huì)通過添加很長的Prompt(即CoT),而Prompt起作用的前提是模型能完整記住prompt的內(nèi)容。假設(shè)你輸入一個(gè)很長的Prompt,模型只能記住后面20%的位置,你這個(gè)Prompt就相當(dāng)于幾乎沒起作用。
我試過一些市面上開源的線性Attention模型,也試過自己設(shè)計(jì)模型,發(fā)現(xiàn)檢索能力都比較弱。做到這個(gè)時(shí)候,就感覺路還蠻難走的,因?yàn)楫?dāng)時(shí)既不知道線性Attention的未來是什么樣,又發(fā)現(xiàn)它有這樣的問題,所以一度感覺走進(jìn)了死胡同。
葡萄君:行業(yè)可能也對這個(gè)方向信心不足。
秦臻:關(guān)于這個(gè)領(lǐng)域的未來,我自己也不清楚——你能不能拿固定大小的東西,記住任意長度的上下文?這個(gè)問題看起來是不太實(shí)際的。悲觀派就覺得,有限大小的東西,記憶能力肯定是有限的;樂觀派一方面覺得,記憶的大小、空間可能沒有你想的那么小,還有些人會(huì)拿人腦的儲(chǔ)存量與記憶能力做類比。
所以純線性Attention能不能做所謂的推理檢索任務(wù),這應(yīng)該是個(gè)開放問題,可能樂觀一點(diǎn)的人還會(huì)去嘗試。
葡萄君:你算是樂觀派嗎?
秦臻:我不算樂觀,但我肯定不悲觀。如果你想到比較有意思的idea,發(fā)現(xiàn)沒人做過,那至少試了才知道行不行。
賴鴻昌:技術(shù)發(fā)展往往是螺旋上升,總會(huì)有一些去修正與改進(jìn),也不是說所有研究都要一條道走到黑。從Transformer最早發(fā)布到現(xiàn)在,也有很多新的變化。
葡萄君:在這幾年的研究中,你有沒有碰到什么巨大的難點(diǎn)?
秦臻:剛?cè)腴T和入行比較久之后都碰到過。剛?cè)腴T時(shí)碰到的問題是缺少idea,但這個(gè)階段還還比較好解決,因?yàn)樯抖疾欢?,接近白紙的狀態(tài),盡管你會(huì)沒有什么想法,但是多讀同行的論文就行,至少會(huì)有一些嘗試的新方向。
因?yàn)槔碚撋?,一個(gè)領(lǐng)域A的方案也可以借鑒到領(lǐng)域B。閱讀量大了之后,你只會(huì)存在一個(gè)問題,就是有沒有時(shí)間去嘗試、到底要試哪個(gè),因?yàn)闀r(shí)間是有限的。
入行比較久之后,又是另一種艱難——你看不到太多新東西了。鉆研一兩年之后,發(fā)現(xiàn)大家都在同一個(gè)水平線上,你從別人的論文里得不到太多靈感。這時(shí)你可能會(huì)去看看古早時(shí)期的論文,像RNN這個(gè)領(lǐng)域,上世紀(jì)六七十年代的論文都有,但看多之后,又會(huì)發(fā)現(xiàn)好多所謂的新東西,其實(shí)是幾十年前的翻新。
在這個(gè)階段,我感覺沒有太多新的思路可以做?;蛘哒f有一些新的,同行已經(jīng)在做了,我現(xiàn)在去做意義也不大。那段時(shí)間還是有點(diǎn)悲觀的,感覺純線性好像又沒什么用,那做什么呢?
葡萄君:你是怎么走出來的?
秦臻:有很多同行也在做類似的事,多看幾遍之后,確實(shí)會(huì)有一些新的靈感。你不可能永遠(yuǎn)領(lǐng)先,但也不會(huì)永遠(yuǎn)落后。只要一直保持探索、進(jìn)一步去閱讀,大家總歸會(huì)在類似的水平線上交流的。
賴鴻昌:這很像剛才那個(gè)心態(tài)問題,我們做AI探索,一開始會(huì)很興奮,那個(gè)時(shí)候可以說是真的愚昧之巔。到了去年,可能都落到了絕望之谷,這樣的曲線在我們行業(yè)很常見。我們也經(jīng)常會(huì)陷入自我否定、自我懷疑,但是又繼續(xù)去閱讀找靈感的狀態(tài)。
反正不管是應(yīng)用還是研究,應(yīng)該都是慢慢打磨出來的,急躁的心態(tài)很難做好。
03堅(jiān)持做有價(jià)值的事,一定有獨(dú)特的意義
葡萄君:你們覺得MiniMax為什么會(huì)先人一步注意到這種技術(shù)選型,還把它在這么大的一個(gè)規(guī)模上實(shí)現(xiàn)了?
秦臻:可能因?yàn)樗麄兪窃诖竽P屠顺敝皠?chuàng)立的公司,這類公司的特點(diǎn)就是,相比于浪潮之后的公司會(huì)更有一些技術(shù)信仰。
賴鴻昌:秦臻的工作驗(yàn)證了理論可能性,我們確實(shí)很佩服MiniMax愿意去嘗試,能真的把這個(gè)研究成果最終落地。因?yàn)?00B的模型,和我們做驗(yàn)證的難度不是一個(gè)量級的,他們也做了很多其他工作。
葡萄君:你看到他們的成果時(shí),第一反應(yīng)是什么,會(huì)有一些哭笑不得嗎?
秦臻:不會(huì),我很高興。因?yàn)槲沂紫戎?,在TapTap訓(xùn)那么大的模型肯定是不現(xiàn)實(shí)的。所以從個(gè)人角度,你看到你所提的方案,被應(yīng)用在這么大規(guī)模的模型里,肯定是會(huì)高興的。
另一方面,從領(lǐng)域發(fā)展的角度,大家之前覺得線性Attention在小規(guī)模下可以跑通,但一直沒有人有勇氣做到這么大,而MiniMax做到了非常關(guān)鍵的臨門一腳。我相信這會(huì)給行業(yè)注入新鮮血液,讓這個(gè)領(lǐng)域發(fā)展得更好。
葡萄君:站在圈外看熱鬧的視角,我感覺不了解事情的人是不是會(huì)有一種誤解——“心動(dòng)的研究成果被別人摘桃子了”。
秦臻:你只要發(fā)表了論文,那任何一家公司都可以使用其中的技術(shù)。當(dāng)你提出的技術(shù)被商業(yè)化落地,心情只有興奮。
賴鴻昌:或者說,他們是在把我們提供的食材做成一道菜。我們也是滿滿的敬畏,而且樂于見到這樣的事情發(fā)生。
葡萄君:最近成果出現(xiàn)之后,是不是會(huì)有很多人來打聽你?這會(huì)對你造成一些影響嗎?
秦臻:這個(gè)領(lǐng)域很小,之前的我相當(dāng)于小透明,現(xiàn)在可能會(huì)有一些領(lǐng)域外的同行對我好奇,畢竟我是在TapTap做Research,這是一個(gè)比較神奇的事情。
一些社群中對秦臻的討論
葡萄君:我有點(diǎn)好奇,你實(shí)際上是這個(gè)方向的翹楚,卻一直在當(dāng)小透明,會(huì)不會(huì)覺得心里有點(diǎn)憋屈?
秦臻:如果沒人關(guān)注,你心里不可能毫無波瀾。但我也想過這個(gè)問題——如果你認(rèn)為你做的東西有價(jià)值,別人看不看沒那么重要。因?yàn)槿绻娴暮苡袃r(jià)值,最后一定會(huì)有它被用上的一天。
如果你真的這么想,也喜歡自己認(rèn)定的方向,就要盡量避免浮躁的心態(tài)。因?yàn)槟阕鲞@些事不是為了贏得更多的關(guān)注度,而是為了你認(rèn)定的價(jià)值去堅(jiān)持。如果有一天它真的落地了,那還是一個(gè)額外的驚喜。
賴鴻昌:無論有沒有人關(guān)注、成果如何,都能長期做某一件事情,這也是秦臻作為Researcher的一個(gè)天賦,其他人很難維持這樣的心態(tài)。
葡萄君:在AI這個(gè)方向上,你們還有什么想做到的事情嗎?
賴鴻昌:第一,不要去過早地判斷,因?yàn)锳I領(lǐng)域的可能性,本身遠(yuǎn)超我們能做判斷的能力。
第二,我們希望順著這條路,在今年更多嘗試多模態(tài)大模型,支撐TapTap的業(yè)務(wù),最好能在具體業(yè)務(wù)問題上用自己的模型解決。今年,我們會(huì)想辦法去做1~2款應(yīng)用,同時(shí)也要保持投入保持韌性,接受失敗。在我們最終做完那一兩款之前,肯定是要再失敗N次的。
秦臻:從Research角度來說,去年半年我在線性模型方向有點(diǎn)陷入低谷,但現(xiàn)在的理解更進(jìn)了一步,能嘗試的還蠻多的。比如,當(dāng)你的方案從方向A和方向B都升級過之后,那必然會(huì)得到一個(gè)更好的成果,但你不知道是方向A還是方向B起了作用,誰是冗余的,這對我來說就是一個(gè)值得研究的問題。
葡萄君:對AI行業(yè)未來的發(fā)展,你們還有什么樣的展望嗎?
秦臻:從工業(yè)界角度來說,這個(gè)領(lǐng)域就是OpenAI領(lǐng)跑,大家跟進(jìn)。所以除非OpenAI本身碰到很大困難,否則應(yīng)該還能再蓬勃發(fā)展一段時(shí)間。從我自己預(yù)測的角度來說,我還是比較關(guān)心線性模型。假設(shè)真的能work,它能解鎖的場景真的很多。
但是關(guān)鍵在于,這事情有個(gè)悖論——就算沒跑通,因?yàn)樯疃葘W(xué)習(xí)的理論并沒有特別完善,你做了一個(gè)不work的研究,它實(shí)際上可能還是work的。所以除非你真把它做work了,才能證明它work;但你沒做work,卻不代表它一定不work。所以這個(gè)方向,可能還會(huì)有人持續(xù)去嘗試。
賴鴻昌:大模型行業(yè)就應(yīng)該在競爭中發(fā)展,而大家最后都會(huì)變成技術(shù)都受益者。我們能保持follow,在某個(gè)時(shí)間節(jié)點(diǎn)來臨的時(shí)候有所準(zhǔn)備,那就是最好的結(jié)果。
本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn),不代表創(chuàng)業(yè)邦立場,轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn。