編者按:本文來(lái)自微信公眾號(hào) 新莓daybreak(ID:new-daybreak),作者:何聆箏,編輯:翟文婷,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。
從互聯(lián)網(wǎng)大模型基礎(chǔ)裝備競(jìng)賽,到落地應(yīng)用混戰(zhàn),不過(guò)一年時(shí)間。
一年前,包括李彥宏、王小川等人還在放話,他們所推出的大模型技術(shù)能力對(duì)標(biāo)GPT,但是不知不覺(jué)中,不論巨頭還是創(chuàng)業(yè)公司,都把目光聚焦在如何放大產(chǎn)品的用戶規(guī)模。
從技術(shù)到產(chǎn)品,這不是非此即彼的選擇題,而是兩手抓兩手都要硬的充分必要題。
移動(dòng)互聯(lián)網(wǎng)時(shí)代,頭頂「APP工廠」的字節(jié)自然是最受關(guān)注的,豆包的月活很早前就破兩千萬(wàn),成為規(guī)模最大的通用型應(yīng)用。
國(guó)內(nèi)現(xiàn)有的六家大模型獨(dú)角獸公司:月之暗面、MiniMax、智譜 AI、百川智能、零一萬(wàn)物、階躍星辰,其中月之暗面旗下的kimi賺足了眼球,獲得一定的用戶基礎(chǔ)和口碑。除此之外,就是MiniMax的星野和海螺 AI。
MiniMax創(chuàng)始人閆俊杰旗幟鮮明地表示,在技術(shù)快速進(jìn)化的窗口關(guān)閉前,創(chuàng)業(yè)公司要做出用戶量巨大的to C產(chǎn)品。
他還說(shuō),一個(gè)擁有很強(qiáng)技術(shù)的公司不應(yīng)該是個(gè)賣技術(shù)的公司,而是一家「技術(shù)驅(qū)動(dòng)產(chǎn)品」的公司。
所以MiniMax身上有幾個(gè)特點(diǎn):早于GPT出現(xiàn)前成立,創(chuàng)始人出身于AI公司商湯;最早同時(shí)發(fā)力技術(shù)和產(chǎn)品的創(chuàng)業(yè)公司;早于生成式人工智能備案條例就開(kāi)發(fā)出應(yīng)用Glow,可能是目前唯一有過(guò)產(chǎn)品下架命運(yùn)的公司。同時(shí)得到騰訊、阿里、高瓴和紅杉等一線公司的投資。
這些標(biāo)簽似乎指向,這是一家冉冉升起的明星創(chuàng)業(yè)公司。但可能也側(cè)面說(shuō)明,AI大模型時(shí)代創(chuàng)新門(mén)檻在被抬高,留給公司的時(shí)間和空間都會(huì)比較有限。
尋找長(zhǎng)期最優(yōu)解
閆俊杰講過(guò)一個(gè)小故事。
他80歲的外公曾經(jīng)想要寫(xiě)一本書(shū),講述自己的人生經(jīng)歷,但因?yàn)闆](méi)有辦法書(shū)寫(xiě),也不會(huì)打字,就此作罷。當(dāng)時(shí)的閆俊杰還在商湯帶技術(shù)團(tuán)隊(duì),每天AI領(lǐng)域的論文已經(jīng)多到他看不完。技術(shù)進(jìn)展超出理解范圍,然而在現(xiàn)實(shí)中,自己做的事情卻甚至無(wú)法幫助外公寫(xiě)一本書(shū)。
像大多數(shù)如真如幻的創(chuàng)業(yè)故事那樣,在巨大的落差之間,閆俊杰看到了機(jī)會(huì)。MiniMax由此誕生。他還定下了一個(gè)愿景:Intelligence with Everyone(用最好的技術(shù)服務(wù)每一個(gè)人)。
MiniMax是國(guó)內(nèi)第一個(gè)講出「AI 2 C」的公司,也是國(guó)內(nèi)少有同時(shí)發(fā)力大模型技術(shù)和產(chǎn)品的公司。這被李彥宏認(rèn)為是創(chuàng)業(yè)公司并不適合的選擇,甚至有「自殺式」發(fā)展的嫌疑。
閆俊杰卻大膽與之唱反調(diào),「對(duì)創(chuàng)業(yè)公司,至少對(duì)中國(guó)的創(chuàng)業(yè)公司來(lái)說(shuō),更好的方式是同時(shí)思考技術(shù)和產(chǎn)品?!挂?yàn)椋绻麤](méi)有足夠好的產(chǎn)品能力承接,即使公司有了一些技術(shù)進(jìn)展,這些東西最終也不是你的。一個(gè)獨(dú)立發(fā)展的創(chuàng)業(yè)公司一定要考慮產(chǎn)品。
此外,在他看來(lái)AI并非核彈一樣的「大殺器」,而是普通人每天會(huì)用的產(chǎn)品和服務(wù)。要完成更廣泛的覆蓋,MiniMax需要在技術(shù)快速進(jìn)化的窗口關(guān)閉前,做出用戶量巨大的 2C 產(chǎn)品。
迄今為止,MiniMax先后打造的4款產(chǎn)品,既有AI內(nèi)容社區(qū)應(yīng)用,也有問(wèn)答等生產(chǎn)力應(yīng)用。300-400人的團(tuán)隊(duì)中,有一半以上是技術(shù)團(tuán)隊(duì),另有40%負(fù)責(zé)產(chǎn)品。
作為下架產(chǎn)品Glow的升級(jí)版,星野自2023年9月8日上線,在不到一年時(shí)間里安裝量突破了1000萬(wàn),DAU高峰接近80萬(wàn),是國(guó)內(nèi)C端AI應(yīng)用為數(shù)不多有此突破的產(chǎn)品。
單看星野的玩法和定位,基本對(duì)標(biāo)國(guó)外的虛擬陪伴式應(yīng)用Character.AI。用戶根據(jù)自己的偏好,生成陪伴式「智能體」。根據(jù)月狐數(shù)據(jù),星野全網(wǎng)用戶的人均使用時(shí)長(zhǎng)已經(jīng)達(dá)43.29分鐘,其中女性用戶占比已經(jīng)超過(guò)55%。
但與Character.AI寥落的付費(fèi)意愿相比,星野已經(jīng)毫不掩飾發(fā)力商業(yè)化。充值抽卡片「虛擬物品」、月卡12元的付費(fèi)會(huì)員……星野差不多是眾多AI智能體中,商業(yè)化最積極的。
MiniMax旗下另一款應(yīng)用海螺AI也有拿得出手的數(shù)據(jù),9月MAU接近500萬(wàn)。
閆俊杰的觀點(diǎn)是,評(píng)判一項(xiàng)技術(shù)是否優(yōu)秀,最重要的標(biāo)準(zhǔn)便是「是否可以每天使用和交互」。但應(yīng)用只是表象,他的最終愿景是AGI ,做一家以產(chǎn)品驅(qū)動(dòng)的大模型公司。
因此,MiniMax一邊自研底層大模型,一邊做上層應(yīng)用,通過(guò)底層技術(shù)提升應(yīng)用體驗(yàn),再通過(guò)應(yīng)用讓技術(shù)得以推廣,獲得驅(qū)動(dòng)大模型獲取數(shù)據(jù)「燃料」,并反哺底層模型技術(shù),最終形成正循環(huán)。
除了APP矩陣,MiniMax開(kāi)放平臺(tái)也開(kāi)始進(jìn)賬B端企業(yè)的Tokens使用費(fèi)。有媒體援引投資人士消息表示,MiniMax今年預(yù)計(jì)收入將達(dá)到7000萬(wàn)美元。
隨著使用頻次的加深,以及對(duì)多模態(tài)的持續(xù)探索,MiniMax的底層模型能力還在持續(xù)得到升級(jí)。一個(gè)月前,MiniMax在「伙伴日」上發(fā)布了一條長(zhǎng)達(dá)2分鐘的多模態(tài)視頻,正是基于新一代abab模型技術(shù)應(yīng)用創(chuàng)造的。
沒(méi)有別的選擇
如果不刻意強(qiáng)調(diào)身份,第一眼看到閆俊杰時(shí),你可能很難意識(shí)到這是一位AI從業(yè)者。
除了稀疏的毛發(fā),閆俊杰的外在沒(méi)有太多傳統(tǒng)意義上的「理工特色」。一張含笑的圓臉,很少出現(xiàn)大開(kāi)大合的表情。
與這種波瀾不驚所相對(duì)的,卻是閆俊杰在做決策時(shí)的「手起刀落」。但每一次押注,他似乎都走在行業(yè)前列。
閆俊杰創(chuàng)立MiniMax時(shí),距離OpenAI發(fā)布ChatGPT還有1年多時(shí)間。此前,閆俊杰一直在商湯科技任職,這也是他的第一份工作,一路做到副總裁。2021年12月,商湯成為「AI視覺(jué)第一股」,在股價(jià)翻飛之際,閆俊杰卻轉(zhuǎn)頭成立自己的AGI企業(yè),也就是MiniMax。
這種先發(fā)優(yōu)勢(shì)還體現(xiàn)在,大模型還沒(méi)集體狂熱的時(shí)候,MiniMax又以相對(duì)便宜的價(jià)格找字節(jié)火山引擎租用大量 GPU 算力。兵馬未動(dòng),「彈藥」已到位。
2023年6月,閆俊杰又做出一個(gè)大膽決定:押上公司80%的可用算力資源做MoE「混合-多專家模型」。
傳統(tǒng)的Dense模型因?yàn)樯蓆oken成本過(guò)高,延時(shí)嚴(yán)重,大模型廠商為此陷入焦慮。閆俊杰同樣感到崩潰,「我們那個(gè)時(shí)候發(fā)現(xiàn)每天處理幾百億token。如果是Dense模型,我們沒(méi)有辦法每天出這么多token。很快會(huì)因?yàn)橥评沓杀締?wèn)題,耗盡所有錢?!?/p>
就在這時(shí)候,一篇名為《MoE Meets Instruction Tuning》的論文發(fā)布。文中提出一個(gè)以技術(shù)軟實(shí)力突破硬件護(hù)城河的破局思路:MoE模型可以在不增加太多計(jì)算資源的情況下,讓模型變得更加復(fù)雜和強(qiáng)大。
這個(gè)作者只是提出了破局的可能性。MiniMax的早期投資人、明勢(shì)資本合伙人黃明明認(rèn)為「MoE的提出者自己都不太相信MoE這條路徑」。
2023年下半年,閆俊杰投注了公司80%可用的資源開(kāi)始死磕MoE。而且他跟大多數(shù)股東都沒(méi)有溝通,甚至沒(méi)有保留plan B。
資金實(shí)力和早期獲取的便宜算力大概是支撐閆俊杰調(diào)轉(zhuǎn)方向的底氣之一。彼時(shí)的MiniMax正在進(jìn)行一場(chǎng)10億美金左右估值的融資。在此之前,MiniMax已經(jīng)經(jīng)過(guò)了兩輪融資,總金額7億美金,投資方包括高瓴資本、明勢(shì)資本。但在燒錢如流水的AI賽道,時(shí)刻需要注入新的彈藥。
兩次失敗使得MiniMax砸進(jìn)去了大量的資金。比如有一次模型訓(xùn)了半個(gè)月,才發(fā)現(xiàn)一些指標(biāo)離前期估測(cè)的越來(lái)越遠(yuǎn)。閆俊杰形容「就像發(fā)了一個(gè)火箭,本來(lái)以為它可以到三萬(wàn)米,但它偏航了」。
盡管收獲了許多經(jīng)驗(yàn),但還是失去了寶貴的時(shí)間。因?yàn)楦?jìng)爭(zhēng)對(duì)手一直在優(yōu)化Dense模型,一旦失敗,意味著原本處于先發(fā)優(yōu)勢(shì)的MiniMax將全面落后于競(jìng)爭(zhēng)對(duì)手。
矛盾總是最先在內(nèi)部發(fā)生。一些高管坐不住,向閆俊杰表達(dá)疑問(wèn)。閆俊杰自己并不總是氣定神閑。
在與黃明明的一次對(duì)話中,他坦言押注MOE時(shí)多少是有些慌的,甚至最初也懷疑過(guò)自己是不是在「賭」。但是他別無(wú)他選,也清楚這是唯一的路,甚至認(rèn)為「做不出來(lái)就完了」。
現(xiàn)實(shí)情況是,2022年以來(lái),英偉達(dá)芯片價(jià)格不斷上漲,互聯(lián)網(wǎng)巨頭也開(kāi)始吃不消。紐約時(shí)報(bào)曾爆料,為了支撐ChatGPT,OpenAI需要使用3萬(wàn)塊英偉達(dá)A100的算卡,而且每天的耗電超過(guò)50萬(wàn)度。
作為應(yīng)對(duì)策略,微軟、OpenAI、Meta、谷歌等巨頭紛紛宣布自研芯片計(jì)劃。但效果和時(shí)間未知。
MiniMax向來(lái)秉持「只租卡,不買GPU」,如果要繼續(xù)探索上限,就只能改變模型底層架構(gòu),換一種無(wú)需耗費(fèi)太多資源就能達(dá)到很好的訓(xùn)練和推理效果的模型架構(gòu)。
結(jié)果是,閆俊杰走通了。MOE+Linear Attention讓MiniMax大模型的訓(xùn)練與反饋?zhàn)兊酶?,?duì)比GPT-4o同一代模型能力,新一代模型處理10萬(wàn)token時(shí),效率可提升2-3倍,長(zhǎng)度越長(zhǎng),提升越明顯。
這一次,閆俊杰似乎又「賭對(duì)了」。
AGI「信徒」
時(shí)間倒退回2021年,在MiniMax創(chuàng)立的原點(diǎn)。閆俊杰講出自己的夢(mèng)想時(shí),鮮少有人聽(tīng)得懂。
明勢(shì)資本的黃明明曾透露2021年首次見(jiàn)到閆俊杰時(shí),面對(duì)對(duì)話、語(yǔ)音、數(shù)字人這些概念,聯(lián)想到的卻是元宇宙。好在同行之中有人意會(huì)。因?yàn)殡U(xiǎn)些錯(cuò)過(guò)MiniMax,明勢(shì)資本還定了一個(gè)規(guī)則:見(jiàn)比較重磅的創(chuàng)始人時(shí),至少帶三個(gè)人一起去。
直到2022年11月,ChatGPT橫空出世,AGI 概念大熱。全中國(guó)的風(fēng)險(xiǎn)投資機(jī)構(gòu)都在尋找「誰(shuí)是中國(guó)的 ChatGPT」,MiniMax和它的第一款智能體對(duì)話交互產(chǎn)品Glow,走進(jìn)了資本的視野中。
閆俊杰不再需要向每個(gè)人解釋他的夢(mèng)了,但激進(jìn)的技術(shù)路線依然使他時(shí)處于被誤解的境遇中。
與大部分逐浪而來(lái)的人不同,閆俊杰對(duì)技術(shù)的理解顯現(xiàn)出一種超越現(xiàn)實(shí)的簡(jiǎn)單。他認(rèn)為技術(shù),特別是研發(fā)投入很大的技術(shù),追求的不應(yīng)該是10%的提升,而是數(shù)倍變化的提升。
「像造芯片一樣,是一個(gè)巨大的系統(tǒng)工程,不能只做 5%、10% 的提升,需要能帶來(lái)數(shù)量級(jí)提升的技術(shù)突破?!?/p>
因此他會(huì)選擇「上限最高」的技術(shù)路線,幾乎沒(méi)有退路,算力方式也激進(jìn)。
MiniMax通過(guò)「產(chǎn)品化APP+開(kāi)放平臺(tái)」的方式,覆蓋2C+2B的用戶圈層,這是大多數(shù)創(chuàng)業(yè)公司都選擇回避的路徑。因?yàn)橘Y金彈藥有限,這種嘗試過(guò)于奢侈。
除了覆蓋廣度,閆俊杰還在意使用深度,把多模態(tài)視作核心判斷標(biāo)準(zhǔn)。因?yàn)樗冀K認(rèn)為,文字交互只是很小的一部分,AI就像一個(gè)人,整合了聲音、圖文和視頻的多模態(tài)能力才能帶來(lái)完整的體驗(yàn)。
一個(gè)月前MiniMax在「伙伴日」上發(fā)布的那條兩分鐘視頻,正是由語(yǔ)言模型、視頻模型等整合生成的多模態(tài)視頻。在此之前,即便是OpenAI也只能將語(yǔ)音模型和語(yǔ)言模型整合到一起生成結(jié)果。
和曾經(jīng)多次早于行業(yè)做出的預(yù)判一樣,閆俊杰在很早之前就意識(shí)到,大模型在多模態(tài)的進(jìn)步,會(huì)帶來(lái)用戶體驗(yàn)的提升、獲得更高的用戶滲透率。而多模態(tài)融合,同樣也是閆俊杰所找到的長(zhǎng)期最優(yōu)解。
無(wú)論是技術(shù)研發(fā)、C端產(chǎn)品運(yùn)營(yíng)還是B端服務(wù),都需消耗大量資源,然而也正是這條厚重的發(fā)展路徑,為MiniMax贏得了時(shí)間。
2024年1月,MiniMax發(fā)布了大語(yǔ)言模型abab6.0版本,隨后迭代加速,4月便發(fā)布abab6.5版本,并同步上線AI助手「海螺AI」。到9月初日均 30 億次 AI 交互量,處理 3 萬(wàn)億 Token。
但對(duì)于現(xiàn)在的產(chǎn)品到底是不是最終那個(gè)Super App,閆俊杰認(rèn)為不重要。更重要的還是技術(shù)能夠足夠快地進(jìn)步。
這位AGI「信徒」,必須在噪音中發(fā)現(xiàn)最本質(zhì)、最長(zhǎng)遠(yuǎn)的解題思路。
本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn),不代表創(chuàng)業(yè)邦立場(chǎng),轉(zhuǎn)載請(qǐng)聯(lián)系原作者。如有任何疑問(wèn),請(qǐng)聯(lián)系editor@cyzone.cn。