光合作用是所有生命的能量來(lái)源,生態(tài)系統(tǒng)中碳循環(huán)的重要機(jī)制。作為“一支有溫度的基金”,光速光合也正在與創(chuàng)業(yè)者,與這個(gè)社會(huì)產(chǎn)生“光合作用”,聯(lián)結(jié)創(chuàng)新的同時(shí),推動(dòng)著社會(huì)的可持續(xù)發(fā)展。
創(chuàng)業(yè)邦將陸續(xù)刊載光速光合的投資專欄「光合說(shuō)」,本篇為專欄的第六期,分享光速光合投資背后的故事。
故事的起因可能是一通陌生的電話,一次登門拜訪,或是對(duì)一篇學(xué)術(shù)論文的關(guān)注……光速光合與創(chuàng)業(yè)者的交集就此展開(kāi)。沒(méi)有酒桌上的觥籌交錯(cuò),也沒(méi)有天花亂墜的承諾,只有長(zhǎng)時(shí)間的相伴,分擔(dān)痛苦、分享成功,實(shí)踐長(zhǎng)期主義的價(jià)值。
“思考、專注、探索、創(chuàng)新”,這是光速光合的投資信仰。憑借著對(duì)行業(yè)的極致追求,心懷時(shí)代賦予的責(zé)任,積極尋找下一個(gè)可能的機(jī)會(huì)。期待“中國(guó)創(chuàng)新的全球合伙人”能攜手更多行業(yè)創(chuàng)新的探路者們一路向光,合力而為。
“非常榮幸,在基流創(chuàng)業(yè)的成長(zhǎng)路上有眾多良師益友的鼎力相助,使基流有機(jī)會(huì)參與建設(shè)超級(jí)系統(tǒng),有機(jī)會(huì)見(jiàn)證中國(guó)通用人工智能落地。團(tuán)隊(duì)的拼搏使我倍感自豪,在人工智能飛速發(fā)展的浪潮中,我們留下了自己的足跡?!被骺萍糃EO胡效赫感慨地說(shuō)。
在清華一路從本科、博士到博后,胡效赫師從李軍研究員,于網(wǎng)絡(luò)安全實(shí)驗(yàn)室進(jìn)行了十年高性能網(wǎng)絡(luò)系統(tǒng)研究。他在加州大學(xué)伯克利分校作為訪問(wèn)學(xué)者期間曾師從于Scott Shenker院士,后者是SDN網(wǎng)絡(luò)的提出者。他非常精通于分布式計(jì)算及高性能網(wǎng)絡(luò),在創(chuàng)業(yè)前就已經(jīng)落地了全國(guó)首個(gè)運(yùn)營(yíng)商級(jí)Tbps可編程網(wǎng)絡(luò)產(chǎn)品,并在超算環(huán)境跑通國(guó)產(chǎn)千卡大模型。
專注大規(guī)模計(jì)算機(jī)系統(tǒng)的建設(shè),是胡效赫創(chuàng)業(yè)之初就定下的目標(biāo)。今天基流科技正在開(kāi)發(fā)的,正是針對(duì)人工智能設(shè)計(jì)的分布式GPU系統(tǒng),也被稱為算力集群。
“創(chuàng)業(yè)一年半以來(lái),基流科技建設(shè)了國(guó)內(nèi)最大的私有化單體算力集群?!焙Ш照f(shuō),“我們打破了行業(yè)里很多既定的共識(shí),比如證明AI訓(xùn)練并非時(shí)延敏感型,而是帶寬敏感型;我們跨30公里實(shí)現(xiàn)了廣域網(wǎng)的大模型訓(xùn)練而沒(méi)有帶來(lái)算力損失,在跨50公里時(shí)能保持98%-99%的算力。”這在世界范圍內(nèi)都是開(kāi)創(chuàng)性的。
光速光合在今年年初完成了對(duì)基流科技的Pre-A輪領(lǐng)投。
光速光合合伙人朱嘉表示,AI大模型的快速發(fā)展,對(duì)高性能算力的訴求日益增加,但大規(guī)模集群算力搭建壁壘高,國(guó)內(nèi)目前有千卡以上大規(guī)模集群搭建技術(shù)能力的團(tuán)隊(duì)很少,基流科技目前是中大型算力集群的解決方案提供商,累計(jì)建設(shè)和調(diào)優(yōu)十余個(gè)集群,擁有萬(wàn)卡集群落地經(jīng)驗(yàn),這在國(guó)內(nèi)非常稀缺。
打造高算力超級(jí)系統(tǒng)
1967年,IBM公司計(jì)算機(jī)架構(gòu)師吉恩·阿姆達(dá)爾提出了一個(gè)經(jīng)驗(yàn)公式,表明系統(tǒng)性能提升的潛力受到系統(tǒng)中可并行化部分的限制,即使并行處理器的數(shù)量無(wú)限增加,整體性能提升的上限也受到很大程度的制約。
簡(jiǎn)單來(lái)說(shuō),算力集群的計(jì)算速度并不能隨著GPU數(shù)量的增長(zhǎng)而無(wú)限疊加,就像1個(gè)人10天可以蓋一棟房子,10個(gè)人只需要1天,但100個(gè)人仍然需要1天的時(shí)間——其他90個(gè)人可能因?yàn)閿D不進(jìn)工地只能閑著。
訓(xùn)練大模型也是這樣。據(jù)Gartner的一份報(bào)告稱, GPT-3.5的訓(xùn)練過(guò)程中,使用了由一萬(wàn)個(gè)英偉達(dá)A100 GPU組成的高性能算力集群,在GPT-4上則提高到了約25000個(gè)A100 GPU,但其算力利用率僅為32%至36%,算力浪費(fèi)嚴(yán)重。
基流科技的工作就是設(shè)計(jì)出一套系統(tǒng),能夠組織幾千人,甚至上萬(wàn)人盡可能快地蓋好更多房子。
胡效赫表示,基流科技的產(chǎn)品主要面向三個(gè)維度,包括算力管控調(diào)度平臺(tái)、算力調(diào)優(yōu)運(yùn)維平臺(tái)和高速互聯(lián)硬件。目前,公司除了整套算力集群建設(shè)解決方案外,在集群管理、計(jì)算引擎和高速網(wǎng)絡(luò)三個(gè)層次上都進(jìn)行了產(chǎn)品化并有逐步落地,幫助AI企業(yè)將GPU合理的組織起來(lái),并盡可能地提高交付效率和 GPU利用率。
目前,基流科技的算力集群方案可以為GPU集群提升超20%的性能,幫助客戶在千卡環(huán)境中節(jié)省成本上千萬(wàn)元,在萬(wàn)卡環(huán)境中節(jié)省數(shù)億元。
超前布局千億市場(chǎng)
根據(jù)IDC的統(tǒng)計(jì),2022年全球計(jì)算設(shè)備算力總規(guī)模達(dá)到906EFlops,增速達(dá)到47%。算力產(chǎn)業(yè)蓬勃發(fā)展,預(yù)計(jì)未來(lái)五年全球算力規(guī)模將以超過(guò)50%的速度增長(zhǎng),到2025年,全球計(jì)算設(shè)備算力總規(guī)模將超過(guò)3ZFlops(注:1 ZFlops=10E9 TFlops)。
在人工智能爆發(fā)的時(shí)代,算力的重要性不亞于工業(yè)時(shí)代的煤炭和石油。在數(shù)字化時(shí)代,在互聯(lián)網(wǎng)上傳輸?shù)氖切畔⒘鳎撬懔?duì)數(shù)據(jù)進(jìn)行粗加工后的結(jié)構(gòu)化抽象;在智能時(shí)代,在互聯(lián)網(wǎng)上傳輸?shù)氖侵悄芰?,是算力?duì)數(shù)據(jù)進(jìn)行深度加工與精煉后的模型化抽象??梢哉f(shuō),近幾年人工智能的集中爆發(fā),離不開(kāi)算力和數(shù)據(jù)不斷堆疊而產(chǎn)生的“智能涌現(xiàn)”。
但算力和算力之間也是有區(qū)別的。胡效赫提到,基于傳統(tǒng)互聯(lián)網(wǎng)服務(wù)對(duì)算力的需求,和人工智能對(duì)算力的需求之間有很大的差別,因此需要重新設(shè)計(jì)網(wǎng)絡(luò)架構(gòu),相關(guān)技術(shù)還處于初級(jí)階段,在分布式計(jì)算、可擴(kuò)展性甚至硬件方面還有很大的想象空間。
他表示,在AI計(jì)算中,尤其在大模型預(yù)訓(xùn)練過(guò)程中,一個(gè)任務(wù)要在多臺(tái)機(jī)器的多個(gè)節(jié)點(diǎn)同時(shí)運(yùn)行,這個(gè)任務(wù)不可被切分,因此需要優(yōu)化并行策略、計(jì)算通信效能,以提高GPU利用率。這個(gè)過(guò)程對(duì)可擴(kuò)展性要求非常高。
另一方面,部分AI計(jì)算的規(guī)模非常龐大,可能涉及數(shù)萬(wàn)個(gè)連接點(diǎn)。當(dāng)計(jì)算任務(wù)在多個(gè)節(jié)點(diǎn)、多臺(tái)機(jī)器、跨越多跳互聯(lián)時(shí),一個(gè)硬件連接點(diǎn)壞掉后,整個(gè)任務(wù)會(huì)直接掛掉,這需要設(shè)計(jì)一套新的分布式計(jì)算引擎,以滿足容錯(cuò)、監(jiān)控和故障解決的需求。
“這種技術(shù)范式的變化實(shí)際上是脫胎于分布式計(jì)算,在市場(chǎng)端很多廠商對(duì)技術(shù)的變化認(rèn)知不夠明確,產(chǎn)業(yè)鏈上不同角色之間也缺乏共識(shí)?!?胡效赫認(rèn)為,“人工智能在我們看來(lái)是一個(gè)十年、二十年的發(fā)展機(jī)遇,算力基礎(chǔ)設(shè)施和模型的發(fā)展都才剛剛開(kāi)始,市場(chǎng)認(rèn)知會(huì)在一段時(shí)間后慢慢收斂、統(tǒng)一?!?/p>
根據(jù)信通院測(cè)算的結(jié)果,2022年我國(guó)計(jì)算設(shè)備算力總規(guī)模達(dá)到302 EFlops,全球占比約為33%,連續(xù)兩年增速超過(guò)50%,高于全球增速。智能算力需求呈現(xiàn)爆發(fā)式增長(zhǎng)態(tài)勢(shì),在算力規(guī)模中的比重將越來(lái)越高,未來(lái)五年復(fù)合增長(zhǎng)率達(dá)52.3%。
對(duì)算力的巨大需求造就了急速膨脹的市場(chǎng)規(guī)模。IDC數(shù)據(jù)顯示,2022年中國(guó)數(shù)據(jù)中心服務(wù)市場(chǎng)規(guī)模達(dá)1293.5億元人民幣,預(yù)計(jì)2027年市場(chǎng)規(guī)模將突破3000億元,其中用于推理的服務(wù)器的市場(chǎng)份額將達(dá)到62.2%,市場(chǎng)規(guī)模預(yù)計(jì)突破1800億元。
突破技術(shù)難關(guān),建立核心優(yōu)勢(shì)
隨著算力市場(chǎng)的爆發(fā)式增長(zhǎng),基流科技將發(fā)展的重點(diǎn)放在了項(xiàng)目的具體落地上,積極參與中大型計(jì)算集群的建設(shè)和運(yùn)維,嘗試將前期積累的工具變成更標(biāo)準(zhǔn)化的產(chǎn)品,同時(shí)探索國(guó)產(chǎn)化硬件適配和出海。
朱嘉看到,基流科技主打的基于開(kāi)放生態(tài)的高性能算力網(wǎng)絡(luò)系統(tǒng)已具備高性能和低綜合成本的優(yōu)勢(shì)。公司成立僅一年多,產(chǎn)品就獲得多家落地客戶的驗(yàn)證,發(fā)展速度很快。
“AI算力比拼的不光是單卡、單GPU芯片的能力,AI算力的核心背后體現(xiàn)的是由GPU形成的網(wǎng)絡(luò)集群能力?;骺萍嫉漠a(chǎn)品可以使一個(gè)大規(guī)模的計(jì)算集群能高效地運(yùn)營(yíng),解決GPU算力上的瓶頸問(wèn)題。”朱嘉表示,“我們期待公司能不斷迭代成長(zhǎng),成為全球AI最重要的基礎(chǔ)設(shè)施提供商。”
在基流科技成立的一年半的時(shí)間里,項(xiàng)目已落地一線廠商生產(chǎn)環(huán)境,為多個(gè)數(shù)據(jù)中心進(jìn)行算力集群的設(shè)計(jì)、建設(shè)、調(diào)優(yōu)和運(yùn)維,服務(wù)包括智譜AI、商湯科技、銀盾云、世紀(jì)互聯(lián)等廠商累計(jì)多個(gè)千卡到萬(wàn)卡的算力集群,同時(shí)也推出了十萬(wàn)卡的解決方案。
“我們希望通過(guò)建設(shè)這樣的超級(jí)系統(tǒng),形成高性能算力網(wǎng)絡(luò),最終支撐人工智能模型的應(yīng)用落地和企業(yè)的IT迭代?!?/p>
“高性能算力基礎(chǔ)設(shè)施是大勢(shì)所趨,在未來(lái)的競(jìng)爭(zhēng)當(dāng)中,技術(shù)就是我們的核心競(jìng)爭(zhēng)力?!痹诤Ш湛磥?lái),創(chuàng)業(yè)與科研是有相似之處的:“做科研需要我們沿著一個(gè)大方向,在關(guān)鍵點(diǎn)上進(jìn)行突破,方可獲得評(píng)審專家的認(rèn)可;創(chuàng)業(yè)也要尋找一個(gè)大方向,在領(lǐng)域內(nèi)建立自己的優(yōu)勢(shì),拿出企業(yè)需要的解決方案和產(chǎn)品,最終才能得到客戶和投資人的認(rèn)可?!?/p>
胡效赫總結(jié):“從這個(gè)角度來(lái)看,無(wú)論是科研還是創(chuàng)業(yè),Talk is cheap,Show me the code才是最重要的。這個(gè)行業(yè)剛剛開(kāi)始發(fā)展,我們的產(chǎn)品、技術(shù)在國(guó)內(nèi)公開(kāi)市場(chǎng)處于先發(fā)位置,但未來(lái)有諸多挑戰(zhàn)需要解決,擴(kuò)展優(yōu)化已建算力集群,做到‘后向兼容’,提升算力調(diào)度、運(yùn)維、故障定位的自動(dòng)化能力,支持長(zhǎng)距離分布式算力集群落地。沿著高性能算力網(wǎng)絡(luò)方向砥礪前行,為國(guó)產(chǎn)算力添磚加瓦,支持國(guó)產(chǎn)大模型落地,我們相信在未來(lái)的十萬(wàn)卡、百萬(wàn)卡集群中一定會(huì)有基流的身影,相信基流能與國(guó)內(nèi)頭部大模型廠商一起走入通用人工智能時(shí)代。”
本文為創(chuàng)業(yè)邦原創(chuàng),未經(jīng)授權(quán)不得轉(zhuǎn)載,否則創(chuàng)業(yè)邦將保留向其追究法律責(zé)任的權(quán)利。如需轉(zhuǎn)載或有任何疑問(wèn),請(qǐng)聯(lián)系editor@cyzone.cn。