在AIGC大爆發(fā)的背后,是海量AI訓(xùn)練和AI推理的算力需求。英偉達(dá)是目前最大的AI算力提供商,它第二季度的盈利水平(同比增長(zhǎng)854%)傳遞了一個(gè)信號(hào)—行業(yè)對(duì)于AI算力的需求還遠(yuǎn)未被滿足。
英偉達(dá)在AI算力的壟斷之勢(shì)(市場(chǎng)份額超80%),讓很多使用AI算力的公司擔(dān)憂,微軟、亞馬遜和OpenAI都在積極造芯,OpenAI還和Cerebras ,Atomic Semi等AI芯片創(chuàng)業(yè)公司傳出了收購(gòu)緋聞。
運(yùn)行AI應(yīng)用的AI推理算力需求在未來將會(huì)大大超過訓(xùn)練大模型的算力需求,而且推理算力的要求與訓(xùn)練并不相同,現(xiàn)有的GPU去做推理,在成本上沒有優(yōu)勢(shì),這就需要專有的AI推理芯片。
近日,一家專注做AI推理芯片的創(chuàng)業(yè)公司d-Matrix獲得了1.1億美元B輪融資,由淡馬錫領(lǐng)投,包含此前融資輪次的投資者有Playground Global、M12(微軟風(fēng)險(xiǎn)投資基金)、Industry Ventures、Ericsson Ventures、Samsung Ventures、SK Hynix等,產(chǎn)業(yè)投資占了相當(dāng)重要的部分。d-Matrix的首席執(zhí)行官Sid Sheth表示:“他們是懂得如何建立半導(dǎo)體業(yè)務(wù)的資本,是可以與我們長(zhǎng)期合作的資本?!?/p>
d-Matrix的新融資將用來打造其數(shù)字內(nèi)存計(jì)算 (DIMC) Chiplet推理計(jì)算卡Corsair。這種卡據(jù)稱推理速度是英偉達(dá)H100 GPU的9倍,如果是計(jì)算卡集群,與英偉達(dá)的類似解決方案相比,功率效率提高20倍,延遲降低20倍,成本降低高達(dá)30倍。
兩位芯片資深人士瞄準(zhǔn)AIGC時(shí)代的AI推理算力需求
AI系統(tǒng)在訓(xùn)練AI模型與使用它進(jìn)行預(yù)測(cè)和推理時(shí)使用不同類型的計(jì)算。AI推理需要的算力更少,但是當(dāng)運(yùn)行一個(gè)大型AI服務(wù)時(shí),長(zhǎng)期看需要比訓(xùn)練更多的算力。
使用現(xiàn)有的AI硬件很難低成本地部署一個(gè)專門用于AI推理的數(shù)據(jù)中心。有消息稱,微軟的GitHub Copilot服務(wù),平均每個(gè)月在每個(gè)用戶身上要倒貼20美元,據(jù)SemiAnalysis首席分析師Dylan Patel統(tǒng)計(jì),OpenAI運(yùn)行ChatGPT的單日投入成本可能高達(dá)70萬美元。這些成本,都是運(yùn)行AI服務(wù)時(shí)無法縮減的AI推理成本。
AI行業(yè)要更健康的發(fā)展,更低推理成本,更低能耗成本的AI推理芯片是剛需。
兩位芯片行業(yè)的資深人士Sid Sheth和Sudeep Bhoja于2019年創(chuàng)立了d-Matrix,他們此前曾在Marvell和Broadcom(博通)共事。2019年,Transformer架構(gòu)的AI模型剛剛興起,他們看到了這個(gè)模型架構(gòu)的巨大潛力和機(jī)會(huì),決定專門為這些大語言模型設(shè)計(jì)其AI硬件。
d-Matrix的首席執(zhí)行官兼聯(lián)合創(chuàng)始人Sid Sheth表示:“我們?cè)?019年做了一個(gè)賭注,決定專注做Transformer模型的加速平臺(tái),并且專注于推理,到2022年底,生成式AI爆發(fā)時(shí),d-Matrix成為少數(shù)幾家擁有生成式AI推理計(jì)算平臺(tái)的公司之一。我們?cè)谌甑臅r(shí)間里逐漸成長(zhǎng)并抓住了這個(gè)機(jī)會(huì)。我們所有的硬件和軟件都是為了加速Transformer模型和生成式AI構(gòu)建的?!?/p>
Sid Sheth繼續(xù)介紹了d-Matrix在市場(chǎng)定位上的獨(dú)特性:“生成式AI將永遠(yuǎn)改變?nèi)藗兒凸緞?chuàng)造、工作和與技術(shù)互動(dòng)的范式。
但是當(dāng)前運(yùn)行AI推理的總體擁有成本 (TCO) 正在迅速上升,d-Matrix團(tuán)隊(duì)正在通過為大語言模型專門打造的計(jì)算解決方案,改變部署AI推理的成本經(jīng)濟(jì)學(xué),而這輪融資進(jìn)一步證實(shí)了我們?cè)谠撔袠I(yè)中的地位?!?/p>
微軟M12的投資人Michael Stewart認(rèn)為:“當(dāng)大語言模型推理的TCO成為企業(yè)在其服務(wù)和應(yīng)用中使用先進(jìn)AI的關(guān)鍵限制因素時(shí),我們正式進(jìn)入生產(chǎn)階段。d-Matrix一直在遵循一個(gè)計(jì)劃,該計(jì)劃將為使用基于內(nèi)存為中心方法的靈活、彈性的Chiplet架構(gòu)的各種潛在模型服務(wù)場(chǎng)景提供行業(yè)突出的 TCO?!?/p>
將AI推理的成本降低30倍
使用CPU和GPU進(jìn)行AI的訓(xùn)練和推理,并不是效率最高的方式。對(duì)于AI推理運(yùn)算,數(shù)據(jù)移動(dòng)是最大的瓶頸。具體來說,將數(shù)據(jù)來回傳輸?shù)诫S機(jī)存取存儲(chǔ)器會(huì)導(dǎo)致顯著的延遲,這又會(huì)導(dǎo)致更高的能耗和成本,并拖慢整個(gè)AI系統(tǒng)的速度。
解決這個(gè)問題,可以有三種方式。
第一種是通過采樣和流水線減少處理的數(shù)據(jù)量來加速深度學(xué)習(xí),但它也限制了準(zhǔn)確性和精確性。
第二種是在傳統(tǒng)的處理器附近設(shè)置專用AI引擎的處理器,Apple、英偉達(dá)、Intel和AMD都采用這種方式,但這些解決方案仍然使用傳統(tǒng)的馮·諾依曼處理器架構(gòu)、要集成SRAM和外部DRAM存儲(chǔ)器,他們都需要將數(shù)據(jù)移入和移出存儲(chǔ)器,仍然造成高能耗和低效率。
第三種是將計(jì)算移動(dòng)到RAM(內(nèi)存)附近,也就是d-Matrix采用的方法。這種叫數(shù)字內(nèi)存計(jì)算(DIMC)的引擎架構(gòu)降低了延遲,減少了能源消耗。它也非常適合AI推理,因?yàn)橥评頃?huì)涉及一個(gè)相對(duì)靜態(tài)(但大型)的權(quán)重?cái)?shù)據(jù)集,這個(gè)數(shù)據(jù)集被反復(fù)訪問,DIMC消除了大部分能量轉(zhuǎn)移費(fèi)用和數(shù)據(jù)移動(dòng)的延遲。
d-Matrix使用多個(gè)Chiplet來構(gòu)建更大、模塊化且可擴(kuò)展的集成電路。這使它能夠構(gòu)建可擴(kuò)展的平臺(tái),用于企業(yè)級(jí)AI推理任務(wù),幫助AI企業(yè)提高性能和效率。
Jayhawk II Chiplet
2021年,d-Matrix推出了Nighthawk Chiplet,之后,他們推出了Jayhawk Chiplet平臺(tái),這是行業(yè)首款基于Open Domain-Specific Architecture(ODSA)Bunch of Wires(BoW)的Chiplet平臺(tái),旨在提供高能效的基于有機(jī)基板的芯片間連接。
而首批采用d-Matrix的DIMC架構(gòu)的產(chǎn)品將基于最近宣布的Jayhawk II處理器,這是一個(gè)包含約165億晶體管的Chiplet。
每個(gè)Jayhawk II Chiplet都包含一個(gè)RISC-V核心來管理它,32個(gè)Apollo核心(每個(gè)核心有八個(gè)并行操作的DIMC單元)、帶有150TB/s帶寬的256 MB SRAM。核心使用帶有84TB/s帶寬的特殊網(wǎng)絡(luò)芯片進(jìn)行連接。
Corsair計(jì)算卡
d-Matrix還推出了Corsair計(jì)算卡,類似英偉達(dá)的H100,每塊Corsair計(jì)算卡擁有8個(gè)Jayhawk II Chiplet,每個(gè)Jayhawk II提供2Tb/s(250GB/s)的芯片到芯片帶寬,單塊Corsair計(jì)算卡就擁有8Tb/s(1TB/s)的聚合芯片到芯片帶寬。
d-Matrix的架構(gòu)和軟件的可擴(kuò)展性使其能夠?qū)⒓傻腟RAM內(nèi)存聚合成一個(gè)提供非常高帶寬的統(tǒng)一內(nèi)存池。例如,帶有16張Corsair卡的服務(wù)器有32 GB的SRAM和2TB的LPDDR5,這足以運(yùn)行200億到300億參數(shù)的Transformer模型。
d-Matrix聲稱,與基于GPU的解決方案相比,搭載Corsair計(jì)算卡的服務(wù)器使生成式AI的推理總體擁有成本降低了10倍到30倍,但是這一套硬件將在2024年才能正式投入使用。
d-Matrix Aviator軟件堆棧
英偉達(dá)在AI算力的強(qiáng)大不僅在于GPU,也在于它的CUDA軟件堆棧以及為特定工作負(fù)載和用例優(yōu)化的眾多庫(kù),從而形成了完整生態(tài)。
d-Matrix也用Aviator軟件堆棧與硬件一起為客戶提供完整體驗(yàn),它包含了一系列用于生產(chǎn)中部署模型的軟件,例如ML工具鏈、用于工作負(fù)載分配的系統(tǒng)軟件、用于生產(chǎn)部署的推理服務(wù)器軟件等。而且其大部分軟件堆棧都利用了廣泛采用的開源軟件。
瞄準(zhǔn)相對(duì)較小的模型
d-Matrix的首席執(zhí)行官Sid Sheth指出,除了定位在AI推理外,它們還進(jìn)一步專注在數(shù)十億到數(shù)百億的中小大模型,而不是通用的千億以上大模型。
半導(dǎo)體和AI研究機(jī)構(gòu)Cambrian AI的創(chuàng)始人兼首席分析師Karl Freund也同意這種觀點(diǎn),他表示:“大多數(shù)企業(yè)不會(huì)部署千億或萬億參數(shù)大模型。但他們會(huì)使用公司的自有數(shù)據(jù)來微調(diào)模型,他們實(shí)際部署的模型規(guī)模會(huì)小得多。對(duì)于這種大小的模型,英偉達(dá)H100在AI推理方面不一定是最經(jīng)濟(jì)的選擇,目前H100的售價(jià)高達(dá)40000美元。”
他也指出,d-Matrix面臨一個(gè)機(jī)會(huì)窗口,在英偉達(dá)等巨頭轉(zhuǎn)向這個(gè)市場(chǎng)前,他有一段相對(duì)空白的時(shí)間來展現(xiàn)其價(jià)值。
目前,d-Matrix預(yù)計(jì)今年的收入將不超過1000萬美元,主要來自購(gòu)買芯片進(jìn)行評(píng)估的客戶。創(chuàng)始人Sheth表示,d-Matrix預(yù)計(jì)在兩年內(nèi)的年收入將超過7000萬至7500萬美元,并實(shí)現(xiàn)盈虧平衡。而d-Matrix面臨的市場(chǎng)空間是巨大的,Cambrian AI預(yù)計(jì)到2030年,AI推理芯片的算力功耗比達(dá)到每瓦超過1000 TOPS都是可能的。
自主性和成本是AI芯片的生存土壤
d-Matrix等AI芯片創(chuàng)業(yè)公司的生存土壤,一方面來自于AI廠商的自主可控需求,無論是微軟,Meta,亞馬遜這樣的巨頭,OpenAI,Anthropic這樣的超級(jí)獨(dú)角獸,還是Cohere等突出的創(chuàng)業(yè)公司,他們都不希望自己的AI算力與單一公司綁定。
另一方面就是AI服務(wù)的運(yùn)行成本問題,對(duì)于大模型公司,從長(zhǎng)期看,運(yùn)行AI服務(wù)的算力成本會(huì)高于訓(xùn)練模型的算力成本,而且在現(xiàn)階段,AI企業(yè)的單個(gè)用戶的運(yùn)行成本是虧損狀態(tài),總體擁有成本 (TCO) 也高企。對(duì)于資金充裕的巨頭,這種虧損狀態(tài)尚可承擔(dān),但是對(duì)于創(chuàng)業(yè)公司來說,則是巨大負(fù)擔(dān),會(huì)拖慢他們的業(yè)務(wù)進(jìn)一步擴(kuò)大的速度。
第三方、低成本的AI推理算力,無論對(duì)于巨頭,還是對(duì)于創(chuàng)業(yè)公司,都極為需要。
目前的階段,AI芯片領(lǐng)域的創(chuàng)業(yè)公司面臨什么風(fēng)險(xiǎn)?其一當(dāng)然是英偉達(dá)巨頭的“壟斷”,以及微軟、Meta、谷歌、OpenAI這些最大的AI公司自研芯片,再就是與芯片配套的軟件生態(tài)問題。
而這些問題,d-Matrix都在解決當(dāng)中。它瞄準(zhǔn)了商用中小規(guī)模AI模型的市場(chǎng),也與開源社區(qū)合作,打造軟件生態(tài),這都能讓它在巨頭競(jìng)爭(zhēng)時(shí)擁有差異化競(jìng)爭(zhēng)優(yōu)勢(shì)。
本文由阿爾法公社原創(chuàng)。