編者按:本文來自微信公眾號 半導(dǎo)體產(chǎn)業(yè)洞察(ID:IC_insights),作者:杜芹,創(chuàng)業(yè)邦經(jīng)授權(quán)發(fā)布。
2023年,生成式AI技術(shù)一枝獨(dú)秀,在人工智能領(lǐng)域獨(dú)占鰲頭,成為最耀眼的明星。在下半年,生成式AI芯片玩家更是掀起了一股狂歡。先是ChatGPT幕后的股東微軟在11月16日的Microsoft Ignite大會(huì)上發(fā)布Maia 100芯片,1050億晶體管挑戰(zhàn)AI芯片極限;緊接著,亞馬遜云科技(AWS)在11月底的re:Invent大會(huì)上發(fā)布了專為生成式AI和機(jī)器學(xué)習(xí)訓(xùn)練的專用芯片Trainium 2;而在12月初,谷歌也放大招,發(fā)布了新一代TPU芯片v5p。
隨著這些云服務(wù)巨頭紛紛推出新一代生成式AI芯片,圍繞著生成式AI領(lǐng)域的競爭愈演愈烈。
生成式AI大模型,成兵家必爭之地
科技巨頭蘋果來自服務(wù)領(lǐng)域的營收高達(dá)850多億美元,占到總營收的22%。以ChatGPT為代表的大模型應(yīng)用說到底也是服務(wù)的一種。像大模型這樣的服務(wù)功能正在成為科技企業(yè)未來可觀的業(yè)務(wù)營收增長來源。所以,生成式AI早已是兵家必爭之地。
根據(jù)研究公司International Data Corp.(IDC)的預(yù)測,僅今年一年,全球企業(yè)就將在生成式AI解決方案上花費(fèi)大約為159億美元,2024年的花費(fèi)大約是355億美元。預(yù)計(jì)到2027年,全球用于生成式AI的支出將達(dá)到1,431億美元。IDC表示,ICT企業(yè)在AI領(lǐng)域支出大約為7%,而生成式AI在2027年將占總體AI支出的34%。而中國在生成式AI上的支出,從2022年~2027年的復(fù)合年增長率更是高達(dá)87.5%。
而且行業(yè)用戶對生成式AI的應(yīng)用和部署整體非常熱衷。IDC在2023年8月的《Gen AI ARC Survey》的調(diào)研報(bào)告中指出,在擁有5000名以上員工的企業(yè)中,80%的企業(yè)認(rèn)為GenAI(生成式AI)將在未來 18個(gè)月內(nèi)顛覆他們的業(yè)務(wù)。高管們希望在2024年看到GenAI 在客戶體驗(yàn)、決策制定和訂單速度方面的收益。不少企業(yè)已經(jīng)把生成式AI支出納入年度預(yù)算。
在這樣的市場需求下,云巨頭們無不紛紛開始布局大模型。谷歌近日強(qiáng)勢推出Gemini,劍指GPT-4。Gemini被谷歌號稱是“性能優(yōu)于以前最先進(jìn)的模型”,眾所周知,當(dāng)今最強(qiáng)大的大模型是GPT4。Gemini是從頭開始構(gòu)建的多模式,這意味著它可以概括和無縫地理解、操作和組合不同類型的信息,包括文本、代碼、音頻、圖像和視頻。Gemini Ultra 的得分高達(dá) 90.0%,是第一個(gè)在MMLU(大規(guī)模多任務(wù)語言理解)上超越人類專家的模型。
Gemini 在文本和編碼等一系列基準(zhǔn)測試中超越了最先進(jìn)的性能。(圖源:谷歌)
AWS也發(fā)布了融合了亞馬遜25年的人工智能 (AI) 和機(jī)器學(xué)習(xí) (ML)創(chuàng)新的Titan多模式基礎(chǔ)模型 (FM)。不過AWS的Titan模型是一款文生圖的模型,它主要針對的受眾是企業(yè),譬如廣告、電子商務(wù)以及媒體和娛樂公司可以以低成本大批量創(chuàng)建工作室品質(zhì)的逼真圖像,而不是像 OpenAI 的 DALL-E 等現(xiàn)有的知名圖像生成器那樣以消費(fèi)者為導(dǎo)向。
而中國百模大戰(zhàn)也已開啟。聽、說、讀、寫、看、畫、思、動(dòng),AI無處不在的時(shí)代已經(jīng)悄然朝我們走來。
來源:拍攝自IDC中國副總裁兼首席分析師武連峰《加速構(gòu)建生成式AI:從戰(zhàn)略到落地》演講
在生成式AI領(lǐng)域,不可能僅單一的大模型就可以釋放生成式AI的所有價(jià)值。所以繼ChatGPT之后,市場上必然還會(huì)有其他高性能的大模型會(huì)在市場有所立足之地。至于最終誰將能夠與ChatGPT一樣問鼎中原,仍然需要經(jīng)歷市場的考驗(yàn)。
自研芯片成為發(fā)展大模型企業(yè)行業(yè)主流
在推動(dòng)生成式人工智能應(yīng)用發(fā)展的過程中,底層芯片扮演著至關(guān)重要的角色??紤]到X86服務(wù)器CPU的相對較高成本以及 Nvidia Hopper H100 和 H200 GPU 加速器以及AMD Instinct MI300X 和 MI300A GPOU加速器的驚人定價(jià),更為關(guān)鍵的是,這些高性能芯片面臨供應(yīng)不足的問題。因此,自研芯片逐漸成為推動(dòng)大型模型企業(yè)發(fā)展的主流方式。
在一眾云服務(wù)提供商中,谷歌是資深的芯片玩家。雖然谷歌的第一代TPU芯片是在2016年的Google I/O開發(fā)者大會(huì)上發(fā)布的,但是其自研芯片的旅途卻始于十年前。其最新發(fā)布的TPU芯片——TPU v5p,與 TPU v4 相比FLOPS 提高了 2 倍以上,高帶寬內(nèi)存 (HBM) 提高了3倍以上,總?cè)萘繛?95GB。谷歌將這些TPU v5p組合到Pod中,每個(gè)TPU v5p Pod由 8,960 個(gè)芯片組成,并通過谷歌的最高帶寬的芯片間互連 (ICI)連接在一起,采用3D環(huán)面拓?fù)?,每芯片速率?4,800 Gbps。谷歌稱,TPU v5p訓(xùn)練大型 LLM 模型的速度比上一代 TPU v4 快 2.8 倍。谷歌最新的Gemini大模型就是使用TPU進(jìn)行訓(xùn)練和服務(wù)的,而且谷歌表示,使用TPU定制芯片Gemini 的運(yùn)行速度明顯快于早期、較小且功能較差的型號。
谷歌v5p vs v5e vs v4(圖源:谷歌)
AWS近日也發(fā)布了專為高性能深度學(xué)習(xí)訓(xùn)練而設(shè)計(jì)的Trainium 2。Trainium 2芯片可以訓(xùn)練具有數(shù)千億至數(shù)萬億參數(shù)的基礎(chǔ)模型進(jìn)行優(yōu)化。每個(gè)Trainium加速器都包含兩個(gè)專為深度學(xué)習(xí)算法而構(gòu)建的第二代NeuronCore,采用NeuronLink,這是一種實(shí)例內(nèi)、超高速非阻塞互連技術(shù)。Trainium 2加速器具有32GB的高帶寬內(nèi)存,提供高達(dá)190 TFLOPS的 FP16/BF16 計(jì)算能力,比Trainium 1芯片訓(xùn)練速度快4倍。并能夠部署在多達(dá) 100,000個(gè)芯片的EC2 UltraClusters中,從而使基礎(chǔ)模型 (FM) 和大型語言模型 (LLM) 的訓(xùn)練只需極少的時(shí)間,同時(shí)能效提高達(dá)2倍。
相比谷歌和AWS,微軟在自研芯片領(lǐng)域可以說起步晚了些,但是其卻來勢兇猛。微軟自研的Maia 100芯片基于臺(tái)積電5納米工藝打造,總共包含1050億個(gè)晶體管。從公開數(shù)據(jù)開來,微軟這顆芯片是迄今為止最大的AI芯片。Maia 100在MXInt8下的性能為1600 TFLOPS,在MXFP4下則錄得了 3200 TFLOPS的運(yùn)算速度。從這些FLOPS 看來,該芯片完全徹底碾壓了谷歌的 TPU v5 (Viperfish) 以及亞馬遜的Trainium/Inferentia2 芯片。與Nvidia的H100 和AMD的MI300X相比,微軟Maia 100的差距也并不遠(yuǎn)。不過在內(nèi)存帶寬方面,微軟Maia 100的規(guī)格是1.6TB/s的內(nèi)存帶寬,高于Trainium/Inferentia2,但卻遜于TPUv5,至于其原因,按照semianalysis的說法,之所以微軟會(huì)出現(xiàn)這樣的“錯(cuò)誤”,完全是因?yàn)檫@該芯片是在LLM熱潮發(fā)生之前設(shè)計(jì)的。在芯片互連方面,與谷歌對其TPUv5和專有ICI網(wǎng)絡(luò)所做的類似,微軟在每個(gè)芯片都有自己的內(nèi)置傳輸速度達(dá)4.8Tbps 的RDMA以太網(wǎng) IO,。
市場上有很多傳聞,ChatGPT的開發(fā)者OpenAI也在考慮自研芯片,并招募了不少行業(yè)的大牛。按照這個(gè)發(fā)展態(tài)勢,可能未來的大模型公司都會(huì)采取自研的策略。
背后原因:為了壓價(jià)?替代GPU?還是只是備選?
那么,這些正在進(jìn)軍大模型的龍頭云廠商們,自研芯片究竟所為哪般?
眾所周知,目前市面上能用于生成式AI大模型訓(xùn)練的芯片價(jià)格普遍很高,所以這些廠商自研是否是為了壓價(jià)?有消息稱,谷歌使用TPU后,不必向Nvidia支付70%的利潤。又或是徹底替代第三方的GPU or其他AI加速器芯片?還是只是為了一個(gè)備選?對此,業(yè)內(nèi)不同領(lǐng)域的專家均發(fā)表了自己的一些看法。
中科院計(jì)算所研究員韓銀和認(rèn)為,他們最主要目的是希望能通過芯片來增強(qiáng)他們在大模型或者云計(jì)算服務(wù)上的核心競爭力,而不僅是降低成本。他還提到,OpenAI也透露出自研AI芯片的消息,他們一定會(huì)在大模型訓(xùn)練和推理上做一定的定制,以提升他們公司在大模型研發(fā)上的核心競爭力。這類定制化的芯片通常會(huì)在自身業(yè)務(wù)上具有一定的優(yōu)勢,但缺乏GPU那樣的通用性。
就目前的情況而言,盡管這些廠商漸漸發(fā)布了自研的芯片,但是在短期內(nèi)仍然離不開對GPU的依賴。如谷歌Cloud AI副總裁 Amin Vahdat表示,Gemini將同時(shí)運(yùn)行在GPU和TPU上。對此現(xiàn)象,矩向科技創(chuàng)始人兼CEO黃朝波指出,谷歌在自研TPU的情況下,依然使用GPU,這個(gè)現(xiàn)象其實(shí)很好理解?,F(xiàn)在的大模型仍然是在持續(xù)迭代,一開始,通過GPU平臺(tái)更友好的編程,快速驗(yàn)證一些想法。等業(yè)務(wù)規(guī)模上來以后,通過TPU來優(yōu)化成本或性能,是一個(gè)很自然的方式。在黃朝波看來,這些廠商自研芯片的目的是兼而有之,短期是壓價(jià),長期是替代。Nvidia在未來很長一段時(shí)期內(nèi),仍然是最炙手可熱的芯片公司(沒有之一),但其利潤率會(huì)慢慢回歸到正常區(qū)間。
業(yè)內(nèi)投資人Jasper認(rèn)為,目前Nvidia GPU在生態(tài)、易用性和通用性上還是有很高的壁壘,短期還是不可替代的。而且目前TPU在芯片層面的性能和軟件生態(tài)上,尤其在通用任務(wù)上,還是和NV有一定差距,不少第三方客戶在從Nvidia切換到TPU還是有不順的地方。不過,Google的TPU+光互聯(lián)+系統(tǒng)+大模型Infra,在系統(tǒng)級其實(shí)是更有優(yōu)勢的。
人工智能和芯片行業(yè)人士Roland的看法與Jasper類似,他告訴半導(dǎo)體行業(yè)觀察,在可預(yù)期的未來幾年,Nvidia的GPU都將是云端人工智能訓(xùn)練和部署的標(biāo)準(zhǔn)方案。原因在于,過去十年間的云端人工智能軟硬件技術(shù)棧都是基于Nvidia的方案,相關(guān)的部署方案和代碼已經(jīng)在云端大廠里根深蒂固,因此在未來一兩年內(nèi)切換到另一個(gè)自研方案的風(fēng)險(xiǎn)極大。
但是Roland進(jìn)一步指出,“類似谷歌Gemini這樣的做法,同時(shí)運(yùn)行在TPU(自研芯片)和GPU上,很大程度上也是為了確保有一個(gè)備選方案,如果自研的芯片的方案遇到了意想不到的問題還可以切換到Nvidia的GPU上,反之亦然。未來自研方案只能慢慢取代Nvidia,當(dāng)自研方案能足夠成熟之后,可望可以越來越多地取代Nvidia。但是即使在最樂觀的情況下也不太可能完全取代。”
所以在Roland看來,廠商自研芯片是一種second source方案,目的除了壓價(jià)(其實(shí)可能也壓不了太多價(jià)格)之外,更多是將核心技術(shù)把握在自己手中。更便于自己去制定未來的路線圖,而不會(huì)對于某些供貨商有過分依賴。這樣做的好處是:一方面,這樣如果主流方案缺貨或者因?yàn)槠渌驘o法獲得時(shí),還有自研方案能保證供應(yīng)鏈安全;另一方面,當(dāng)新的技術(shù)出現(xiàn),目前主流方案供貨商無力支持或者不愿意支持的時(shí)候可以有能力用自己的方案頂上。
談到云廠商自研芯片的成本效益問題時(shí),韓銀和表示,這其實(shí)是一個(gè)需要時(shí)間來待驗(yàn)證的問題。從半導(dǎo)體行業(yè)發(fā)展的經(jīng)驗(yàn)來看,在AI芯片這類具備大批量、形成生態(tài)的芯片種類,長期競爭的結(jié)果,往往是贏者通吃,這是一個(gè)殘酷的現(xiàn)實(shí)??葱酒?,不僅僅要看最后高昂的制造成本,還有前端研發(fā)和設(shè)計(jì)投入的大量人力、時(shí)間成本,如果是以芯片為主要產(chǎn)品和核算單元的企業(yè),單獨(dú)一個(gè)企業(yè)的量是很難支撐一個(gè)大芯片廠商成本的。當(dāng)然,谷歌、微軟他們可能是以最后提供的云服務(wù)或者大模型能力為核算單元的,如果芯片能給他們核心競爭力提供助力,這個(gè)賬可能是算得過來的。
投資人Jasper也分析道,Nvidia 2023Q3的綜合毛利是73.95%,高端芯片的毛利市場預(yù)計(jì)更高。這么高的毛利,對于自研芯片來說,都是可能節(jié)省的成本。實(shí)際節(jié)省的費(fèi)用,還要綜合考慮自研芯片以及整套軟硬件成本的研發(fā)成本。但是,由于多模態(tài)大模型巨大的訓(xùn)練成本,以及未來海量的應(yīng)用場景,云廠商自研芯片的成本效益仍然是值得期待的。
專用生成式AI芯片,是未來大模型發(fā)展的必然趨勢
“我們在評價(jià)一個(gè)算力芯片綜合能力的時(shí)候,通常需要關(guān)注兩個(gè)參數(shù):性能和通用性。AI模型一直在快速的迭代,因?yàn)橥ㄓ眯缘脑?,TPU一直不如GPU好用?!秉S朝波指出,“但形勢在發(fā)生變化,自從Transformer模型以來,Transformer有一統(tǒng)AI模型的趨勢。雖然也有一些新的底層算法提出,但核心的算子和Transformer比較,變化不多?;蛘哒f,隨著AI模型底層算法迭代變慢,專用芯片能跟得上這個(gè)迭代節(jié)奏。這樣的話,相比GPU,TPU這樣的專用AI芯片在通用性上沒有了劣勢,而在性能上相比GPU的方式要更加高效一些?!?/p>
他進(jìn)一步強(qiáng)調(diào):“如果我們從技術(shù)角度來闡述這件事情,就是目前NVIDIA GPU的通用靈活性就剛好匹配了上層的大模型算法迭代所需要的通用靈活性。但同時(shí),我們也看到了,整個(gè)行業(yè)對AGI的突破很樂觀,并且底層的算法結(jié)構(gòu)也在逐步沉淀,那這樣的話,自研專用的AI加速處理器,會(huì)是未來的必然趨勢。”
考慮到算法迭代仍然是比較快的。黃朝波強(qiáng)調(diào)道,在未來5年,能夠大放異彩的AI處理器應(yīng)該是這樣的:相比GPU更加專用更加高效一些,但相比目前的專用AI芯片,又更加通用更加低效一些,在性能和通用性方面達(dá)到一個(gè)新的平衡。
隨著各種專用的生成式AI芯片陸續(xù)出來,業(yè)界不禁發(fā)問,這些云廠商會(huì)不會(huì)由此成為英偉達(dá)GPU的又一個(gè)勁敵?對此,韓銀和表示,他認(rèn)為短期內(nèi)不會(huì)。他指出,無論是TPU還是微軟等正在研制的AI芯片,都以符合自身業(yè)務(wù)需求為主,并不對外供貨。而要想對外供貨,就需要形成成熟的生態(tài),這包括軟件、工具、開發(fā)者等。在這一方面,要想超過英偉達(dá)是非常困難的,并不是單一性能突出就能解決的。此外,還有穩(wěn)定的供應(yīng)鏈合作關(guān)系的問題。大規(guī)模的芯片量產(chǎn),需要穩(wěn)定的供應(yīng)鏈支持,而這對云廠商來說也是一個(gè)挑戰(zhàn)。
投資人Jasper則表示:“從歷史上來看,目前Nvidia很像2000年前后的思科,那個(gè)時(shí)候思科也是軟硬一體、超高性能、極強(qiáng)的護(hù)城河,因此有很高的壁壘和毛利,業(yè)務(wù)增長和市值增長都非常迅猛。但是,隨著下游客戶應(yīng)用不斷地起量,最終服務(wù)器和網(wǎng)絡(luò)設(shè)備迅速的自研化。思科的昨天,是否會(huì)變成Nvidia的明天?”
結(jié)語
在自研芯片“自給自足”方面,這些云廠商早已蹚出一條成功的路。AWS的Graviton芯片已經(jīng)迭代了第4代,在服務(wù)器領(lǐng)域發(fā)展的如火如荼。谷歌的TPU芯片也是如此,TPU芯片早已是谷歌人工智能業(yè)務(wù)的核心,TPU芯片為搜索、YouTube、Gmail、谷歌地圖、Google Play和Android等數(shù)十億用戶提供服務(wù)?,F(xiàn)在他們正在將這一成功經(jīng)驗(yàn)轉(zhuǎn)嫁到生成式AI領(lǐng)域。
伴隨著這些云廠商的介入,將推動(dòng)大型模型和專用AI芯片的研發(fā),加速這些技術(shù)的創(chuàng)新和應(yīng)用。這些廠商所推出的專為生成式AI設(shè)計(jì)的芯片,可能會(huì)使得生成式AI技術(shù)的應(yīng)用更加經(jīng)濟(jì)可行。
本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn),不代表創(chuàng)業(yè)邦立場,轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn。