編者按:本文來自微信公眾號(hào) 半導(dǎo)體行業(yè)觀察(ID:icbank),作者:杜芹DQ,創(chuàng)業(yè)邦經(jīng)授權(quán)發(fā)布。
過去二十多年,計(jì)算性能的提升受益于摩爾定律的擴(kuò)展,性能增長達(dá)到了60000倍,如圖1所示。然而,同一時(shí)期內(nèi),I/O帶寬僅增長了30倍。當(dāng)下,如何將高帶寬互連擴(kuò)展到單個(gè)機(jī)架之外是NVIDIA以及其他廠商都面臨的必然挑戰(zhàn)。據(jù)行業(yè)分析公司LightCounting的分析指出:將 GPU集群從36-72個(gè)芯片擴(kuò)展到500-1000個(gè)芯片是加速人工智能訓(xùn)練的最佳選擇;在未來3年內(nèi),即使是推理集群也可能需要多達(dá) 1,000 個(gè)GPU才能支持更大的模型。共封裝光學(xué)器件(CPO,Co-Packaged Optics)可能是在4-8機(jī)架系統(tǒng)中提供數(shù)萬個(gè)高速互連器件的唯一選擇。
圖1:不同代際互連和存儲(chǔ)的帶寬(BW)以及硬件(HW)峰值FLOPS的擴(kuò)展。值得注意的是,互連帶寬增長的速度遠(yuǎn)低于硬件FLOPS。(來源:IBM論文,arXiv:2412.06570)
目前,數(shù)據(jù)中心在數(shù)據(jù)傳輸中已廣泛依賴光學(xué)技術(shù),但對(duì)于短至中長距離(< 2米)的互連連接,光學(xué)技術(shù)的應(yīng)用仍較少。雖然傳統(tǒng)的可插拔光學(xué)可作為過渡技術(shù),但其帶寬增長速度遠(yuǎn)低于數(shù)據(jù)中心流量的增長速度,應(yīng)用需求和傳統(tǒng)可插拔光學(xué)技術(shù)能力之間的差距不斷加大,這一趨勢(shì)是不可持續(xù)的。
共封裝光學(xué)(CPO)作為一種顛覆性技術(shù),通過先進(jìn)的封裝技術(shù)和電子光子協(xié)同優(yōu)化,極大地縮短電氣連接路徑,從而提高互連帶寬密度和能效。因而,CPO也被譽(yù)為AI時(shí)代的關(guān)鍵互連技術(shù)之一。LightCounting創(chuàng)始人兼首席執(zhí)行官Vlad Kozlov表示:“我們預(yù)測(cè),到 2029 年,CPO端口出貨量將從目前的不到5萬個(gè)增長到超過1800萬個(gè),其中大多數(shù)端口將用于服務(wù)器內(nèi)的連接。”
圖2:1.6T線纜類和1.6T 50m CPO端口的發(fā)貨量(圖源:LightCounting)
而從博通、Marvell、IBM等各家廠商在CPO領(lǐng)域的最新進(jìn)展來看,CPO將迎來云廠商的快速采用和部署的浪潮。
博通CPO,商業(yè)化加快
2024年12月30日,據(jù)經(jīng)濟(jì)日?qǐng)?bào)的報(bào)道,臺(tái)積電硅光戰(zhàn)略取得重大進(jìn)展,近期實(shí)現(xiàn)共封裝光學(xué)元件(CPO)與先進(jìn)半導(dǎo)體封裝技術(shù)的整合,預(yù)計(jì)2025年初開始樣品交付,博通和NVIDIA將成為臺(tái)積電該解決方案的首批客戶。
報(bào)道中指出,臺(tái)積電與博通聯(lián)合開發(fā)的微環(huán)調(diào)制器(MRM)近期已通過3nm試產(chǎn),為頂級(jí)AI芯片集成到CPO模塊奠定基礎(chǔ),預(yù)計(jì)臺(tái)積電將采用其CoWoS或SoIC先進(jìn)封裝。此舉也說明CPO技術(shù)已從研發(fā)階段向量產(chǎn)化邁進(jìn),1.6T光傳輸時(shí)代正加速到來。
去年3月份,博通已向小部分客戶交付了業(yè)界首款 51.2 兆兆位/秒 (Tbps) 共封裝光學(xué) (CPO) 以太網(wǎng)交換機(jī) Bailly。該產(chǎn)品集成了八個(gè)基于硅光子的 6.4-Tbps 光學(xué)引擎和 Broadcom 一流的 StrataXGS Tomahawk5 交換機(jī)芯片。與可插拔收發(fā)器解決方案相比,Bailly 使光學(xué)互連的運(yùn)行功耗降低了70%,硅面積效率提高了8倍。
圖3:51.2T Tomahawk 5交換機(jī),配備8個(gè)Bailly光學(xué)引擎(圖源:broadcom)
隨著臺(tái)積電的強(qiáng)勢(shì)參與,為CPO技術(shù)注入了可信賴的供應(yīng)鏈能力,并可能助推博通CPO方案在市場(chǎng)中加速推廣,為芯片與光學(xué)技術(shù)的融合提供強(qiáng)有力的支撐。
Marvell:XPU架構(gòu)正式整合CPO
Marvell在收購Inphi之后,大大增強(qiáng)了在光通信和數(shù)據(jù)中心領(lǐng)域的研發(fā)能力。自2017年以來,Marvell開始為全球頂級(jí)超大規(guī)模數(shù)據(jù)中心提供硅光子設(shè)備,并成功將其應(yīng)用于COLORZ數(shù)據(jù)中心互連光學(xué)模塊。這一技術(shù)已獲得多個(gè)行業(yè)領(lǐng)先的數(shù)據(jù)中心認(rèn)證,并實(shí)現(xiàn)大規(guī)模生產(chǎn)。截至目前,Marvell的硅光設(shè)備已累計(jì)記錄超過100億小時(shí)的現(xiàn)場(chǎng)運(yùn)行時(shí)間。
作為硅光技術(shù)發(fā)展的下一步,Marvell正重點(diǎn)布局共封裝光學(xué)(CPO)技術(shù),這是公司在下一代互連技術(shù)發(fā)展中的關(guān)鍵一步。
2025年1月6日,Marvell宣布,其下一代定制XPU架構(gòu)將采用共封裝光學(xué) (CPO) 技術(shù)。CPO技術(shù)使得AI服務(wù)器的規(guī)模從目前使用銅互連的機(jī)架內(nèi)數(shù)十個(gè)XPU擴(kuò)展到使用CPO 的多個(gè)機(jī)架中的數(shù)百個(gè)XPU,這意味著AI服務(wù)器的計(jì)算能力可以在更大范圍內(nèi)得到提升,同時(shí)保持低延遲和高效的能耗表現(xiàn)。
Marvell指出,下一代定制AI加速器XPU架構(gòu)使用高速 SerDes、die-to-die芯片接口和先進(jìn)封裝技術(shù),將 XPU計(jì)算芯片、HBM和其他芯片與Marvell 3D SiPho引擎整合在同一基板上。這種方法無需電信號(hào)離開XPU封裝進(jìn)入銅纜或穿過印刷電路板。CPO利用高帶寬硅光子光學(xué)引擎來提高數(shù)據(jù)吞吐量,與傳統(tǒng)銅連接相比,硅光子光學(xué)引擎可提供更高的數(shù)據(jù)傳輸速率,并且不易受到電磁干擾。這種集成還通過減少對(duì)高功率電氣驅(qū)動(dòng)器、中繼器和重定時(shí)器的需求來提高電源效率。
早在2024年,Marvell就展示了全球首款3D SiPho引擎——一個(gè)集成度極高的光學(xué)引擎,支持200Gbps的電氣和光學(xué)接口。而Marvell 6.4T 3D SiPho 引擎是一款高度集成的光學(xué)引擎,具有 32 個(gè) 200G 電氣和光學(xué)接口通道、數(shù)百個(gè)組件(例如調(diào)制器、光電探測(cè)器、調(diào)制器驅(qū)動(dòng)器、跨阻放大器、微控制器)以及大量其他無源組件,這些組件集成在一個(gè)統(tǒng)一的設(shè)備中,與具有 100G 電氣和光學(xué)接口的同類設(shè)備相比,可提供 2 倍的帶寬、2 倍的輸入/輸出帶寬密度和 30% 的每比特功耗降低。多家客戶正在評(píng)估該技術(shù),以將其集成到其下一代解決方案中。
圖3:使用CPO的下一代定制AI加速器XPU(圖源:marvell)
借助集成光學(xué)器件,XPU 之間的連接可以實(shí)現(xiàn)更快的數(shù)據(jù)傳輸速率和比電纜長100 倍的距離。這可以在 AI 服務(wù)器內(nèi)實(shí)現(xiàn)跨多個(gè)機(jī)架的擴(kuò)展連接,并具有最佳延遲和功耗。通過實(shí)現(xiàn)更長距離和更高密度的 XPU 到 XPU 連接,CPO 技術(shù)促進(jìn)了高性能、高容量擴(kuò)展 AI 服務(wù)器的開發(fā),從而優(yōu)化了下一代加速基礎(chǔ)設(shè)施的計(jì)算性能和功耗。
Marvell的此次宣布無疑昭示出CPO已經(jīng)逐漸被XPU廠商認(rèn)可。要知道,Marvell前不久才與全球云端服務(wù)供應(yīng)商龍頭亞馬遜AWS簽署五年合作協(xié)議,供應(yīng)亞馬遜AWS客制化AI芯片。隨著Marvell AI定制化芯片整合CPO步伐的加快,預(yù)計(jì)CPO的應(yīng)用和部署將大大提速。
IBM:新工藝突破加速CPO實(shí)現(xiàn)
盡管硅光子學(xué)并不是一個(gè)新概念,但需要開發(fā)先進(jìn)的制造工藝和器件結(jié)構(gòu),以滿足CPO的需求。近年來,CPO解決方案逐漸興起。盡管如此,CPO的廣泛應(yīng)用仍面臨許多挑戰(zhàn),而增加光纖集成密度可能是推動(dòng)市場(chǎng)采納的一個(gè)步驟。
近日,IBM宣布,其研究人員開創(chuàng)了一種新型的共封裝光學(xué)(CPO)工藝,全新的共封裝光學(xué) (CPO) 原型將通過使用聚合物材料來引導(dǎo)光學(xué)而不是傳統(tǒng)的基于玻璃的光纖。IBM 的論文概述了這些新的高帶寬密度光學(xué)結(jié)構(gòu)如何與每個(gè)光通道傳輸多個(gè)波長相結(jié)合,有可能將芯片之間的帶寬提高到電氣連接的 80 倍。
在IBM的技術(shù)研究論文《Next generation Co-Packaged Optics Technology to Train & Run Generative AI Models in Data Centers and Other Computing Applications,下一代共封裝光學(xué)技術(shù)用于在數(shù)據(jù)中心和其他計(jì)算應(yīng)用中訓(xùn)練和運(yùn)行生成式AI模型》中報(bào)告了成功設(shè)計(jì)和制造基于50微米間距聚合物波導(dǎo)接口的光學(xué)模塊,這些模塊經(jīng)過集成優(yōu)化,能夠?qū)崿F(xiàn)低損耗、高密度的光數(shù)據(jù)傳輸,并在硅光子芯片上占據(jù)極小的空間。該原型模塊符合JEDEC可靠性標(biāo)準(zhǔn),承諾將芯片邊緣可連接的光纖數(shù)量——即所謂的“海濱密度”——提高六倍,超越了當(dāng)前最先進(jìn)技術(shù)的水平。聚合物波導(dǎo)的可擴(kuò)展性,使其能夠縮小至小于20微米的間距,預(yù)計(jì)將使帶寬密度提升至10 Tbps/mm以上。
圖4展示了光學(xué)測(cè)試載體的初步示意圖,包括測(cè)試載體組件的頂部視圖和側(cè)視圖,并展示了組裝集成。圖中,PIC芯片尺寸為8 x 10 mm2,基板尺寸為17 x 17 mm2,光波導(dǎo)長度小于12 mm。圖4還展示了基板(綠色)、PIC(灰色)、光波導(dǎo)(紅色)、光纖連接器(深灰色)、PIC到PWG的絕熱耦合區(qū)(無凸點(diǎn)區(qū))、翻轉(zhuǎn)芯片凸點(diǎn)陣列(小的銅色球體)、微型BGA陣列(大的銅色球體)以及蓋板(頂部視圖為透明形狀,截面為銅塊形狀)的堆疊視圖(左)和橫截面視圖(右)。
圖4:IBM CPO模塊測(cè)試載體(來源:IBM論文,arXiv:2412.06570)
圖5:IBM 光學(xué)測(cè)試載體1b的照片,左圖為PIC到基板的組裝頂部視圖,右圖為顯示基板的底部視圖,基板上安裝有微型BGA,PIC和蓋板附加在頂部,PWG連接在PIC上,蓋板連接在光纖連接器上,作為模塊組裝的最后步驟。(圖源:IBM)
根據(jù)Weight&Biases的報(bào)道,在使用GPU訓(xùn)練時(shí),網(wǎng)絡(luò)經(jīng)常成為瓶頸,導(dǎo)致三分之一的用戶平均利用率不足15%。這無疑增加了成本和能耗。對(duì)于參數(shù)超過十億的模型,在8000個(gè)H100 GPU上訓(xùn)練大約需要3個(gè)月。根據(jù)估算,訓(xùn)練一個(gè)GPT-4模型可能消耗50千兆瓦時(shí)的電力。此外,國際能源署(IEA)計(jì)算出,2022年數(shù)據(jù)中心消耗了460太瓦時(shí)的電力,占全球電力需求的近2%,預(yù)計(jì)這一數(shù)字到2026年將翻倍。
而IBM的全新的CPO工藝技術(shù)有望顯著提高數(shù)據(jù)中心通信的帶寬,減少GPU空閑時(shí)間,同時(shí)大幅加速AI處理過程。根據(jù)這一創(chuàng)新研究,未來CPO技術(shù)可帶來如下成果:
更低的生成式AI擴(kuò)展成本:相比中等距離電氣互連,CPO可減少超過5倍的能耗,同時(shí)將數(shù)據(jù)中心互連電纜的傳輸距離從一米延伸至數(shù)百米。
更快的AI模型訓(xùn)練:通過CPO,開發(fā)者能夠?qū)⒋笮驼Z言模型(LLM)的訓(xùn)練速度提高至常規(guī)電氣線路的五倍,預(yù)計(jì)訓(xùn)練一個(gè)標(biāo)準(zhǔn)LLM的時(shí)間可從三個(gè)月縮短至三周,性能提升會(huì)隨著使用更大模型和更多GPU而進(jìn)一步增強(qiáng)。
顯著提高數(shù)據(jù)中心能效:每訓(xùn)練一個(gè)AI模型,CPO技術(shù)將節(jié)省相當(dāng)于5,000戶美國家庭年用電量的能量。
IBM還在努力開發(fā)下一代測(cè)試載體,采用子20 μm間距的光波導(dǎo)、增加的波導(dǎo)通道、增加的多波長(λ)兼容硬件演示,并提供多個(gè)層次的光纖連接器/連接器組裝選項(xiàng),適用于CPO模塊。針對(duì)這一未來節(jié)能硬件演示的建模和仿真表明,該技術(shù)能夠支持更高的帶寬密度。借助改進(jìn)的能源效率,提升未來生成性AI應(yīng)用和其他計(jì)算應(yīng)用的性能已成為可能,令人激動(dòng)地推動(dòng)這一進(jìn)程。IBM計(jì)劃在2025年初發(fā)布更多詳細(xì)的CPO信息。
結(jié)語
過去很多人對(duì)CPO的技術(shù)和商業(yè)化存疑,但看現(xiàn)在大廠們的動(dòng)作,CPO已成AI時(shí)代的大勢(shì)所趨。與此同時(shí),CPO與可插拔光模塊的競(jìng)爭關(guān)系更可能是互補(bǔ)而非完全取代。CPO技術(shù)的崛起不會(huì)立即威脅到可插拔光模塊的主流地位,而是會(huì)在特定高性能場(chǎng)景中逐步占據(jù)一席之地。從長期來看,CPO和Optical IO都可能在推動(dòng)數(shù)據(jù)中心光互聯(lián)技術(shù)的升級(jí)中發(fā)揮重要作用。
參考鏈接
1、IBM論文:https://doi.org/10.48550/arXiv.2412.06570
2、Monitor & Improve GPU Usage for Model Training,Weight&Biases
本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn),不代表創(chuàng)業(yè)邦立場(chǎng),轉(zhuǎn)載請(qǐng)聯(lián)系原作者。如有任何疑問,請(qǐng)聯(lián)系editor@cyzone.cn。