五月天成人小说,中文字幕亚洲欧美专区,久久妇女,亚洲伊人久久大香线蕉综合,日日碰狠狠添天天爽超碰97

三大芯片巨頭,搶進CPO

過去二十多年,計算性能的提升受益于摩爾定律的擴展,性能增長達到了60000倍,然而,同一時期內,I/O帶寬僅增長了30倍。

編者按:本文來自微信公眾號 半導體行業(yè)觀察(ID:icbank),作者:杜芹DQ,創(chuàng)業(yè)邦經授權發(fā)布。

過去二十多年,計算性能的提升受益于摩爾定律的擴展,性能增長達到了60000倍,如圖1所示。然而,同一時期內,I/O帶寬僅增長了30倍。當下,如何將高帶寬互連擴展到單個機架之外是NVIDIA以及其他廠商都面臨的必然挑戰(zhàn)。據(jù)行業(yè)分析公司LightCounting的分析指出:將 GPU集群從36-72個芯片擴展到500-1000個芯片是加速人工智能訓練的最佳選擇;在未來3年內,即使是推理集群也可能需要多達 1,000 個GPU才能支持更大的模型。共封裝光學器件(CPO,Co-Packaged Optics)可能是在4-8機架系統(tǒng)中提供數(shù)萬個高速互連器件的唯一選擇。

圖1:不同代際互連和存儲的帶寬(BW)以及硬件(HW)峰值FLOPS的擴展。值得注意的是,互連帶寬增長的速度遠低于硬件FLOPS。(來源:IBM論文,arXiv:2412.06570)

目前,數(shù)據(jù)中心在數(shù)據(jù)傳輸中已廣泛依賴光學技術,但對于短至中長距離(< 2米)的互連連接,光學技術的應用仍較少。雖然傳統(tǒng)的可插拔光學可作為過渡技術,但其帶寬增長速度遠低于數(shù)據(jù)中心流量的增長速度,應用需求和傳統(tǒng)可插拔光學技術能力之間的差距不斷加大,這一趨勢是不可持續(xù)的。

共封裝光學(CPO)作為一種顛覆性技術,通過先進的封裝技術和電子光子協(xié)同優(yōu)化,極大地縮短電氣連接路徑,從而提高互連帶寬密度和能效。因而,CPO也被譽為AI時代的關鍵互連技術之一。LightCounting創(chuàng)始人兼首席執(zhí)行官Vlad Kozlov表示:“我們預測,到 2029 年,CPO端口出貨量將從目前的不到5萬個增長到超過1800萬個,其中大多數(shù)端口將用于服務器內的連接?!?/p>

圖2:1.6T線纜類和1.6T 50m CPO端口的發(fā)貨量(圖源:LightCounting)

而從博通、Marvell、IBM等各家廠商在CPO領域的最新進展來看,CPO將迎來云廠商的快速采用和部署的浪潮。

博通CPO,商業(yè)化加快

2024年12月30日,據(jù)經濟日報的報道,臺積電硅光戰(zhàn)略取得重大進展,近期實現(xiàn)共封裝光學元件(CPO)與先進半導體封裝技術的整合,預計2025年初開始樣品交付,博通和NVIDIA將成為臺積電該解決方案的首批客戶。

報道中指出,臺積電與博通聯(lián)合開發(fā)的微環(huán)調制器(MRM)近期已通過3nm試產,為頂級AI芯片集成到CPO模塊奠定基礎,預計臺積電將采用其CoWoS或SoIC先進封裝。此舉也說明CPO技術已從研發(fā)階段向量產化邁進,1.6T光傳輸時代正加速到來。

去年3月份,博通已向小部分客戶交付了業(yè)界首款 51.2 兆兆位/秒 (Tbps) 共封裝光學 (CPO) 以太網交換機 Bailly。該產品集成了八個基于硅光子的 6.4-Tbps 光學引擎和 Broadcom 一流的 StrataXGS Tomahawk5 交換機芯片。與可插拔收發(fā)器解決方案相比,Bailly 使光學互連的運行功耗降低了70%,硅面積效率提高了8倍。

圖3:51.2T Tomahawk 5交換機,配備8個Bailly光學引擎(圖源:broadcom)

隨著臺積電的強勢參與,為CPO技術注入了可信賴的供應鏈能力,并可能助推博通CPO方案在市場中加速推廣,為芯片與光學技術的融合提供強有力的支撐。

Marvell:XPU架構正式整合CPO

Marvell在收購Inphi之后,大大增強了在光通信和數(shù)據(jù)中心領域的研發(fā)能力。自2017年以來,Marvell開始為全球頂級超大規(guī)模數(shù)據(jù)中心提供硅光子設備,并成功將其應用于COLORZ數(shù)據(jù)中心互連光學模塊。這一技術已獲得多個行業(yè)領先的數(shù)據(jù)中心認證,并實現(xiàn)大規(guī)模生產。截至目前,Marvell的硅光設備已累計記錄超過100億小時的現(xiàn)場運行時間。

作為硅光技術發(fā)展的下一步,Marvell正重點布局共封裝光學(CPO)技術,這是公司在下一代互連技術發(fā)展中的關鍵一步。

2025年1月6日,Marvell宣布,其下一代定制XPU架構將采用共封裝光學 (CPO) 技術。CPO技術使得AI服務器的規(guī)模從目前使用銅互連的機架內數(shù)十個XPU擴展到使用CPO 的多個機架中的數(shù)百個XPU,這意味著AI服務器的計算能力可以在更大范圍內得到提升,同時保持低延遲和高效的能耗表現(xiàn)。

Marvell指出,下一代定制AI加速器XPU架構使用高速 SerDes、die-to-die芯片接口和先進封裝技術,將 XPU計算芯片、HBM和其他芯片與Marvell 3D SiPho引擎整合在同一基板上。這種方法無需電信號離開XPU封裝進入銅纜或穿過印刷電路板。CPO利用高帶寬硅光子光學引擎來提高數(shù)據(jù)吞吐量,與傳統(tǒng)銅連接相比,硅光子光學引擎可提供更高的數(shù)據(jù)傳輸速率,并且不易受到電磁干擾。這種集成還通過減少對高功率電氣驅動器、中繼器和重定時器的需求來提高電源效率。

早在2024年,Marvell就展示了全球首款3D SiPho引擎——一個集成度極高的光學引擎,支持200Gbps的電氣和光學接口。而Marvell 6.4T 3D SiPho 引擎是一款高度集成的光學引擎,具有 32 個 200G 電氣和光學接口通道、數(shù)百個組件(例如調制器、光電探測器、調制器驅動器、跨阻放大器、微控制器)以及大量其他無源組件,這些組件集成在一個統(tǒng)一的設備中,與具有 100G 電氣和光學接口的同類設備相比,可提供 2 倍的帶寬、2 倍的輸入/輸出帶寬密度和 30% 的每比特功耗降低。多家客戶正在評估該技術,以將其集成到其下一代解決方案中。

圖3:使用CPO的下一代定制AI加速器XPU(圖源:marvell)

借助集成光學器件,XPU 之間的連接可以實現(xiàn)更快的數(shù)據(jù)傳輸速率和比電纜長100 倍的距離。這可以在 AI 服務器內實現(xiàn)跨多個機架的擴展連接,并具有最佳延遲和功耗。通過實現(xiàn)更長距離和更高密度的 XPU 到 XPU 連接,CPO 技術促進了高性能、高容量擴展 AI 服務器的開發(fā),從而優(yōu)化了下一代加速基礎設施的計算性能和功耗。

Marvell的此次宣布無疑昭示出CPO已經逐漸被XPU廠商認可。要知道,Marvell前不久才與全球云端服務供應商龍頭亞馬遜AWS簽署五年合作協(xié)議,供應亞馬遜AWS客制化AI芯片。隨著Marvell AI定制化芯片整合CPO步伐的加快,預計CPO的應用和部署將大大提速。

IBM:新工藝突破加速CPO實現(xiàn)

盡管硅光子學并不是一個新概念,但需要開發(fā)先進的制造工藝和器件結構,以滿足CPO的需求。近年來,CPO解決方案逐漸興起。盡管如此,CPO的廣泛應用仍面臨許多挑戰(zhàn),而增加光纖集成密度可能是推動市場采納的一個步驟。

近日,IBM宣布,其研究人員開創(chuàng)了一種新型的共封裝光學(CPO)工藝,全新的共封裝光學 (CPO) 原型將通過使用聚合物材料來引導光學而不是傳統(tǒng)的基于玻璃的光纖。IBM 的論文概述了這些新的高帶寬密度光學結構如何與每個光通道傳輸多個波長相結合,有可能將芯片之間的帶寬提高到電氣連接的 80 倍。

在IBM的技術研究論文《Next generation Co-Packaged Optics Technology to Train & Run Generative AI Models in Data Centers and Other Computing Applications,下一代共封裝光學技術用于在數(shù)據(jù)中心和其他計算應用中訓練和運行生成式AI模型》中報告了成功設計和制造基于50微米間距聚合物波導接口的光學模塊,這些模塊經過集成優(yōu)化,能夠實現(xiàn)低損耗、高密度的光數(shù)據(jù)傳輸,并在硅光子芯片上占據(jù)極小的空間。該原型模塊符合JEDEC可靠性標準,承諾將芯片邊緣可連接的光纖數(shù)量——即所謂的“海濱密度”——提高六倍,超越了當前最先進技術的水平。聚合物波導的可擴展性,使其能夠縮小至小于20微米的間距,預計將使帶寬密度提升至10 Tbps/mm以上。

圖4展示了光學測試載體的初步示意圖,包括測試載體組件的頂部視圖和側視圖,并展示了組裝集成。圖中,PIC芯片尺寸為8 x 10 mm2,基板尺寸為17 x 17 mm2,光波導長度小于12 mm。圖4還展示了基板(綠色)、PIC(灰色)、光波導(紅色)、光纖連接器(深灰色)、PIC到PWG的絕熱耦合區(qū)(無凸點區(qū))、翻轉芯片凸點陣列(小的銅色球體)、微型BGA陣列(大的銅色球體)以及蓋板(頂部視圖為透明形狀,截面為銅塊形狀)的堆疊視圖(左)和橫截面視圖(右)。

圖4:IBM CPO模塊測試載體(來源:IBM論文,arXiv:2412.06570)

圖5:IBM 光學測試載體1b的照片,左圖為PIC到基板的組裝頂部視圖,右圖為顯示基板的底部視圖,基板上安裝有微型BGA,PIC和蓋板附加在頂部,PWG連接在PIC上,蓋板連接在光纖連接器上,作為模塊組裝的最后步驟。(圖源:IBM)

根據(jù)Weight&Biases的報道,在使用GPU訓練時,網絡經常成為瓶頸,導致三分之一的用戶平均利用率不足15%。這無疑增加了成本和能耗。對于參數(shù)超過十億的模型,在8000個H100 GPU上訓練大約需要3個月。根據(jù)估算,訓練一個GPT-4模型可能消耗50千兆瓦時的電力。此外,國際能源署(IEA)計算出,2022年數(shù)據(jù)中心消耗了460太瓦時的電力,占全球電力需求的近2%,預計這一數(shù)字到2026年將翻倍。

而IBM的全新的CPO工藝技術有望顯著提高數(shù)據(jù)中心通信的帶寬,減少GPU空閑時間,同時大幅加速AI處理過程。根據(jù)這一創(chuàng)新研究,未來CPO技術可帶來如下成果:

更低的生成式AI擴展成本:相比中等距離電氣互連,CPO可減少超過5倍的能耗,同時將數(shù)據(jù)中心互連電纜的傳輸距離從一米延伸至數(shù)百米。

更快的AI模型訓練:通過CPO,開發(fā)者能夠將大型語言模型(LLM)的訓練速度提高至常規(guī)電氣線路的五倍,預計訓練一個標準LLM的時間可從三個月縮短至三周,性能提升會隨著使用更大模型和更多GPU而進一步增強。

顯著提高數(shù)據(jù)中心能效:每訓練一個AI模型,CPO技術將節(jié)省相當于5,000戶美國家庭年用電量的能量。

IBM還在努力開發(fā)下一代測試載體,采用子20 μm間距的光波導、增加的波導通道、增加的多波長(λ)兼容硬件演示,并提供多個層次的光纖連接器/連接器組裝選項,適用于CPO模塊。針對這一未來節(jié)能硬件演示的建模和仿真表明,該技術能夠支持更高的帶寬密度。借助改進的能源效率,提升未來生成性AI應用和其他計算應用的性能已成為可能,令人激動地推動這一進程。IBM計劃在2025年初發(fā)布更多詳細的CPO信息。

結語

過去很多人對CPO的技術和商業(yè)化存疑,但看現(xiàn)在大廠們的動作,CPO已成AI時代的大勢所趨。與此同時,CPO與可插拔光模塊的競爭關系更可能是互補而非完全取代。CPO技術的崛起不會立即威脅到可插拔光模塊的主流地位,而是會在特定高性能場景中逐步占據(jù)一席之地。從長期來看,CPO和Optical IO都可能在推動數(shù)據(jù)中心光互聯(lián)技術的升級中發(fā)揮重要作用。

參考鏈接

1、IBM論文:https://doi.org/10.48550/arXiv.2412.06570

2、Monitor & Improve GPU Usage for Model Training,Weight&Biases

本文為專欄作者授權創(chuàng)業(yè)邦發(fā)表,版權歸原作者所有。文章系作者個人觀點,不代表創(chuàng)業(yè)邦立場,轉載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn。

反饋
聯(lián)系我們
推薦訂閱