編者按:本文來自微信公眾號 半導體行業(yè)觀察(ID:icbank),創(chuàng)業(yè)邦經(jīng)授權(quán)發(fā)布。
在今年的Hotchips,很多專家分享了關于光芯片互聯(lián)的一些技術。例如特斯拉、博通、openAI、博通和英特爾等。從這些廠商的積極布局看來,我們以為光芯片互聯(lián)已經(jīng)到了爆發(fā)前夕。但其實在不少人看來,這還為時過早。
圖1:這是“芯片到芯片”連接,而不是“芯片內(nèi)”連接。英特爾似乎改變了主意,稱距離使用光進行內(nèi)部芯片連接還有很長的路要走。
光通信需求的變化
上面的圖顯示了英特爾對光通信演進的看法。這是夸張的說法,考慮到光纖實際上在電信時代之前就已經(jīng)被使用了,在 20 世紀 90 年代就向客戶介紹了使用基于光纖的令牌環(huán)(token ring)來創(chuàng)建 LAN 的系統(tǒng)。電信時代和數(shù)據(jù)通信時代有很多重疊。不過,考慮到光纖相關技術最初是為了長距離通信而開發(fā)的,也曾被用于其他目的,這可能有些夸張,但這并不是謊言。
在長距離應用的情況下,能夠穩(wěn)定長距離和拓寬頻段是首要考慮的,成本和功耗是其次的。對于DSP來說,它很可能被用作長距離應用的骨干,因此可靠性至關重要。
然而,隨著數(shù)據(jù)中心內(nèi)基于銅線的以太網(wǎng)被基于光纖的以太網(wǎng)取代,新的需求出現(xiàn)了。當然,帶寬在這里是必要的,但降低成本和功耗也變得很重要。
大量的服務器排列在大量的機架中,這些服務器通過TOR(機架頂部)和BOR(機架底部)連接到網(wǎng)絡交換機。由于這些交換機將相互連接并連接到大規(guī)模的后端交換機,因此迫切需要降低每個網(wǎng)絡端口的功耗,而這也將影響數(shù)據(jù)中心安裝成本的降低。結(jié)果是,市場催生了以下需求:
旨在通過使用硅光子學來降低功耗;
增加輸出功率(和/或)增加接收器的靈敏度,從而消除光放大器(這降低了成本和功耗)
減少DSP的功能,有可能就去掉(因為DSP的功耗很低,而且DSP的處理比較復雜,這也是延遲增加的原因之一)
這些需求已經(jīng)改變。這是引入CPO背后最大的因素。
順便說一下,去年 11 月 Intel 出售給 Javi 的可插拔以太網(wǎng)收發(fā)器業(yè)務,正是針對這個數(shù)據(jù)通信時代的解決方案。再順便說一句,“硅光子學”和“硅光學”這兩個符號都被使用,但它們具有相同的含義。
這就引出了我們當前的主題:人工智能時代。
芯片間光通信
簡而言之,如果用于芯片到芯片的連接,則范圍僅限于機架內(nèi)或機架之間(或者更確切地說,除非將其限制在該區(qū)域,否則沒有盡頭)。隨著帶寬的增加,功耗必須進一步降低。當然,不應增加每個波長的速度,而應將每個波長的速度降低到 DWDM。由于 CWDM 需要支持多種波長,因此使用 DWDM 比較合適。
用于此目的的光學組件(例如 MUX/DEMUX)已經(jīng)在英特爾內(nèi)部開發(fā)了很長時間,因此實施起來很容易。因此,他們開發(fā)的不是“使用高速光信號的串行芯片到芯片互連”,而是“并行芯片到芯片互連”的原型,它捆綁低速光信號以創(chuàng)建一個寬帶?!?/p>
順便說一句,“CPO”這個詞早些時候出現(xiàn)過。這是“Co-Package Optics”的縮寫,這個術語最近開始被普遍使用,但迄今為止它展示的第一個應用是以太網(wǎng)交換機,然后是計算結(jié)構(gòu)。這里將解釋芯片之間的連接(圖2)。
圖2:如果Intel仍然繼續(xù)開發(fā)Barefoot的Tofino,未來的產(chǎn)品中可能會有使用以太網(wǎng)CPO的產(chǎn)品
事實上,這種趨勢對于博通來說也是一樣的。對于可插拔以太網(wǎng)收發(fā)器,該公司將首先用硅光子取代傳統(tǒng)的 II-V 光學元件(圖 3),然后將該技術應用于交換機,最后應用于芯片到芯片的連接(圖 4)。
圖3:這是可插拔以太網(wǎng)收發(fā)器的故事。這里所說的III-V族很可能是指GaAs與InP、Sb等結(jié)合的VCSEL結(jié)構(gòu)的激光源。
圖4:左側(cè)交換機配備16個CPO,16個端口(每側(cè)4個),可配置總共256通道的光纖以太網(wǎng)交換機
臺積電也是如此,在今年 6 月舉行的技術研討會上,他們提出了一個路線圖,首先將其 COUPE(COmpact 通用光子引擎)應用于可插拔以太網(wǎng)收發(fā)器,然后應用于交換機。
圖4:臺積電的光芯片路線圖
Marvell 和 GlobalFoundries 也涉足硅光子和光纖以太網(wǎng),其路線圖可能相似。Intel不處理交換機(不,Intel Foundry處理它們的可能性非零,所以將來有可能,但我在不久的將來看不到),所以我會跳過這是 XPU 芯片到芯片技術的一個進步。
現(xiàn)在,這是Intel的配置(圖6)。XPU就是所謂的處理器,它和CPO Chiplet之間的連接是UCIe。CPO 底部有一個 EIC(電氣集成電路),必要時可在其中集成 UCIe I/F 和 DSP。電/光轉(zhuǎn)換由 EIC 頂部的 PIC(光子集成電路)執(zhí)行。該 PIC 使用硅光子學實現(xiàn)。
圖6:Foveros可能是用來堆疊PIC和EIC的。看來在這個實現(xiàn)中,DSP并沒有在EIC中實現(xiàn)
該 CPO 小芯片可實現(xiàn) 4Gbps 的互連。雖然波長為(SR:短距),但約為 1,310 nm,通常是 xBASE-LR 等使用 SMF(單模光纖)使用的區(qū)域,但無法與 MMF(多模光纖)通信甚至沒有。
我認為他們不使用 850nm 左右波長的原因是由于輸出和衰減問題。每個波長的速度為 32Gbps,但以 1310nm 為中心的 8 個波長以約 1.2nm 的間隔轉(zhuǎn)換為 DWDM,并通過單根光纖。它實際上由每個方向 8 根光纖組成,因此總帶寬為 32 x 8 x 8 = 2,048 Gbps。
假設它將應用于 PCI Express 6.0,因此看起來配置是不通過以太網(wǎng)幀,但如果需要的話可以直接通過 PCIe 。
首先,我認為32Gbps和NRZ調(diào)制的傳輸速度是因為PCI Express 5.0信號是按原樣進行光學轉(zhuǎn)換的。事實上,它被寫為“un-retimed PCIe6”,表明 PHY 當前正在使用 NRZ 進行傳輸,但如果需要,也可以使用 PAM4 進行傳輸。
目前,EIC似乎兼容UCIe 1.1,因此PAM4信號無法按原樣傳遞,但兼容2.0的下一代EIC將按原樣傳遞PCIe 6信號,將其交給PIC,并將它們轉(zhuǎn)換成光信號進行傳輸。在這種情況下,他們似乎正在考慮使用 PCIe FLIT 來進行糾錯,而不使用 FEC。
簡而言之,它的工作原理類似于 PCI Express 光纖擴展器。在這種情況下,XPU 通過讀取和寫入 PCI Express 設備進行操作,然后通過光纖直接連接到另一個 XPU?;蛘?,對于 PCI Express,傳輸模式有限制,因此邏輯層可能是 CXL,但這不是一個大問題。這里的重點是它似乎使用 PCIe 作為物理層。
對于光纖以太網(wǎng),F(xiàn)EC 引起的延遲不可避免地會增加。為了避免這種情況,我們的想法是保持每個通道的速度較低,并使用 PCI Express 糾錯和 FLIT 來擴大帶寬,同時保持 XPU 之間的通信延遲較低。
為什么英特爾不將一切與硅光子集成?
為什么英特爾使用 CPO 而不是將一切與硅光子集成?這就是故事。
在圖7中,XPU 自然是一種硅工藝。既然是XPU,那么現(xiàn)在可能是Intel 7或Intel 3,將來可能是Intel 18A。EIC當然是硅工藝,如果使用硅光子,PIC也是硅工藝。
圖7:4Gbps是雙向總帶寬,單向2Tbps。順便說一句,由于正文中提到的原因,EIC 接口可能會有四個 16 位寬的 32Gbps UCIe
到目前為止的想法是,“如果我們集成所有東西,制造不是更容易嗎?”然而,英特爾這次的結(jié)論是,將它們分成小芯片實際上會更有效。雖然沒有顯示EIC和PIC工藝,但EIC很可能在22nm或14nm左右,PIC將在45nm或65nm左右。
原因很簡單。EIC需要以一定的電壓將信號傳遞給PIC,PHY占用很大的面積,如果我的假設正確的話,根本不需要協(xié)議轉(zhuǎn)換或FEC,所以高速邏輯是不必要的。32Gbps PHY 采用 22nm 工藝可能有點困難,但采用 14nm 工藝則可以毫無問題地制造。而且無論PHY是用14nm還是18A制作,面積幾乎是一樣的。
說白了,尖端工藝不適合需要一定電壓的應用(雖然不是不可能,但效率低下),因為工作電壓會隨著工藝變小而降低。在這種情況下,使用 22nm 或 14nm 等較舊的工藝將更容易處理高電壓,并且如果面積保持不變,制造成本也會更低。
這種情況在 PIC 中更為極端,其中基于硅光子的電路元件最初是使用平面型工藝而不是 FinFET 工藝開發(fā)的,并且這些元件的尺寸甚至更大。
在 2022 年 Hot Interconnects 大會上,英特爾 James Jaussi 的邀請演講中透露,TIA 是采用 22nm 工藝開發(fā)的(圖 8)。然而,考慮到并非所有組件都可以用 22nm 制造,我懷疑該工藝實際上有點老了。
圖8
回到主題,“在同一塊硅中實現(xiàn)電和光”的舊想法不幸的是不現(xiàn)實,唯一現(xiàn)實的解決方案是以chiplet 的形式分離組件。
與Knights Hill 的關系取消
當我看到Intel發(fā)布的芯片照片(圖9)時,我想起了Knights Hill。
圖9:乍一看像是一對2根光纖,但里面卻有8對16根光纖。
Knights Hill計劃于2016年發(fā)布,采用10nm工藝,并于2014年11月的SC14上揭曉,計劃在Aurora中實現(xiàn),英特爾將交付給ALCF。然而,在2017年11月舉行的SC17上,一篇博客文章簡單提到Knights Hill將被取消。
根據(jù)存儲在網(wǎng)絡檔案中的文章,擁有可以直接從 CPU 連接到外部互連(Omni-Path Fabric)的產(chǎn)品。這一代 Omni-Path Fabric 仍然是 100Gbps 銅纜,而下一代應該是 200Gbps 銅纜或光纖。
因此,Knights Hill 也計劃提供一個將下一代 200Gbps 與光學連接的版本,并且似乎一直在討論將硅光子納入其中,但由于 Knights Hill 的取消和 Omni-Path 的退出,所有都消失了。
由于故事已經(jīng)消失,我不知道帶有這種光學接口的 Knight Hill 計劃采用什么樣的結(jié)構(gòu),但它可能會配備像 Knights Mill 一樣結(jié)合 EIC 和 OIC 的外部芯片,這一定很酷。
然而,實際上,集成 EIC 和 OIC 是相當困難的(舊工藝使得無法提高與 Xeon Phi 的接口速度),這可能是 Knights Hill 被取消的原因之一。不這么認為(雖然我認為最大的問題是Intel的10nm在2016-2017年的時間范圍內(nèi)根本沒有投入實際使用)?,F(xiàn)在制作Knights Hill無論是制程還是界面都是完全可能的。所以 Knights Hill 早了 10 年。
讓我們回到 4Tbps OCP。這種界面有多大用處?有些人可能會這么認為,但英特爾實際上使用 100GbE 或 200GbE 與 Gaudi 2(圖 10)和 Gaudi 3(圖 11)進行外部連接。用當前的 4Tbps 光纖替換它將使布線更加容易,提高速度,并可能降低通信所需的功耗。
圖10:來自Gaudi 2白皮書。21根100GbE電纜以7對3電纜排列,Gaudi 2設備相互互連。另外三個 100GbE 端口將用于外部連接
圖11:來自Gaudi 3白皮書。這已從 100GbE 變?yōu)?200GbE,但我們?nèi)匀恍枰獙?3 根線捆綁在一起形成 7 對,這將互連 8 個 Gaudi 3
其他AI處理器廠商也采用了類似的配置,這些芯片之間點對點應用的需求非常大。它會被Xeon采用嗎?這可能看起來有點奇怪,但作為 Intel Foundry 提供的解決方案,它似乎很有前途。
相反,將電和光集成在單個硅中的舊愿景仍然為時過早,而且在技術上也很困難。這可能嗎?老實說這很可疑。無論怎么看,3D堆疊都更靈活、成本更低、更可靠。
光學計算,下一個熱點
如Yole所說,近年來,因為多種原因的影響,光學計算也成為了一股新興力量。
但他們也承認,光學計算仍處于早期階段。如上所述,一些大公司已將重點從光學計算轉(zhuǎn)向光學 I/O,但新的光學計算初創(chuàng)公司不斷涌現(xiàn),探索各種方法。
光學處理器主要針對人工智能推理任務。此外,基于量子位和其他量子效應的光學量子計算機可用于各種應用,例如模擬、優(yōu)化和人工智能/機器學習。另一方面,光學處理器將專門針對人工智能推理。
Yole估計,第一批光學處理器將于 2027/28 年開始出貨。2027 年的首批出貨可能用于實施該技術部分內(nèi)容的定制系統(tǒng),大部分收入來自非經(jīng)常性工程 (NRE) 服務。到 2028 年,配備光學處理器的通用系統(tǒng)的直銷將開始。從 2029 年開始,早期采用者、隨后是 OEM 和系統(tǒng)集成商將逐漸采用光學處理器。到 2034 年,我們估計光學處理器的總數(shù)將達到近 100 萬臺,代表著數(shù)十億美元*的市場價值。
Yole還預測,從 2030 年開始,基于光子的量子計算機的出貨量將出現(xiàn)大幅增長,其中Quandela 、QUIX 和Pasqal等公司將引領這一潮流。到 2034 年,預計該市場在系統(tǒng)層面的價值將達到數(shù)百美元*。未來幾年,該領域的大部分收入將來自項目和 NRE。
光學計算并不是一個新概念,而且有很多方法可以實現(xiàn)光門,其中光子集成電路和量子光學是當今最有趣的方法。然而,盡管取得了進展,實用的光邏輯門仍然面臨重大挑戰(zhàn),因為它們需要滿足多個標準,例如門之間的級聯(lián)性、可擴展性和從光損耗中恢復,才能與電子門競爭。雖然當前的研究通常涉及單個門或簡單電路,但大型光學計算機的開發(fā)仍處于早期階段。
硅光子學因其可擴展性而成為光學計算的一項使能技術。光子學的最大問題之一一直是集成。隨著集成光學通過不同的材料方法(SOI、SiN 、TFLN、石墨烯、BTO、聚合物)迅速發(fā)展,這可能為基于 PIC 的實用光學處理器鋪平道路。集成度的提高也將使量子光學界受益,因為它能夠開發(fā)出具有更多量子比特且外形緊湊的量子光學計算機。
目前,制造光學處理器的方法有很多種。它可以是模擬的,也可以是數(shù)字的,使用各種光學介質(zhì)來處理數(shù)據(jù),例如 PIC、FSO 或光纖。對于基于量子比特的光學量子計算機,我們考慮了三種不同的方法。一種使用光子量子比特,而另外兩種使用光子學來控制非光子量子比特,例如捕獲離子和中性/冷原子。
此外,一些公司聲稱正在開發(fā)不基于量子比特的光學量子計算機,而是使用光量子效應和非線性。光學處理器還在開發(fā)新型材料,盡管它們?nèi)蕴幱诜浅T缙诘碾A段,例如超表面 和SiC。
光學計算的成功需要多維度的方法,解決集成挑戰(zhàn)、制造復雜性和基礎設施要求。在地緣政治方面,特別是關于美國/中國的禁令,當中國國內(nèi)芯片生產(chǎn)趕上時,美國將需要已經(jīng)開始攻克先進計算的下一個技術前沿,例如基于光的計算或量子計算。光學量子供應鏈仍處于早期階段,對需要大量研發(fā)的先進產(chǎn)品的需求很高,導致交貨時間較長,阻礙了進展。
盡管如此,供應鏈仍然高度動態(tài),有 GlobalFoundries、臺積電、三星、LioniX等眾多參與者提供 PIC 代工服務。該行業(yè)仍在努力應對“小批量問題”,因為該行業(yè)尚未達到規(guī)?;蜕虡I(yè)化階段,目前的重點仍然放在開發(fā)和原型設計上。
過去五年,從事光學計算的公司籌集了近 36 億美元。隨著谷歌、Meta 和 OpenAI 等巨頭將人工智能能力推向極限,更快、更高效的計算競爭正在加劇。最新一輪融資凸顯了投資者的信心,他們相信光子學能夠提供未來維持人工智能進步所需的突破。
然而,與一般的量子計算機一樣,很難預測光學計算的拐點何時會出現(xiàn)。光學計算平臺預計將在未來幾年內(nèi)在學術和私人研究領域得到一定程度的應用,但它們是否會在短期至中期內(nèi)實現(xiàn)廣泛的適用性和采用仍不確定。
參考鏈接
https://pc.watch.impress.co.jp/docs/column/tidbit/1626432.html#Photo02_l.jpg
https://www.yolegroup.com/press-release/could-optical-computing-solve-ais-power-demands/
本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個人觀點,不代表創(chuàng)業(yè)邦立場,轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn。