光芯片,為時(shí)過(guò)早?

在今年的Hotchips,很多專家分享了關(guān)于光芯片互聯(lián)的一些技術(shù)。例如特斯拉、博通、openAI、博通和英特爾等。從這些廠商的積極布局看來(lái),我們以為光芯片互聯(lián)已經(jīng)到了爆發(fā)前夕。但其實(shí)在不少人看來(lái),這還為時(shí)過(guò)早。

本文來(lái)自微信公眾號(hào)“半導(dǎo)體行業(yè)觀察”。

在今年的Hotchips,很多專家分享了關(guān)于光芯片互聯(lián)的一些技術(shù)。例如特斯拉、博通、openAI、博通和英特爾等。從這些廠商的積極布局看來(lái),我們以為光芯片互聯(lián)已經(jīng)到了爆發(fā)前夕。但其實(shí)在不少人看來(lái),這還為時(shí)過(guò)早。

640.jpg

圖1:這是“芯片到芯片”連接,而不是“芯片內(nèi)”連接。英特爾似乎改變了主意,稱距離使用光進(jìn)行內(nèi)部芯片連接還有很長(zhǎng)的路要走。

光通信需求的變化

上面的圖顯示了英特爾對(duì)光通信演進(jìn)的看法。這是夸張的說(shuō)法,考慮到光纖實(shí)際上在電信時(shí)代之前就已經(jīng)被使用了,在20世紀(jì)90年代就向客戶介紹了使用基于光纖的令牌環(huán)(token ring)來(lái)創(chuàng)建LAN的系統(tǒng)。電信時(shí)代和數(shù)據(jù)通信時(shí)代有很多重疊。不過(guò),考慮到光纖相關(guān)技術(shù)最初是為了長(zhǎng)距離通信而開(kāi)發(fā)的,也曾被用于其他目的,這可能有些夸張,但這并不是謊言。

在長(zhǎng)距離應(yīng)用的情況下,能夠穩(wěn)定長(zhǎng)距離和拓寬頻段是首要考慮的,成本和功耗是其次的。對(duì)于DSP來(lái)說(shuō),它很可能被用作長(zhǎng)距離應(yīng)用的骨干,因此可靠性至關(guān)重要。

然而,隨著數(shù)據(jù)中心內(nèi)基于銅線的以太網(wǎng)被基于光纖的以太網(wǎng)取代,新的需求出現(xiàn)了。當(dāng)然,帶寬在這里是必要的,但降低成本和功耗也變得很重要。

大量的服務(wù)器排列在大量的機(jī)架中,這些服務(wù)器通過(guò)TOR(機(jī)架頂部)和BOR(機(jī)架底部)連接到網(wǎng)絡(luò)交換機(jī)。由于這些交換機(jī)將相互連接并連接到大規(guī)模的后端交換機(jī),因此迫切需要降低每個(gè)網(wǎng)絡(luò)端口的功耗,而這也將影響數(shù)據(jù)中心安裝成本的降低。結(jié)果是,市場(chǎng)催生了以下需求:

  1. 旨在通過(guò)使用硅光子學(xué)來(lái)降低功耗;
  2. 增加輸出功率(和/或)增加接收器的靈敏度,從而消除光放大器(這降低了成本和功耗)
  3. 減少DSP的功能,有可能就去掉(因?yàn)镈SP的功耗很低,而且DSP的處理比較復(fù)雜,這也是延遲增加的原因之一)
  4. 這些需求已經(jīng)改變。這是引入CPO背后最大的因素。

順便說(shuō)一下,去年11月Intel出售給Javi的可插拔以太網(wǎng)收發(fā)器業(yè)務(wù),正是針對(duì)這個(gè)數(shù)據(jù)通信時(shí)代的解決方案。再順便說(shuō)一句,“硅光子學(xué)”和“硅光學(xué)”這兩個(gè)符號(hào)都被使用,但它們具有相同的含義。

這就引出了我們當(dāng)前的主題:人工智能時(shí)代。

芯片間光通信

簡(jiǎn)而言之,如果用于芯片到芯片的連接,則范圍僅限于機(jī)架內(nèi)或機(jī)架之間(或者更確切地說(shuō),除非將其限制在該區(qū)域,否則沒(méi)有盡頭)。隨著帶寬的增加,功耗必須進(jìn)一步降低。當(dāng)然,不應(yīng)增加每個(gè)波長(zhǎng)的速度,而應(yīng)將每個(gè)波長(zhǎng)的速度降低到DWDM。由于CWDM需要支持多種波長(zhǎng),因此使用DWDM比較合適。

用于此目的的光學(xué)組件(例如MUX/DEMUX)已經(jīng)在英特爾內(nèi)部開(kāi)發(fā)了很長(zhǎng)時(shí)間,因此實(shí)施起來(lái)很容易。因此,他們開(kāi)發(fā)的不是“使用高速光信號(hào)的串行芯片到芯片互連”,而是“并行芯片到芯片互連”的原型,它捆綁低速光信號(hào)以創(chuàng)建一個(gè)寬帶。”

順便說(shuō)一句,“CPO”這個(gè)詞早些時(shí)候出現(xiàn)過(guò)。這是“Co-Package Optics”的縮寫,這個(gè)術(shù)語(yǔ)最近開(kāi)始被普遍使用,但迄今為止它展示的第一個(gè)應(yīng)用是以太網(wǎng)交換機(jī),然后是計(jì)算結(jié)構(gòu)。這里將解釋芯片之間的連接(圖2)。

微信圖片_20240930101129.jpg

圖2:如果Intel仍然繼續(xù)開(kāi)發(fā)Barefoot的Tofino,未來(lái)的產(chǎn)品中可能會(huì)有使用以太網(wǎng)CPO的產(chǎn)品

事實(shí)上,這種趨勢(shì)對(duì)于博通來(lái)說(shuō)也是一樣的。對(duì)于可插拔以太網(wǎng)收發(fā)器,該公司將首先用硅光子取代傳統(tǒng)的II-V光學(xué)元件(圖3),然后將該技術(shù)應(yīng)用于交換機(jī),最后應(yīng)用于芯片到芯片的連接(圖4)。

微信圖片_20240930101142.jpg

圖3:這是可插拔以太網(wǎng)收發(fā)器的故事。這里所說(shuō)的III-V族很可能是指GaAs與InP、Sb等結(jié)合的VCSEL結(jié)構(gòu)的激光源。

微信圖片_20240930101144.jpg

圖4:左側(cè)交換機(jī)配備16個(gè)CPO,16個(gè)端口(每側(cè)4個(gè)),可配置總共256通道的光纖以太網(wǎng)交換機(jī)

臺(tái)積電也是如此,在今年6月舉行的技術(shù)研討會(huì)上,他們提出了一個(gè)路線圖,首先將其COUPE(COmpact通用光子引擎)應(yīng)用于可插拔以太網(wǎng)收發(fā)器,然后應(yīng)用于交換機(jī)。

微信圖片_20240930101146.jpg

圖4:臺(tái)積電的光芯片路線圖

Marvell和GlobalFoundries也涉足硅光子和光纖以太網(wǎng),其路線圖可能相似。Intel不處理交換機(jī)(不,Intel Foundry處理它們的可能性非零,所以將來(lái)有可能,但我在不久的將來(lái)看不到),所以我會(huì)跳過(guò)這是XPU芯片到芯片技術(shù)的一個(gè)進(jìn)步。

現(xiàn)在,這是Intel的配置(圖6)。XPU就是所謂的處理器,它和CPO Chiplet之間的連接是UCIe。CPO底部有一個(gè)EIC(電氣集成電路),必要時(shí)可在其中集成UCIe I/F和DSP。電/光轉(zhuǎn)換由EIC頂部的PIC(光子集成電路)執(zhí)行。該P(yáng)IC使用硅光子學(xué)實(shí)現(xiàn)。

微信圖片_20240930101149.jpg

圖6:Foveros可能是用來(lái)堆疊PIC和EIC的??磥?lái)在這個(gè)實(shí)現(xiàn)中,DSP并沒(méi)有在EIC中實(shí)現(xiàn)

該CPO小芯片可實(shí)現(xiàn)4Gbps的互連。雖然波長(zhǎng)為(SR:短距),但約為1,310 nm,通常是xBASE-LR等使用SMF(單模光纖)使用的區(qū)域,但無(wú)法與MMF(多模光纖)通信甚至沒(méi)有。

我認(rèn)為他們不使用850nm左右波長(zhǎng)的原因是由于輸出和衰減問(wèn)題。每個(gè)波長(zhǎng)的速度為32Gbps,但以1310nm為中心的8個(gè)波長(zhǎng)以約1.2nm的間隔轉(zhuǎn)換為DWDM,并通過(guò)單根光纖。它實(shí)際上由每個(gè)方向8根光纖組成,因此總帶寬為32 x 8 x 8=2,048 Gbps。

假設(shè)它將應(yīng)用于PCI Express 6.0,因此看起來(lái)配置是不通過(guò)以太網(wǎng)幀,但如果需要的話可以直接通過(guò)PCIe。

首先,我認(rèn)為32Gbps和NRZ調(diào)制的傳輸速度是因?yàn)镻CI Express 5.0信號(hào)是按原樣進(jìn)行光學(xué)轉(zhuǎn)換的。事實(shí)上,它被寫為“un-retimed PCIe6”,表明PHY當(dāng)前正在使用NRZ進(jìn)行傳輸,但如果需要,也可以使用PAM4進(jìn)行傳輸。

目前,EIC似乎兼容UCIe 1.1,因此PAM4信號(hào)無(wú)法按原樣傳遞,但兼容2.0的下一代EIC將按原樣傳遞PCIe 6信號(hào),將其交給PIC,并將它們轉(zhuǎn)換成光信號(hào)進(jìn)行傳輸。在這種情況下,他們似乎正在考慮使用PCIe FLIT來(lái)進(jìn)行糾錯(cuò),而不使用FEC。

簡(jiǎn)而言之,它的工作原理類似于PCI Express光纖擴(kuò)展器。在這種情況下,XPU通過(guò)讀取和寫入PCI Express設(shè)備進(jìn)行操作,然后通過(guò)光纖直接連接到另一個(gè)XPU?;蛘撸瑢?duì)于PCI Express,傳輸模式有限制,因此邏輯層可能是CXL,但這不是一個(gè)大問(wèn)題。這里的重點(diǎn)是它似乎使用PCIe作為物理層。

對(duì)于光纖以太網(wǎng),F(xiàn)EC引起的延遲不可避免地會(huì)增加。為了避免這種情況,我們的想法是保持每個(gè)通道的速度較低,并使用PCI Express糾錯(cuò)和FLIT來(lái)擴(kuò)大帶寬,同時(shí)保持XPU之間的通信延遲較低。

為什么英特爾不將一切與硅光子集成?

為什么英特爾使用CPO而不是將一切與硅光子集成?這就是故事。

在圖7中,XPU自然是一種硅工藝。既然是XPU,那么現(xiàn)在可能是Intel 7或Intel 3,將來(lái)可能是Intel 18A。EIC當(dāng)然是硅工藝,如果使用硅光子,PIC也是硅工藝。

微信圖片_20240930101202.jpg

圖7:4Gbps是雙向總帶寬,單向2Tbps。順便說(shuō)一句,由于正文中提到的原因,EIC接口可能會(huì)有四個(gè)16位寬的32Gbps UCIe

到目前為止的想法是,“如果我們集成所有東西,制造不是更容易嗎?”然而,英特爾這次的結(jié)論是,將它們分成小芯片實(shí)際上會(huì)更有效。雖然沒(méi)有顯示EIC和PIC工藝,但EIC很可能在22nm或14nm左右,PIC將在45nm或65nm左右。

原因很簡(jiǎn)單。EIC需要以一定的電壓將信號(hào)傳遞給PIC,PHY占用很大的面積,如果我的假設(shè)正確的話,根本不需要協(xié)議轉(zhuǎn)換或FEC,所以高速邏輯是不必要的。32Gbps PHY采用22nm工藝可能有點(diǎn)困難,但采用14nm工藝則可以毫無(wú)問(wèn)題地制造。而且無(wú)論P(yáng)HY是用14nm還是18A制作,面積幾乎是一樣的。

說(shuō)白了,尖端工藝不適合需要一定電壓的應(yīng)用(雖然不是不可能,但效率低下),因?yàn)楣ぷ麟妷簳?huì)隨著工藝變小而降低。在這種情況下,使用22nm或14nm等較舊的工藝將更容易處理高電壓,并且如果面積保持不變,制造成本也會(huì)更低。

這種情況在PIC中更為極端,其中基于硅光子的電路元件最初是使用平面型工藝而不是FinFET工藝開(kāi)發(fā)的,并且這些元件的尺寸甚至更大。

在2022年Hot Interconnects大會(huì)上,英特爾James Jaussi的邀請(qǐng)演講中透露,TIA是采用22nm工藝開(kāi)發(fā)的(圖8)。然而,考慮到并非所有組件都可以用22nm制造,我懷疑該工藝實(shí)際上有點(diǎn)老了。

微信圖片_20240930101206.jpg

圖8

回到主題,“在同一塊硅中實(shí)現(xiàn)電和光”的舊想法不幸的是不現(xiàn)實(shí),唯一現(xiàn)實(shí)的解決方案是以chiplet的形式分離組件。

與Knights Hill的關(guān)系取消

當(dāng)我看到Intel發(fā)布的芯片照片(圖9)時(shí),我想起了Knights Hill。

微信圖片_20240930101209.jpg

圖9:乍一看像是一對(duì)2根光纖,但里面卻有8對(duì)16根光纖。

Knights Hill計(jì)劃于2016年發(fā)布,采用10nm工藝,并于2014年11月的SC14上揭曉,計(jì)劃在Aurora中實(shí)現(xiàn),英特爾將交付給ALCF。然而,在2017年11月舉行的SC17上,一篇博客文章簡(jiǎn)單提到Knights Hill將被取消。

根據(jù)存儲(chǔ)在網(wǎng)絡(luò)檔案中的文章,擁有可以直接從CPU連接到外部互連(Omni-Path Fabric)的產(chǎn)品。這一代Omni-Path Fabric仍然是100Gbps銅纜,而下一代應(yīng)該是200Gbps銅纜或光纖。

因此,Knights Hill也計(jì)劃提供一個(gè)將下一代200Gbps與光學(xué)連接的版本,并且似乎一直在討論將硅光子納入其中,但由于Knights Hill的取消和Omni-Path的退出,所有都消失了。

由于故事已經(jīng)消失,我不知道帶有這種光學(xué)接口的Knight Hill計(jì)劃采用什么樣的結(jié)構(gòu),但它可能會(huì)配備像Knights Mill一樣結(jié)合EIC和OIC的外部芯片,這一定很酷。

然而,實(shí)際上,集成EIC和OIC是相當(dāng)困難的(舊工藝使得無(wú)法提高與Xeon Phi的接口速度),這可能是Knights Hill被取消的原因之一。不這么認(rèn)為(雖然我認(rèn)為最大的問(wèn)題是Intel的10nm在2016-2017年的時(shí)間范圍內(nèi)根本沒(méi)有投入實(shí)際使用)?,F(xiàn)在制作Knights Hill無(wú)論是制程還是界面都是完全可能的。所以Knights Hill早了10年。

讓我們回到4Tbps OCP。這種界面有多大用處?有些人可能會(huì)這么認(rèn)為,但英特爾實(shí)際上使用100GbE或200GbE與Gaudi 2(圖10)和Gaudi 3(圖11)進(jìn)行外部連接。用當(dāng)前的4Tbps光纖替換它將使布線更加容易,提高速度,并可能降低通信所需的功耗。

微信圖片_20240930101222.jpg

圖10:來(lái)自Gaudi 2白皮書。21根100GbE電纜以7對(duì)3電纜排列,Gaudi 2設(shè)備相互互連。另外三個(gè)100GbE端口將用于外部連接

微信圖片_20240930101225.jpg

圖11:來(lái)自Gaudi 3白皮書。這已從100GbE變?yōu)?00GbE,但我們?nèi)匀恍枰獙?根線捆綁在一起形成7對(duì),這將互連8個(gè)Gaudi 3

其他AI處理器廠商也采用了類似的配置,這些芯片之間點(diǎn)對(duì)點(diǎn)應(yīng)用的需求非常大。它會(huì)被Xeon采用嗎?這可能看起來(lái)有點(diǎn)奇怪,但作為Intel Foundry提供的解決方案,它似乎很有前途。

相反,將電和光集成在單個(gè)硅中的舊愿景仍然為時(shí)過(guò)早,而且在技術(shù)上也很困難。這可能嗎?老實(shí)說(shuō)這很可疑。無(wú)論怎么看,3D堆疊都更靈活、成本更低、更可靠。

光學(xué)計(jì)算,下一個(gè)熱點(diǎn)

如Yole所說(shuō),近年來(lái),因?yàn)槎喾N原因的影響,光學(xué)計(jì)算也成為了一股新興力量。

但他們也承認(rèn),光學(xué)計(jì)算仍處于早期階段。如上所述,一些大公司已將重點(diǎn)從光學(xué)計(jì)算轉(zhuǎn)向光學(xué)I/O,但新的光學(xué)計(jì)算初創(chuàng)公司不斷涌現(xiàn),探索各種方法。

光學(xué)處理器主要針對(duì)人工智能推理任務(wù)。此外,基于量子位和其他量子效應(yīng)的光學(xué)量子計(jì)算機(jī)可用于各種應(yīng)用,例如模擬、優(yōu)化和人工智能/機(jī)器學(xué)習(xí)。另一方面,光學(xué)處理器將專門針對(duì)人工智能推理。

Yole估計(jì),第一批光學(xué)處理器將于2027/28年開(kāi)始出貨。2027年的首批出貨可能用于實(shí)施該技術(shù)部分內(nèi)容的定制系統(tǒng),大部分收入來(lái)自非經(jīng)常性工程(NRE)服務(wù)。到2028年,配備光學(xué)處理器的通用系統(tǒng)的直銷將開(kāi)始。從2029年開(kāi)始,早期采用者、隨后是OEM和系統(tǒng)集成商將逐漸采用光學(xué)處理器。到2034年,我們估計(jì)光學(xué)處理器的總數(shù)將達(dá)到近100萬(wàn)臺(tái),代表著數(shù)十億美元*的市場(chǎng)價(jià)值。

Yole還預(yù)測(cè),從2030年開(kāi)始,基于光子的量子計(jì)算機(jī)的出貨量將出現(xiàn)大幅增長(zhǎng),其中Quandela、QUIX和Pasqal等公司將引領(lǐng)這一潮流。到2034年,預(yù)計(jì)該市場(chǎng)在系統(tǒng)層面的價(jià)值將達(dá)到數(shù)百美元*。未來(lái)幾年,該領(lǐng)域的大部分收入將來(lái)自項(xiàng)目和NRE。

微信圖片_20240930101229.png

光學(xué)計(jì)算并不是一個(gè)新概念,而且有很多方法可以實(shí)現(xiàn)光門,其中光子集成電路和量子光學(xué)是當(dāng)今最有趣的方法。然而,盡管取得了進(jìn)展,實(shí)用的光邏輯門仍然面臨重大挑戰(zhàn),因?yàn)樗鼈冃枰獫M足多個(gè)標(biāo)準(zhǔn),例如門之間的級(jí)聯(lián)性、可擴(kuò)展性和從光損耗中恢復(fù),才能與電子門競(jìng)爭(zhēng)。雖然當(dāng)前的研究通常涉及單個(gè)門或簡(jiǎn)單電路,但大型光學(xué)計(jì)算機(jī)的開(kāi)發(fā)仍處于早期階段。

硅光子學(xué)因其可擴(kuò)展性而成為光學(xué)計(jì)算的一項(xiàng)使能技術(shù)。光子學(xué)的最大問(wèn)題之一一直是集成。隨著集成光學(xué)通過(guò)不同的材料方法(SOI、SiN、TFLN、石墨烯、BTO、聚合物)迅速發(fā)展,這可能為基于PIC的實(shí)用光學(xué)處理器鋪平道路。集成度的提高也將使量子光學(xué)界受益,因?yàn)樗軌蜷_(kāi)發(fā)出具有更多量子比特且外形緊湊的量子光學(xué)計(jì)算機(jī)。

目前,制造光學(xué)處理器的方法有很多種。它可以是模擬的,也可以是數(shù)字的,使用各種光學(xué)介質(zhì)來(lái)處理數(shù)據(jù),例如PIC、FSO或光纖。對(duì)于基于量子比特的光學(xué)量子計(jì)算機(jī),我們考慮了三種不同的方法。一種使用光子量子比特,而另外兩種使用光子學(xué)來(lái)控制非光子量子比特,例如捕獲離子和中性/冷原子。

此外,一些公司聲稱正在開(kāi)發(fā)不基于量子比特的光學(xué)量子計(jì)算機(jī),而是使用光量子效應(yīng)和非線性。光學(xué)處理器還在開(kāi)發(fā)新型材料,盡管它們?nèi)蕴幱诜浅T缙诘碾A段,例如超表面和SiC。

微信圖片_20240930101232.png

光學(xué)計(jì)算的成功需要多維度的方法,解決集成挑戰(zhàn)、制造復(fù)雜性和基礎(chǔ)設(shè)施要求。在地緣政治方面,特別是關(guān)于美國(guó)/中國(guó)的禁令,當(dāng)中國(guó)國(guó)內(nèi)芯片生產(chǎn)趕上時(shí),美國(guó)將需要已經(jīng)開(kāi)始攻克先進(jìn)計(jì)算的下一個(gè)技術(shù)前沿,例如基于光的計(jì)算或量子計(jì)算。光學(xué)量子供應(yīng)鏈仍處于早期階段,對(duì)需要大量研發(fā)的先進(jìn)產(chǎn)品的需求很高,導(dǎo)致交貨時(shí)間較長(zhǎng),阻礙了進(jìn)展。

盡管如此,供應(yīng)鏈仍然高度動(dòng)態(tài),有GlobalFoundries、臺(tái)積電、三星、LioniX等眾多參與者提供PIC代工服務(wù)。該行業(yè)仍在努力應(yīng)對(duì)“小批量問(wèn)題”,因?yàn)樵撔袠I(yè)尚未達(dá)到規(guī)?;蜕虡I(yè)化階段,目前的重點(diǎn)仍然放在開(kāi)發(fā)和原型設(shè)計(jì)上。

過(guò)去五年,從事光學(xué)計(jì)算的公司籌集了近36億美元。隨著谷歌、Meta和OpenAI等巨頭將人工智能能力推向極限,更快、更高效的計(jì)算競(jìng)爭(zhēng)正在加劇。最新一輪融資凸顯了投資者的信心,他們相信光子學(xué)能夠提供未來(lái)維持人工智能進(jìn)步所需的突破。

然而,與一般的量子計(jì)算機(jī)一樣,很難預(yù)測(cè)光學(xué)計(jì)算的拐點(diǎn)何時(shí)會(huì)出現(xiàn)。光學(xué)計(jì)算平臺(tái)預(yù)計(jì)將在未來(lái)幾年內(nèi)在學(xué)術(shù)和私人研究領(lǐng)域得到一定程度的應(yīng)用,但它們是否會(huì)在短期至中期內(nèi)實(shí)現(xiàn)廣泛的適用性和采用仍不確定。

微信圖片_20240930101235.png

參考鏈接:

https://pc.watch.impress.co.jp/docs/column/tidbit/1626432.html#Photo02_l.jpg

https://www.yolegroup.com/press-release/could-optical-computing-solve-ais-power-demands/

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無(wú)評(píng)論