本文來(lái)自微信公眾號(hào)“AI芯天下”,作者/方文三。
在現(xiàn)代AI系統(tǒng)中,使用PCIe將加速器連接在一起已經(jīng)太慢了;
而光互連技術(shù),正成為芯片巨頭們競(jìng)相探索與突破的關(guān)鍵領(lǐng)域,為芯片間的數(shù)據(jù)傳輸帶來(lái)了全新的變革與機(jī)遇。
光互連的興起
最近,在機(jī)架內(nèi)部使用光互連的趨勢(shì)日益增長(zhǎng)。受人工智能的高帶寬、低延遲要求(因?yàn)槿斯ぶ悄苣P头植荚跀?shù)十個(gè)處理節(jié)點(diǎn)上)的推動(dòng),光互連正在幫助這些多節(jié)點(diǎn)系統(tǒng)盡可能快地運(yùn)行。速度一如既往地至關(guān)重要。
光互連是一個(gè)充滿創(chuàng)新的領(lǐng)域。一些初創(chuàng)公司正在開發(fā)全光分組交換——避免在電域和光域之間轉(zhuǎn)換信號(hào)的需要,從而大大節(jié)省了功耗和延遲。
其他公司正在將光學(xué)技術(shù)應(yīng)用到下一層,正在開發(fā)全光芯片到芯片甚至硅片到硅片的互連。在這里,通信帶寬甚至更高。為了實(shí)現(xiàn)這一進(jìn)步,共封裝光學(xué)器件至關(guān)重要。代工廠和芯片封裝公司正在大力投資這一功能。
大模型時(shí)代對(duì)PCIe技術(shù)進(jìn)步的需求
PCIe總線協(xié)議作為計(jì)算機(jī)和服務(wù)器中使用最廣泛的高速數(shù)據(jù)傳輸技術(shù),其傳輸性能的提升對(duì)于滿足這些需求至關(guān)重要。
傳統(tǒng)連接方案主要依賴于銅纜進(jìn)行電信號(hào)傳輸,用于單機(jī)內(nèi)部計(jì)算芯片和設(shè)備之間互連。
眾所周知,銅纜在信號(hào)完整性、延遲、傳輸距離和功耗等方面存在日益突出的局限,無(wú)法滿足PCIe高性能互連系統(tǒng)的需求。
所需要的算力規(guī)模也變得越來(lái)越大,萬(wàn)卡成為算力系統(tǒng)設(shè)計(jì)的起點(diǎn),單機(jī)內(nèi)部的PCIe連接已經(jīng)不能滿足需求,機(jī)柜內(nèi)互連和跨機(jī)柜的互連成為新的發(fā)展方向,以實(shí)現(xiàn)更高效的數(shù)據(jù)交換和資源共享。
核心光互連有三種技術(shù)
垂直腔面發(fā)射激光器(VCSEL)是整個(gè)行業(yè)光學(xué)AI互連技術(shù)的主力。其低功耗和低成本使其成為數(shù)據(jù)通信和傳感應(yīng)用的理想選擇,唯一的限制是它在較短的鏈路距離內(nèi)運(yùn)行效果最佳。
電吸收調(diào)制激光器(EML)非常適合擴(kuò)展到更遠(yuǎn)距離和數(shù)十萬(wàn)甚至數(shù)百萬(wàn)個(gè)單元的AI系統(tǒng)。該技術(shù)在非常高的帶寬下提供更好的性能,并且通常是第一個(gè)以下一代數(shù)據(jù)速率實(shí)現(xiàn)批量部署的技術(shù)。
共封裝光學(xué)器件(CPO)是一種將高速硅光子學(xué)異質(zhì)集成到專用集成電路上的先進(jìn)技術(shù),旨在解決下一代帶寬和功率挑戰(zhàn)。
這項(xiàng)新技術(shù)將為未來(lái)幾代人工智能系統(tǒng)提供功率和成本領(lǐng)先優(yōu)勢(shì),并支持大規(guī)模人工智能網(wǎng)絡(luò)的基礎(chǔ)設(shè)施。
英特爾的光互連新方案
英特爾推出的光學(xué)計(jì)算互連(OCI)芯粒備受矚目。這一尚處于技術(shù)原型階段的創(chuàng)新成果,可與CPU、GPU集成,面向數(shù)據(jù)中心和高性能計(jì)算應(yīng)用。
其顯著優(yōu)勢(shì)在于能夠在最長(zhǎng)100米的光纖上單向支持64個(gè)32Gbps通道,這對(duì)于實(shí)現(xiàn)可擴(kuò)展的CPU和GPU集群連接意義重大,極大地提高了帶寬,同時(shí)還有助于降低功耗,延長(zhǎng)傳輸距離,為加速機(jī)器學(xué)習(xí)工作負(fù)載等高性能計(jì)算任務(wù)提供了有力支撐。
在一些大型數(shù)據(jù)中心,采用英特爾的OCI芯粒后,數(shù)據(jù)處理速度大幅提升,原本需要數(shù)小時(shí)才能完成的復(fù)雜數(shù)據(jù)分析任務(wù),現(xiàn)在可以在更短的時(shí)間內(nèi)完成,大大提高了工作效率。
博通的光互連領(lǐng)域新嘗試
博通在光互連領(lǐng)域也展現(xiàn)出了強(qiáng)大的實(shí)力與創(chuàng)新精神。在Hot Chips 2024大會(huì)上,博通展示了帶有光學(xué)附件的AI計(jì)算ASIC,將硅光子學(xué)和共封裝光學(xué)器件(CPO)技術(shù)巧妙融合。
在其新一代的Tomahawk 5Bailly交換機(jī)中采用了CPO技術(shù),直接將光學(xué)模塊集成到芯片封裝中,不僅顯著減少了系統(tǒng)延遲,還大幅提高了數(shù)據(jù)傳輸速度和能效。
并且博通采用可插拔激光器的設(shè)計(jì)策略,提高了系統(tǒng)的可維護(hù)性,降低了維護(hù)成本,同時(shí)通過將計(jì)算ASIC與光學(xué)模塊和高帶寬內(nèi)存(HBM)封裝在一起,實(shí)現(xiàn)了更高的計(jì)算密度和更低的功耗。
在一些高速網(wǎng)絡(luò)通信場(chǎng)景中,博通的光互連方案使得網(wǎng)絡(luò)延遲降低到微秒級(jí)別,為實(shí)時(shí)視頻會(huì)議、在線游戲等對(duì)網(wǎng)絡(luò)延遲要求極高的應(yīng)用提供了穩(wěn)定可靠的保障。
巨頭在光互連領(lǐng)域的差異
這些芯片巨頭的光互連新方案既有相似之處,也存在一些差異。
相似之處在于,他們都看到了光互連技術(shù)在提升數(shù)據(jù)傳輸速度、降低功耗、提高帶寬等方面的巨大潛力,并且都在積極將光互連技術(shù)與自身的芯片產(chǎn)品或系統(tǒng)進(jìn)行深度整合,以滿足日益增長(zhǎng)的高性能計(jì)算和數(shù)據(jù)中心需求。
然而,在具體的技術(shù)實(shí)現(xiàn)路徑、集成方式以及應(yīng)用場(chǎng)景的側(cè)重上,又各有千秋。
例如英特爾的OCI芯粒專注于為CPU和GPU集群連接提供解決方案。
博通更強(qiáng)調(diào)在交換機(jī)等網(wǎng)絡(luò)設(shè)備中的應(yīng)用以及可插拔激光器等獨(dú)特設(shè)計(jì)。
總之,芯片巨頭們的光互連新方案正推動(dòng)著整個(gè)芯片行業(yè)朝著更高性能、更低功耗、更高速數(shù)據(jù)傳輸?shù)姆较蜻~進(jìn)。
結(jié)尾:
創(chuàng)新成果不僅將重塑數(shù)據(jù)中心和高性能計(jì)算的未來(lái)格局,也為人工智能、6G、量子計(jì)算等前沿領(lǐng)域的發(fā)展奠定了堅(jiān)實(shí)基礎(chǔ),引領(lǐng)著信息技術(shù)進(jìn)入一個(gè)全新的發(fā)展階段。
內(nèi)容參考來(lái)源于:半導(dǎo)體行業(yè)觀察:光互聯(lián),芯片巨頭再出招;半導(dǎo)體行業(yè)觀察:PCIe,新革命;光芯之路:博通的光互連技術(shù);地面通三網(wǎng)互通:光互連和光處理如何改變數(shù)據(jù)中心