破局帶寬瓶頸,光纖PCIe引領(lǐng)數(shù)據(jù)中心互聯(lián)新時代

AI和機(jī)器學(xué)習(xí)技術(shù)的迅猛發(fā)展,尤其是大語言模型(LLM)的興起,對計算資源和數(shù)據(jù)傳輸速度提出了更高的要求,從而激發(fā)了對更高帶寬解決方案的迫切需求。

本文來自微信公眾號“半導(dǎo)體行業(yè)觀察”。

AI和機(jī)器學(xué)習(xí)技術(shù)的迅猛發(fā)展,尤其是大語言模型(LLM)的興起,對計算資源和數(shù)據(jù)傳輸速度提出了更高的要求,從而激發(fā)了對更高帶寬解決方案的迫切需求。過去數(shù)年,PCIe作為數(shù)據(jù)中心服務(wù)器間互聯(lián)的主力軍,承擔(dān)著高速數(shù)據(jù)傳輸?shù)闹厝?。而今,PCIe Gen 7.0標(biāo)準(zhǔn)即將發(fā)布,其在數(shù)據(jù)中心中的地位也將進(jìn)一步得到鞏固。

640 (1).png

圖1:PCIe鏈路上的數(shù)據(jù)通信全棧。

PCIe鏈路通過銅纜或背板將服務(wù)器內(nèi)的各種資源連接起來,實(shí)現(xiàn)高速數(shù)據(jù)交換。

然而,面對不斷增長的帶寬需求,傳統(tǒng)的PCIe架構(gòu)也面臨著新的挑戰(zhàn),例如資源限制、延遲和能耗等。而光纖鏈路因具備高帶寬、低延遲和長傳輸距離等優(yōu)勢,有望成為下一代PCIe的創(chuàng)新方向。

數(shù)據(jù)中心的“四座大山”

面對爆炸式增長的AI工作負(fù)載,數(shù)據(jù)中心正面臨四大嚴(yán)峻挑戰(zhàn)。

1

資源限制:數(shù)據(jù)中心中的計算密集型任務(wù),如大語言模型(LLM),對內(nèi)存帶寬和利用率提出了更高要求。當(dāng)前,大部分?jǐn)?shù)據(jù)中心仍依賴本地內(nèi)存,這不僅限制了數(shù)據(jù)處理的速度,還導(dǎo)致內(nèi)存資源的利用效率低下。盡管處理器技術(shù)在不斷進(jìn)步,增加了更多更快的內(nèi)核,但內(nèi)存帶寬的瓶頸依然存在。如何有效提升內(nèi)存帶寬和利用率,成為提升數(shù)據(jù)處理能力的關(guān)鍵挑戰(zhàn)。

2

延遲:延遲問題是很多AI/ML應(yīng)用的性能提升瓶頸。當(dāng)前,通過銅纜和背板進(jìn)行的數(shù)據(jù)傳輸需要采用復(fù)雜的調(diào)制方案和先進(jìn)的均衡技術(shù)(如前向糾錯FEC)來保證數(shù)據(jù)的完整性。這些技術(shù)雖然能夠提升傳輸?shù)目煽啃?,但同時也增加了系統(tǒng)延遲。這種延遲對需要實(shí)時數(shù)據(jù)處理的應(yīng)用尤為關(guān)鍵,限制了整體系統(tǒng)的響應(yīng)速度和處理能力。

3

能耗:數(shù)據(jù)中心的電力消耗是另一個亟需解決的問題?,F(xiàn)有技術(shù)的高耗電芯片導(dǎo)致了數(shù)據(jù)中心大量的電力用于點(diǎn)對點(diǎn)的數(shù)據(jù)傳輸。據(jù)估計,這部分消耗占到了數(shù)據(jù)中心總電量的25%。隨著AI/ML應(yīng)用對數(shù)據(jù)傳輸需求的激增,這一比例可能進(jìn)一步上升,增加了數(shù)據(jù)中心的運(yùn)營成本和環(huán)境負(fù)擔(dān)。降低能耗、提高能效成為提升數(shù)據(jù)中心可持續(xù)性的重要任務(wù)。

4

可擴(kuò)展性:數(shù)據(jù)中心的擴(kuò)展能力直接關(guān)系到其對新興應(yīng)用和技術(shù)的適應(yīng)性。隨著數(shù)據(jù)傳輸和處理需求的提高,網(wǎng)絡(luò)架構(gòu)也要能夠根據(jù)實(shí)際需求進(jìn)行動態(tài)調(diào)整資源,以應(yīng)對不斷變化的AI工作負(fù)載。

光纖PCIe來解圍!

傳統(tǒng)的銅纜PCIe接口主要用于DAC和PCB互連,隨著數(shù)據(jù)速率的提升和電氣損耗的加劇,這種方案的優(yōu)勢在減弱。與之相比,光纖鏈路的帶寬密度更高,因此更加適應(yīng)新的需求。光纖技術(shù)也支持讓不同的處理單元去訪問不同服務(wù)器單元或機(jī)架中的其他內(nèi)存單元,從而能夠突破內(nèi)存限制,這有利于通過CXL交換機(jī)和其他類似應(yīng)用進(jìn)行資源集中或共享。

光纖鏈路在較長距離范圍內(nèi)保持能效和成本效益方面也表現(xiàn)優(yōu)異。與電氣鏈路相比,它們的損耗要小得多,這意味著它們在相同的距離內(nèi)使用更少的重定時器和信號調(diào)節(jié)裝置。此外,使用低成本、高良率的光纖元件可以進(jìn)一步降低單位距離的成本。另一方面,銅纜互連在數(shù)據(jù)中心占據(jù)了很大的空間,不適合密集型數(shù)據(jù)中心。相比之下,光纖更靈活,占用的空間更小,使其成為提高數(shù)據(jù)中心密度的更好選擇。

最后,線性直接驅(qū)動光纖鏈路也有助于減少延遲和降低功耗。可為光纖傳輸PCIe部署不同的光纖架構(gòu),從而改善延遲。

圖2顯示了一個光纖傳輸PCIe用例場景,用于根據(jù)OCP(開放計算項(xiàng)目)要求執(zhí)行的數(shù)據(jù)中心機(jī)架內(nèi)和機(jī)架間配置。此類應(yīng)用包括NVMe和CXL支持的離散數(shù)據(jù)中心的計算、存儲、加速器和內(nèi)存連接場景。

640 (1).png

圖2:OCP通用機(jī)架內(nèi)和機(jī)架間PCIe連接

實(shí)現(xiàn)光纖PCIe,不容易

PCIe接口的最初構(gòu)思并未考慮光纖的兼容性。PCIe互連的應(yīng)用(如CPU到CPU、GPU到GPU以及GPU到存儲器)通常使用當(dāng)前的PCIe PHY和控制器,通過銅纜通道,從根聯(lián)合體到端點(diǎn)加以實(shí)現(xiàn)。因此,從使用電氣通道的PCIe過渡到光纖傳輸PCIe的過程復(fù)雜且充滿挑戰(zhàn)。

首先,要實(shí)現(xiàn)PCIe電氣合規(guī)需要明確規(guī)范以確保互操作性,還需保持與光纖鏈路的兼容性。其次,光纖傳輸PCIe協(xié)議的支持可能需要對現(xiàn)有協(xié)議進(jìn)行更改,包括Rx檢測、電氣IDLE狀態(tài)管理、光纖器件的SSC時鐘性能以及邊帶信號處理等方面。為應(yīng)對這些挑戰(zhàn),PCI-SIG光纖工作組于2023年8月成立,新思科技也積極參與其中,推動“光纖友好型”PCIe標(biāo)準(zhǔn)的制定。

如何實(shí)現(xiàn)光纖傳輸PCIe?

重定時拓?fù)涫且环N關(guān)鍵方法,最多可在端到端鏈路中使用兩個重定時器。在此拓?fù)浣Y(jié)構(gòu)中需要考慮的一些重要方面包括戰(zhàn)略布局,以及部署的重定時器的精確數(shù)量。

相反,非重定時(即線性)拓?fù)湟肓艘唤M更復(fù)雜的挑戰(zhàn)。這主要是因?yàn)榫€性鏈路破壞了路徑的連續(xù)性,使得更難以遵循現(xiàn)有的PCIe標(biāo)準(zhǔn)和合規(guī)性規(guī)定。在此拓?fù)渲校行д{(diào)節(jié)通道損耗至關(guān)重要。此外,還需要對協(xié)議層進(jìn)行重大改變,并且可能還需要對PHY層進(jìn)行重大改變。對所有類型的光纖引擎進(jìn)行全面的可行性研究,也是該拓?fù)浣Y(jié)構(gòu)的一個關(guān)鍵方面。

640 (1).png

圖3:實(shí)現(xiàn)光纖傳輸PCIe的各種拓?fù)?/p>

除了鏈路拓?fù)渫?,還應(yīng)考慮其他關(guān)鍵元素,如外形標(biāo)準(zhǔn)化和FEC方案,以便通過光纖成功建立PCIe鏈路。目前正在評估CDFP、OSFP、QSFP、QSFPDD等形狀,仔細(xì)考慮每個形狀的優(yōu)缺點(diǎn)。FEC討論中也發(fā)生了同樣的情況,正在考慮采用級聯(lián)FEC架構(gòu)部分滿足光纖PMD要求或擴(kuò)展其范圍,同時為整個系統(tǒng)提供低延遲。

全球首款光纖傳輸PCIe 7.0

光纖傳輸PCIe是實(shí)現(xiàn)機(jī)架單元互聯(lián)并使其作為集群運(yùn)行的關(guān)鍵。PCIe作為控制器,連接數(shù)字邏輯和特定軟件。主要挑戰(zhàn)在于確保向光纖PCIe的過渡不干擾軟件堆棧的控制過程,以及物理層的管理和電氣-光纖接口的互操作性。

在這方面,新思科技與OpenLight合作,提供可與光纖IP配合使用的電氣IP解決方案。一旦建立通用標(biāo)準(zhǔn),任何光晶粒供應(yīng)商都將能夠集成PCIe。

新思科技和OpenLight在OFC 2024期間展示了全球首款采用線性驅(qū)動方法的光纖傳輸PCIe 7.0數(shù)據(jù)速率演示版本,此外,還展示了光纖傳輸PCIe 6.x演示版本。該演示版本展示了端到端鏈路BER性能比FEC閾值高出幾個數(shù)量級,表明采用光纖傳輸PCIe 7.0的可行性優(yōu)于采用128Gbps PAM4傳輸。這樣的性能是通過使用離散電氣和光纖組件構(gòu)建光纖傳輸PCIe鏈路達(dá)到的。正如OFC24期間展示的那樣,驅(qū)動具有卓越PPA和延遲的電氣PCIe鏈路的新思科技SerDes依然不受這種不理想甚至最差情況用例場景的限制,展示了新思科技SerDes的靈活性和穩(wěn)定性。

640 (1).png

總結(jié)

在AI/ML及其帶來的帶寬需求時代,光纖傳輸PCIe代表了信號傳輸?shù)奈磥碲厔?。其開發(fā)和采用依賴于支持性生態(tài)系統(tǒng)的建設(shè),新思科技正在積極推進(jìn),利用其完整的PCIe IP解決方案,通過PCIe 7.0和PCIe 6.x互操作性演示和成功的現(xiàn)場成績,減少集成風(fēng)險并實(shí)現(xiàn)首次流片成功。

THEEND

最新評論(評論僅代表用戶觀點(diǎn))

更多
暫無評論