生成式AI的I/O瓶頸,或許可以用光子IC來突破

盡管部署大量GPU是擴展算力的最直接途徑,但與此同時傳統(tǒng)的互聯(lián)方案還是創(chuàng)造了巨大的I/O瓶頸,嚴重影響了GPU的性能利用率,導致更多的時間花在了等待數(shù)據(jù)而不是處理數(shù)據(jù)上。

本文來自電子發(fā)燒友網(wǎng),作者/周凱揚。

從回答問題對話到寫文章,ChatGPT這類應用已經(jīng)幫我們展示了生成式AI帶來的第一波震撼,從OpenAI的路線也可以看出,他們已經(jīng)在努力把處理對象從單純的文字,轉換成圖片、音頻乃至視頻了。但這也意味著待處理的數(shù)據(jù)大小以數(shù)量級提升,畢竟再長的文本和視頻文件大小比起來還是相去甚遠。

I/O瓶頸

要想進一步提升生成式AI的處理性能,我們就不得不看下背后為其提供動力的基礎設備,也就是GPU、AI加速器、高帶寬內存和光模塊。AI模型發(fā)展的早期,只需單個GPU甚至是CPU就能處理簡單的AI模型,而如今這些先進的AI模型,沒有大型機柜組成的服務器和成千上萬個GPU,是很難運行起來的。

比如特斯拉老版的自動駕駛訓練超算,就是由720個節(jié)點的8x英偉達A100 GPU構成的,算力高達1.8 EFLOPS。小鵬于去年建成的智算中心扶搖算力規(guī)模高達600PFLOPS,預計也用到了上千塊GPU。

盡管部署大量GPU是擴展算力的最直接途徑,但與此同時傳統(tǒng)的互聯(lián)方案還是創(chuàng)造了巨大的I/O瓶頸,嚴重影響了GPU的性能利用率,導致更多的時間花在了等待數(shù)據(jù)而不是處理數(shù)據(jù)上。

為此,常用的方案變成了添加更多的GPU來彌補性能和計算效率上的損失,可這樣的趨勢已經(jīng)在逐漸被淘汰,因為從減少碳足跡的角度來看,全球范圍內各個國家都在開始考慮減少數(shù)據(jù)中心的能源損耗了。

光子IC

除此之外,另一解決方案就是利用光模塊來解決速度慢的節(jié)點間電氣連接,然而光模塊成本較高、密度較低,所以需要更高速、端到端又能降低成本互聯(lián)方案,即芯片到芯片之間的光學I/O。

利用更高帶寬的光學連接取代諸多并行和高速串行I/O通道,這一愿景促使了行業(yè)對近封裝光學和共封裝光學的追求。相較外部可插拔的管模塊,光子IC可將光學I/O集成到GPU封裝內部,用來與其他的GPU節(jié)點進行直接通信,進一步提高了AI算力的擴展效率,滿足了當下持續(xù)增長的AI需求。

近期,Sivers Semiconductors就在歐洲光通信展覽會上展出了他們打造的八波長分布式反饋(DFB)激光器陣列,該陣列集成在了Ayar Labs的SuperNova多波長光源中,支持GPU之間最高4TB/s的數(shù)據(jù)傳輸。根據(jù)Ayar Labs提供的數(shù)據(jù),新的光源配合它們的TeraPHY封裝內光學I/O Chiplet,還提供了低上10倍的延遲和8倍的傳輸能效。

這樣的表現(xiàn)無疑極大地提升GPU的性能利用效率,解決當下生成式AI在I/O性能瓶頸上的燃眉之急。盡管光子計算芯片目前尚不能替代傳統(tǒng)的電子半導體器件,但從解決帶寬和延遲需求上已經(jīng)有了長足的進步。

寫在最后

面對生成式AI模型大小的指數(shù)級上漲,以及逐漸龐大起來的推理數(shù)據(jù)量,傳統(tǒng)的I/O性能必然會面臨淘汰,而光子IC為高性能的AI芯片提供了一條更快更高效的通路。不過仍然需要注意的是,光子IC與傳統(tǒng)IC還有設計與制造上的區(qū)別,比如需要特定的設計工具以及工藝等。因此要想發(fā)展光子IC跟上這一波趨勢,就必須從EDA和晶圓代工廠開始抓起。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論