互聯(lián),成為核心技術(shù)

隨著大模型的參數(shù)規(guī)模和訓(xùn)練數(shù)據(jù)容量快速提升,訓(xùn)練和部署最新的大模型一定會(huì)使用分布式計(jì)算,因?yàn)閱螜C(jī)幾乎不可能提供運(yùn)行大模型的足夠算力。

本文來(lái)自微信公眾號(hào)“半導(dǎo)體行業(yè)觀察”,作者/李飛。

今天,人工智能毫無(wú)疑問(wèn)是全球最火熱的技術(shù),同時(shí)也成為了半導(dǎo)體行業(yè)最炙手可熱的新市場(chǎng)。在人工智能技術(shù)中,目前看來(lái)影響力最大的技術(shù)將會(huì)是大模型技術(shù),其核心特點(diǎn)就是通過(guò)使用規(guī)模巨大(參數(shù)可達(dá)百億到千億數(shù)量級(jí))的模型,并且在海量的數(shù)據(jù)上訓(xùn)練,來(lái)實(shí)現(xiàn)人工智能能力的突破,并且賦能新的應(yīng)用,其中典型的例子就是去年下半年開(kāi)始獲得萬(wàn)眾關(guān)注的ChatGPT;而在未來(lái),大模型的復(fù)雜度預(yù)計(jì)會(huì)進(jìn)一步提升,以滿足應(yīng)用的需求。

訓(xùn)練和部署大模型需要強(qiáng)而有力的硬件支持,而這也是人工智能時(shí)代芯片成為核心技術(shù)的原因,因?yàn)榇竽P托枰乃懔w根到底來(lái)自于芯片,同時(shí)人工智能市場(chǎng)的發(fā)展也極大地推動(dòng)了芯片行業(yè)的市場(chǎng)規(guī)模,以及相關(guān)芯片技術(shù)的演進(jìn)。

在給人工智能大模型提供足夠的算力用于訓(xùn)練和部署的核心芯片技術(shù)中,數(shù)據(jù)互聯(lián)正在占據(jù)越來(lái)越重要的位置。芯片互聯(lián)越來(lái)越重要主要出于兩個(gè)原因:

首先,隨著大模型的參數(shù)規(guī)模和訓(xùn)練數(shù)據(jù)容量快速提升,訓(xùn)練和部署最新的大模型一定會(huì)使用分布式計(jì)算,因?yàn)閱螜C(jī)幾乎不可能提供運(yùn)行大模型的足夠算力。在分布式計(jì)算中,隨著分布式計(jì)算節(jié)點(diǎn)數(shù)量提升,理想情況下計(jì)算能力是隨著計(jì)算節(jié)點(diǎn)數(shù)量線性提升,但是現(xiàn)實(shí)中由于不同計(jì)算節(jié)點(diǎn)間的數(shù)據(jù)交互需要額外的開(kāi)銷,因此只能接近而無(wú)法真正實(shí)現(xiàn)計(jì)算能力隨著計(jì)算節(jié)點(diǎn)增加而線性增加。換句話說(shuō),隨著模型規(guī)模越來(lái)越大,需要的分布式節(jié)點(diǎn)數(shù)量越來(lái)越多,對(duì)于這類分布式計(jì)算節(jié)點(diǎn)間的數(shù)據(jù)互聯(lián)需求(帶寬,延遲,成本等)也就越來(lái)越高,否則這類分布式計(jì)算中的數(shù)據(jù)互聯(lián)將會(huì)成為整體計(jì)算中的效率瓶頸。

其次,從芯片層面考慮,隨著摩爾定律越來(lái)越接近物理極限,目前以chiplet(芯片粒)為代表的高級(jí)封裝技術(shù)正在成為芯片性能提升的重要方式。使用chiplet可以把單個(gè)復(fù)雜的大芯片系統(tǒng)分成多個(gè)小的芯片粒,每個(gè)芯片粒都可以用最合適的工藝去單獨(dú)制造,因此確保復(fù)雜的芯片系統(tǒng)可以以合理的成本和良率來(lái)制造。對(duì)于人工智能大模型而言,用于訓(xùn)練和部署的芯片的規(guī)模都非常大,因此chiplet將會(huì)成為支持人工智能芯片的核心技術(shù)。而在chiplet方案中,多個(gè)chiplet之間的數(shù)據(jù)通信也需要數(shù)據(jù)互聯(lián)技術(shù),換句話說(shuō)高帶寬、高密度的數(shù)據(jù)互聯(lián)將會(huì)成為使用chiplet搭建的人工智能加速芯片中的核心組件。

如上所述,在人工智能時(shí)代,數(shù)據(jù)互聯(lián)將會(huì)成為核心技術(shù),而其中最關(guān)鍵同時(shí)也是未來(lái)將會(huì)有最多發(fā)展的數(shù)據(jù)互聯(lián)方案,就是用于分布式計(jì)算中的中長(zhǎng)距離數(shù)據(jù)互聯(lián),以及用于chiplet場(chǎng)景中的超短距離數(shù)據(jù)互聯(lián)。

用于分布式計(jì)算的數(shù)據(jù)互聯(lián):硅光子技術(shù)成為關(guān)鍵

人工智能大模型的分布式計(jì)算,包括訓(xùn)練和部署,通常都在數(shù)據(jù)中心中完成。我們?cè)跀?shù)據(jù)中心數(shù)據(jù)互聯(lián)中看到兩個(gè)重要趨勢(shì),即常規(guī)長(zhǎng)距離通信的進(jìn)一步規(guī)?;?,以及新的短距離應(yīng)用的崛起。

在常規(guī)的長(zhǎng)距離數(shù)據(jù)中心數(shù)據(jù)互聯(lián)領(lǐng)域,目前為了滿足人工智能等應(yīng)用的需求,互聯(lián)速度正在快速提升,從今天主流的100/200/400Gbps光互聯(lián)技術(shù)快速進(jìn)展到800Gbps光互聯(lián)技術(shù),而到2026年更是預(yù)期會(huì)使用上1.6Tbps光數(shù)據(jù)互聯(lián)。除了數(shù)據(jù)率提升之外,在人工智能時(shí)代,數(shù)據(jù)中心中每臺(tái)服務(wù)器上對(duì)于數(shù)據(jù)互聯(lián)的需求也在提升,因此單臺(tái)服務(wù)器會(huì)需要更多的光數(shù)據(jù)互聯(lián)模塊。與傳統(tǒng)的分立式光互聯(lián)模塊相比,基于硅光技術(shù)的光互聯(lián)模塊能實(shí)現(xiàn)更高的集成度:在硅光技術(shù)中,波導(dǎo)器件、光柵和調(diào)制器等核心模塊都可以集成在同一塊芯片上,從而可以大大降低光互聯(lián)模塊的成本,這對(duì)于人工智能應(yīng)用來(lái)說(shuō)是一個(gè)重要優(yōu)勢(shì),因?yàn)橛?xùn)練大模型中需要大量的高帶寬數(shù)據(jù)互聯(lián)同時(shí)也不能提高太多成本。

隨著對(duì)于數(shù)據(jù)互聯(lián)帶寬的要求進(jìn)一步提升,數(shù)據(jù)中心中的光互聯(lián)帶寬也需要進(jìn)一步提升,功耗則需要進(jìn)一步降低,而從這個(gè)角度,硅光子技術(shù)搭配共封裝光學(xué)(co-packaged optics,CPO)也會(huì)成為下一代光互聯(lián)帶寬和功耗優(yōu)化的核心技術(shù)。

1.png

在共封裝光學(xué)技術(shù)中,使用硅光子技術(shù)實(shí)現(xiàn)的光互聯(lián)模塊和使用傳統(tǒng)CMOS技術(shù)實(shí)現(xiàn)的數(shù)字邏輯(例如光互聯(lián)模塊后接的網(wǎng)絡(luò)模塊)將會(huì)使用高級(jí)封裝技術(shù)集成在同一個(gè)封裝里——而在傳統(tǒng)的實(shí)現(xiàn)中,光互聯(lián)模塊和其他CMOS芯片并不會(huì)集成在同一個(gè)封裝里。通過(guò)使用共封裝光學(xué)技術(shù),光互聯(lián)模塊和其他芯片之間的互聯(lián)距離大大縮小,從而減小了光互聯(lián)模塊與電信號(hào)接口的信號(hào)傳輸衰減,而這對(duì)于超高帶寬通信至關(guān)重要,因?yàn)樵谶@些超高數(shù)據(jù)率的應(yīng)用中,真正限制數(shù)據(jù)率的往往不是光信號(hào),而是光信號(hào)在轉(zhuǎn)換成電信號(hào)之后的信號(hào)衰減(即last-mile問(wèn)題)。另一方面,通過(guò)減小信號(hào)衰減,光互聯(lián)模塊的整體功耗可以減小。而共封裝光學(xué)是基于硅光技術(shù)之上的,因?yàn)閭鹘y(tǒng)的分立式光模塊因?yàn)轶w積太大,無(wú)法使用共封裝光技術(shù)和其他芯片集成到同一個(gè)封裝里。

除了目前已經(jīng)為人熟知的數(shù)據(jù)中心中長(zhǎng)距離光互聯(lián)模塊之外,在人工智能時(shí)代將會(huì)崛起的另一個(gè)光互聯(lián)技術(shù)將是計(jì)算集群中的中短距離光互聯(lián)。如前所述,在大模型時(shí)代,分布式計(jì)算將會(huì)得到廣泛應(yīng)用,而在具體的大規(guī)模分布式計(jì)算拓?fù)浣Y(jié)構(gòu)中,常用的結(jié)構(gòu)就是首先由物理位置相鄰的服務(wù)器組成一個(gè)集群(cluster),在這樣的計(jì)算集群中執(zhí)行需要大量數(shù)據(jù)交換的任務(wù),而計(jì)算集群之間再使用長(zhǎng)距離數(shù)據(jù)互聯(lián)連接在一起以提升計(jì)算規(guī)模。在這樣的計(jì)算集群中,目前常規(guī)的數(shù)據(jù)互聯(lián)是使用銅絞線的互聯(lián);但是隨著對(duì)于數(shù)據(jù)帶寬、延遲和功耗的需求越來(lái)越高,使用在計(jì)算集群中的光互聯(lián)正在成為越來(lái)越重要的技術(shù)路徑。

與長(zhǎng)距離通信不同,計(jì)算集群間的數(shù)據(jù)互聯(lián)需要延遲極低、功耗也較低,但是由于互聯(lián)距離較?。瓷⑿?yīng)較?。┮虼丝梢栽试S更多的波分復(fù)用,因此光互聯(lián)可以考慮多個(gè)波分復(fù)用信道,每個(gè)信道的數(shù)據(jù)率較小(例如16-64Gbps),這樣做可以盡可能減小對(duì)于數(shù)字矯正技術(shù)的依賴(使用數(shù)字矯正技術(shù)將會(huì)提升延遲,同時(shí)也增加功耗),以滿足對(duì)于功耗和延遲的需求。此外,在計(jì)算集群中,我們會(huì)預(yù)期光模塊和CMOS芯片(例如GPU或者HBM)更緊密地集成在一起,因此在共封裝光學(xué)CPO技術(shù)之上,我們可能會(huì)看到集成度更高的晶圓級(jí)共封裝光學(xué)(WL-CPO)技術(shù),該技術(shù)可以為光學(xué)互聯(lián)模塊和CMOS芯片之間提供更多互聯(lián)接口,從而進(jìn)一步增加通信帶寬。

1.png

用于chiplet的超短距離數(shù)據(jù)互聯(lián)

除了長(zhǎng)距離光互連之外,另一個(gè)人工智能時(shí)代的重要數(shù)據(jù)互聯(lián)技術(shù)是用于chiplet之間通信的超短距離數(shù)據(jù)互聯(lián)。

1.png

隨著摩爾定律接近物理極限,使用chiplet來(lái)實(shí)現(xiàn)復(fù)雜芯片系統(tǒng)已經(jīng)是業(yè)界共識(shí)。在人工智能時(shí)代,隨著對(duì)算力需求的進(jìn)一步提升,單芯片系統(tǒng)預(yù)計(jì)會(huì)用到越來(lái)越多的chiplet,同時(shí)chiplet之間的互相通信需求也會(huì)越來(lái)越大。長(zhǎng)距離光通信數(shù)據(jù)互聯(lián)的主要演進(jìn)方向是共封裝光學(xué)這類的新封裝工藝,而與之相對(duì)地超短距離chiplet數(shù)據(jù)互聯(lián)演進(jìn)更多是依賴電路設(shè)計(jì)和系統(tǒng)設(shè)計(jì)。我們可以看到chiplet對(duì)于數(shù)據(jù)互聯(lián)需求的兩大方向:

1

更高的數(shù)據(jù)帶寬,更長(zhǎng)的通信距離(從毫米級(jí)別上升到厘米級(jí)別),更嚴(yán)格的功耗要求

2

更復(fù)雜的通信協(xié)議需求

先看第一個(gè)方向,這條需求對(duì)于chiplet數(shù)據(jù)互聯(lián)的電路設(shè)計(jì)提出了越來(lái)越多的需求。隨著chiplet數(shù)量越來(lái)越多,系統(tǒng)越來(lái)越復(fù)雜,勢(shì)必chiplet之間的互連距離會(huì)越來(lái)越長(zhǎng),這也就意味著互聯(lián)線上的衰減會(huì)更大,會(huì)需要更強(qiáng)的收發(fā)機(jī);另一方面,隨著人工智能對(duì)于chiplet間數(shù)據(jù)通信帶寬的要求提升,每個(gè)chiplet上的數(shù)據(jù)互聯(lián)模塊數(shù)量也會(huì)增加,這就意味著單個(gè)數(shù)據(jù)互聯(lián)模塊的功耗不能過(guò)大以滿足總功耗的限制。另外,隨著數(shù)據(jù)互聯(lián)需求的快速提升,單個(gè)數(shù)據(jù)互聯(lián)模塊的芯片面積又不能太大,這樣才能滿足chiplet上總互聯(lián)接口的需求。因此,chiplet數(shù)據(jù)互聯(lián)電路主要有兩大指標(biāo),一個(gè)是能效比(J/bit),用來(lái)衡量數(shù)據(jù)率與功耗之間的關(guān)系;另一個(gè)指標(biāo)則是數(shù)據(jù)率密度(bit/s/mm),用來(lái)衡量數(shù)據(jù)率與芯片面積之間的關(guān)系。隨著chiplet數(shù)據(jù)互聯(lián)需求的提升,未來(lái)我們可望會(huì)看到越來(lái)越高的數(shù)據(jù)率密度,同時(shí)越來(lái)越好的能效比。

第二個(gè)方向則是通信協(xié)議需求,這里涉及了chiplet之間協(xié)同工作的方式,例如在處理器系統(tǒng)中,如何確保chiplet之間緩存一致性的問(wèn)題。未來(lái)隨著chiplet系統(tǒng)越來(lái)越復(fù)雜,傳輸?shù)膹?fù)雜度也會(huì)提升,未來(lái)甚至可能會(huì)把目前NoC的模式搬到chiplet上。這對(duì)于chiplet數(shù)據(jù)互聯(lián)IP的設(shè)計(jì)也是一個(gè)新的發(fā)展方向。

總體來(lái)說(shuō),對(duì)于chiplet的數(shù)據(jù)互聯(lián)來(lái)說(shuō),隨著人工智能相關(guān)需求的興起,未來(lái)它可望會(huì)成為芯片IP領(lǐng)域一個(gè)越來(lái)越重要的品類,而具體的技術(shù)方向,則會(huì)沿著電路設(shè)計(jì)的優(yōu)化和系統(tǒng)/傳輸協(xié)議復(fù)雜度提升的方向去演進(jìn)。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無(wú)評(píng)論