數(shù)據(jù)中心使用的不同GPU

在半導(dǎo)體行業(yè)中,體積比架構(gòu)更加重要。如果設(shè)計中的IP不能分散到大量客戶以解決更廣泛的工作負載,那么出色的設(shè)計并不能帶來什么。

2345截圖20220818151609.png

本文來自半導(dǎo)體產(chǎn)業(yè)縱橫。

作為GPU計算市場的新手,英特爾可能降低價格,同時提供更高的性能。

在半導(dǎo)體行業(yè)中,體積比架構(gòu)更加重要。如果設(shè)計中的IP不能分散到大量客戶以解決更廣泛的工作負載,那么出色的設(shè)計并不能帶來什么。

英特爾對GPU業(yè)務(wù)一點也不陌生。僅在最近十年就見證了基于“Larrabee”X86的GPU的興起,它沒有與Nvidia和AMD(ATI)替代產(chǎn)品競爭的性能,并且作為HPC計算的許多核心處理器的“Knights”系列被回收,英特爾在僅僅兩代人之后就將其作為計算引擎淘汰。

用于Core i5、i7或i9 PC處理器的Iris系列集成圖形電路,后者重新打包為Xeon E3服務(wù)器CPU系列,集成GPU用于視頻流和VDI工作負載。英特爾盡其所能忽略這些Iris增強型服務(wù)器CPU中固有的相當強大的GPU計算能力。

英特爾正在用基于Xe架構(gòu)的離散GPU家族來解決這個問題,該公司最終致力于擁有一個廣泛而深入的GPU計算平臺,主要是英特爾意識到,如果他們不在數(shù)據(jù)中心吃掉自己的CPU計算份額,那么其他兩家主要的GPU加速器制造商——AMD和Nvidia都會推出相應(yīng)的CPU。

好久不見

這種Xe GPU策略是其Gen11 Iris PC顯卡的演變,并在2018年12月的英特爾創(chuàng)新日上首次詳細介紹,當時英特爾表示將創(chuàng)建一個新架構(gòu),該架構(gòu)將具有獨立CPU和集成GPU,所有這些都基于相同的Xe架構(gòu)將跨越“從teraflops到petaflops”,范圍從針對PC客戶端優(yōu)化的低端GPU一直到針對運行AI和HPC工作負載的數(shù)據(jù)中心系統(tǒng)優(yōu)化的大型計算引擎。

近兩年后,在Hot Chips上,英特爾詳細闡述了這一新GPU系列的設(shè)計,并談到針對特定工作負載調(diào)整Xe GPU微架構(gòu),并使用不同的工藝、封裝,有時甚至是小芯片組合。Xe LP是一種低功耗GPU,最初在“Tiger Lake”CPU中銷售,然后在用于服務(wù)器工作負載的離散SG1和DG1 GPU中免費使用;英特爾服務(wù)器XG310 GPU加速器于2020年11月宣布并與中國系統(tǒng)制造商H3C共同設(shè)計,使用Xe LP SG1變體。

XeHPG系列針對高性能游戲和數(shù)據(jù)中心流媒體和圖形計算工作負載。Xe HP將HBM2e內(nèi)存添加到GPU復(fù)合體中,并在單個封裝上擴展到四個小芯片,旨在實現(xiàn)更強大的媒體處理和AI工作負載。最后,Xe HPC系列的目標是浮點和混合精度計算,用于AI訓(xùn)練和HPC模擬和建模工作負載,而Knights系列則留下了一個漏洞。

Xe HPC系列包括“Ponte Vecchio”離散GPU,英特爾上周表示,它已開始向阿貢國家實驗室發(fā)貨,作為“Aurora”百億億級超級計算機的第二個設(shè)計中的主要計算引擎。

英特爾詳細介紹的Flex系列140和170 GPU加速器屬于Xe HPG系列,也稱為Artic Sound-M系列。這些Flex系列卡于8月推出,但這些設(shè)備的許多架構(gòu)細節(jié)并未透露。

2345截圖20220818151609.png

不要被這些獨立GPU卡的相對大小誤導(dǎo)。Flex系列140基于一對DG2-128 GPU,其中八個Xe圖形內(nèi)核運行在1.95 GHz、兩個媒體引擎和八個共享12 GB GDDR6內(nèi)存的光線追蹤單元。

Flex系列170具有單個DG2-512 GPU,具有32個運行頻率為2.05 GHz的Xe內(nèi)核、兩個媒體引擎和32個共享16 GB GDDR6內(nèi)存的光線追蹤單元。

Xe HPG內(nèi)核具有16個256位向量引擎和16個1,024位XMX矩陣數(shù)學(xué)引擎,這兩個引擎都對AI推理很有用,具有192 KB的共享L1緩存。這兩個引擎是我們關(guān)心Flex系列的原因。

重點關(guān)注媒體轉(zhuǎn)碼和云游戲,因為在數(shù)據(jù)中心很好地支持這種工作負載意味著英特爾可以與Nvidia競爭在GPU領(lǐng)域的工作數(shù)據(jù)中心。如果英特爾GPU領(lǐng)域競爭,那么它也有能力構(gòu)建更好的Xe HPC GPU加速器,比如“Rialto Bridge”離散GPU踢球器到Ponte Vecchio和“Falcon Shores”混合CPU-GPU設(shè)備。

Xe HPC內(nèi)核上的向量引擎每個時鐘可以處理16次FP32、32次FP16和64次INT8運算,并具有一個專用的浮點執(zhí)行端口和另一個用于整數(shù)和擴展數(shù)學(xué)函數(shù)處理的端口。

XMX矩陣引擎是一個四深脈動陣列,類似于Google的TPU和Amazon Web Services的Inferentia芯片。Xe HPC內(nèi)核上的矩陣引擎每個時鐘可以處理128個FP16或BF16浮點、256個INT8或512個INT4運算。GPU可以同時將工作分派給向量和矩陣引擎。

2345截圖20220818151609.png

配備兩個DG2-128 GPU的Flex系列140在媒體處理方面將比配備一個DG2-512 GPU的Flex系列170高出近2倍,但其運算能力僅為Flex系列170的41%。

預(yù)計Flex系列140比Flex系列170便宜得多,因此AI的性價比差距兩個設(shè)備之間的推斷可能沒有媒體處理那么大。這個想法是讓數(shù)據(jù)中心GPU既可以用于媒體處理,也可以用于云游戲,但在AI推理方面也做得相當好,這不僅越來越成為數(shù)據(jù)中心的工作負載,

英偉達數(shù)據(jù)中心GPU

Nvidia剛剛推出了具有光線追蹤、視頻編碼和AI推理處理功能的“Lovelace”AD102數(shù)據(jù)中心GPU,而英特爾對新的Nvidia L40 GPU加速器的了解還不夠,無法與Flex系列140和150卡進行比較。但英特爾確實將其數(shù)據(jù)中心GPU與Nvidia A2和A10設(shè)備進行了對比,

人工智能如何嵌入應(yīng)用程序的一個很好的例子是在流視頻中使用人工智能推理進行對象分類和對象檢測。英特爾有一個名為DLStreamer的新工具,可以優(yōu)化Xeon SP CPU和Flex系列GPU的使用,以在視頻流輸入中進行對象識別,如下所示:

正如在該框圖底部看到的那樣,當DLStreamer在CPU和GPU上運行部分代碼時,解碼視頻并在流上運行Yolov5對象檢測模型的流的數(shù)量增加了67%。機箱中的Flex系列GPU通過CPU-GPU組合驅(qū)動150個流來驅(qū)動90個流。

我們真正想要做的是直接比較Nvidia加速器和Flex系列在這些工作負載上的比較,英特爾不得不使用Resnet50進行對象分類,使用SSD-MobileNet進行對象檢測:

Flex系列170在視頻流中的對象分類方面的性能比Nvidia A10高35.4%,在視頻流中的對象檢測方面的性能提高33.3%。

Nvidia A10在惠普(Hewlett Packard Enterprise)和CDW的售價約為8,400美元,在戴爾(Dell)的售價則低至5,700美元。為了在視頻推理方面提供同樣的價格,英特爾可能會對Flex系列170收取11,200美元的價格。如果Flex系列170的售價為8400美元,英特爾的性價比將提高25%,而售價為6400美元的價格/性能將提高43%。

作為GPU計算市場的新手,英特爾可能降低價格,同時提供更高的性能。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論