CPU跑AI,不被時(shí)代拋下的自救

根據(jù)當(dāng)前所觀察到的算法方向以及實(shí)際案例來(lái)看,在CPU上運(yùn)行AI工作負(fù)載擁有顯著優(yōu)勢(shì),包括更低的延遲以及更高的能效,比如避免在CPU和加速器之間來(lái)回移動(dòng)數(shù)據(jù),可以極大地降低能源消耗,這也是CPU的一個(gè)顯著優(yōu)勢(shì)。

本文來(lái)自與非網(wǎng)eefocus,作者/張慧娟。

從1964年第一臺(tái)計(jì)算機(jī)系統(tǒng)IBM 360引入CPU,迄今約60年,不論是PC、臺(tái)式電腦主機(jī),還是大型商用主機(jī),CPU一直是計(jì)算機(jī)工業(yè)發(fā)展史上的主角。然而,隨著AI應(yīng)用來(lái)臨,加速計(jì)算盛行,GPU和各類(lèi)AI計(jì)算芯片崛起,CPU遭遇前所未有的挑戰(zhàn)。

在加速計(jì)算的世界,CPU落伍了嗎?特別是隨著生成式AI席卷業(yè)界,算力需求暴增,CPU中央處理器的地位是否還如其名?

“CPU擴(kuò)張的時(shí)代已結(jié)束”

黃仁勛就明確表達(dá)過(guò),加速計(jì)算和人工智能重塑了計(jì)算機(jī)行業(yè),CPU擴(kuò)張的時(shí)代已經(jīng)結(jié)束了。當(dāng)下需持續(xù)提升運(yùn)算能力的數(shù)據(jù)中心需要的CPU越來(lái)越少,需要的GPU越來(lái)越多,我們已經(jīng)到達(dá)了生成式AI的引爆點(diǎn)。

在他看來(lái),全球價(jià)值1萬(wàn)億美元的數(shù)據(jù)中心基本上都在使用60年前發(fā)明的計(jì)算模式,而現(xiàn)在,計(jì)算已經(jīng)從根本上改變,如果你明年再買(mǎi)一大堆CPU,計(jì)算吞吐量仍難以增加,必須使用加速計(jì)算平臺(tái)去處理。

他指出了CPU通用計(jì)算和加速計(jì)算的根本區(qū)別:盡管CPU如此靈活,基于高級(jí)編程語(yǔ)言和編譯器,幾乎任何人都能寫(xiě)出相當(dāng)好的程序,但是它的持續(xù)擴(kuò)展能力和性能提升已經(jīng)結(jié)束。加速計(jì)算則是個(gè)全棧問(wèn)題,必須從上到下和從下到上重新設(shè)計(jì)一切,包括芯片、系統(tǒng)、系統(tǒng)軟件、新的算法優(yōu)化以及新的應(yīng)用等,還需要針對(duì)不同領(lǐng)域進(jìn)行不同的堆棧,而這些堆棧一旦建立起來(lái),就會(huì)彰顯出加速計(jì)算的驚人之處。

不過(guò),換一個(gè)角度來(lái)看,GPU盡管性能強(qiáng)悍,但通常只能執(zhí)行深度學(xué)習(xí)這樣的特定應(yīng)用,它還需要CPU的協(xié)助,來(lái)進(jìn)行數(shù)據(jù)的搬運(yùn)、控制,以及一系列的預(yù)處理和后處理任務(wù)。而CPU具有獨(dú)立運(yùn)算能力,可以獨(dú)立運(yùn)行操作系統(tǒng)和應(yīng)用程序。如果說(shuō)絕對(duì)點(diǎn),一臺(tái)計(jì)算機(jī)可以只有一個(gè)CPU,但是不能只有一個(gè)GPU。

也正是由于CPU的不可替代性,黃仁勛雖然預(yù)判了CPU暴力擴(kuò)張的時(shí)代結(jié)束,但另一方面,卻曾試圖斥巨資收購(gòu)Arm,以補(bǔ)齊生態(tài)短板。并且,英偉達(dá)專(zhuān)門(mén)面向數(shù)據(jù)中心推出基于Arm Neoverse內(nèi)核的Grace CPU,來(lái)滿足新時(shí)代數(shù)據(jù)中心的性能和效率需求。

CPU不會(huì)被完全取代,我們只是來(lái)到了新計(jì)算時(shí)代的臨界點(diǎn)。

“始終相信CPU跑AI推理有價(jià)值,

也是極其普遍的”

數(shù)據(jù)中心在AI時(shí)代的重要性不言而喻,多年來(lái),英特爾至強(qiáng)處理器在數(shù)據(jù)中心一直扮演著重要角色。當(dāng)前,英特爾至強(qiáng)處理器該如何應(yīng)對(duì)AI的趨勢(shì)和挑戰(zhàn)?如何應(yīng)對(duì)加速計(jì)算的沖擊?

英特爾資深院士、至強(qiáng)首席架構(gòu)師Ronak Singhal告訴<與非網(wǎng)>,“AI的發(fā)生不僅在各類(lèi)加速器上,更在我們‘老生常談’的CPU上。實(shí)際上,眼下大部分的推理工作都是在CPU上運(yùn)行的。我們始終相信CPU上的推理是非常有價(jià)值的,也是極其普遍的。為了讓其在CPU上運(yùn)行,我們需要繼續(xù)討論‘加速’。我們一直在探索,如何去提高CPU的能力,使它始終是運(yùn)行這些推理工作負(fù)載的最佳載體。”

他補(bǔ)充,根據(jù)當(dāng)前所觀察到的算法方向以及實(shí)際案例來(lái)看,在CPU上運(yùn)行AI工作負(fù)載擁有顯著優(yōu)勢(shì),包括更低的延遲以及更高的能效,比如避免在CPU和加速器之間來(lái)回移動(dòng)數(shù)據(jù),可以極大地降低能源消耗,這也是CPU的一個(gè)顯著優(yōu)勢(shì)。

根據(jù)英特爾方面提供的數(shù)據(jù),目前25%在售的至強(qiáng)被用于AI工作負(fù)載。其中,很大一部分用于推理,一小部分用于訓(xùn)練。此外,許多至強(qiáng)產(chǎn)品還用于在訓(xùn)練或推理之前的一些工作,如數(shù)據(jù)準(zhǔn)備(包括為至強(qiáng)和GPU提供數(shù)據(jù))。

英特爾副總裁、至強(qiáng)產(chǎn)品和解決方案事業(yè)部總經(jīng)理Lisa Spelman表示,為滿足AI工作負(fù)載的需求,至強(qiáng)已經(jīng)具備諸多加速器和專(zhuān)業(yè)功能,且這些日漸成為至強(qiáng)越來(lái)越重要的方向。在海量數(shù)據(jù)、復(fù)雜數(shù)據(jù)處理等需求下,能源效率成為至強(qiáng)轉(zhuǎn)變?cè)O(shè)計(jì)的關(guān)鍵因素。將于明年推出的第六代至強(qiáng)就引入了新的體系結(jié)構(gòu):Granite Rapids(性能核/P-core產(chǎn)品)和Sierra Forest(能效核/E-core產(chǎn)品),有望進(jìn)一步提升算力和效率。

Granite Rapids的產(chǎn)品升級(jí)有兩個(gè)要點(diǎn):一是如何增強(qiáng)算力。其中最重要的是在第四代至強(qiáng)基礎(chǔ)上增加了核數(shù),以及繼續(xù)提高能效。因?yàn)檫M(jìn)行大量AI矩陣計(jì)算時(shí),耗電量會(huì)大幅提升,Granite Rapids通過(guò)內(nèi)置的加速器能夠?yàn)槟繕?biāo)工作負(fù)載提供顯著的性能和效率提升。二是內(nèi)存帶寬。部分AI工作負(fù)載以計(jì)算為核心,因此將受到核數(shù)和能效的影響。還有部分大語(yǔ)言模型,需要處理包括計(jì)算、存儲(chǔ)等AI工作負(fù)載,因此對(duì)內(nèi)存帶寬提出了要求。

與Granite Rapids相比,Sierra Forest的核心則更節(jié)能,且面積較小,因此,可以在相同功耗下進(jìn)行擴(kuò)展、并增加核數(shù),最高可達(dá)288核。

對(duì)于云服務(wù)提供商來(lái)說(shuō),將盡可能多的用戶整合到一個(gè)系統(tǒng)上,能夠幫助他們減少所需的系統(tǒng)數(shù)量,從而降低TCO,這時(shí)就可以選擇大核數(shù)的CPU(Sierra Forest);如果他們需要每個(gè)核心擁有最佳性能,他們則可以選擇Granite Rapids。

值得注意的是,chiplet、先進(jìn)封裝、最新的內(nèi)存技術(shù)等,在這兩款產(chǎn)品中都發(fā)揮了重要作用。從下圖可知,頂部和底部的I/O chiplet設(shè)計(jì),包括PCIe、CXL等。這些功能在Sierra Forest和Granite Rapids之中都很常見(jiàn)??梢愿鶕?jù)實(shí)際需求,采用更多或更少的chiplet,來(lái)擴(kuò)大或減少核心數(shù)量。chiplet的方式既實(shí)現(xiàn)了構(gòu)建芯片的靈活性,同時(shí)也有助于提升制造能力。

1.png

此外,EmiB封裝(英特爾的2.5D先進(jìn)封裝技術(shù))也發(fā)揮了重大作用。通過(guò)EmiB封裝,多個(gè)獨(dú)立的計(jì)算chiplet和I/O chiplet,在單一芯片中進(jìn)行了集成,使得芯片結(jié)構(gòu)更為靈活,實(shí)現(xiàn)了通用IP、固件、操作系統(tǒng)、平臺(tái)的有機(jī)整體。

除了數(shù)據(jù)中心,客戶端處理器AI方面,英特爾的酷睿Ultra處理器也將首次集成NPU,用于在PC上實(shí)現(xiàn)AI加速和本地推理體驗(yàn)。

“AI處于早期快速發(fā)展階段,

不相信護(hù)城河”

面對(duì)AI的沖擊,蘇姿豐表示,“對(duì)于人工智能,尤其是生成式人工智能如何進(jìn)入市場(chǎng),我們還處于起步階段。我認(rèn)為我們談?wù)摰氖且粋€(gè)10年的周期,而不是‘未來(lái)兩到四個(gè)季度你能生產(chǎn)多少GPU’”。她表示,人工智能發(fā)展太快,不相信護(hù)城河。

數(shù)據(jù)中心被AMD作為首要的戰(zhàn)略重點(diǎn)。

由于數(shù)據(jù)中心應(yīng)用端的算力需求仍在不斷增加,而chiplet設(shè)計(jì)有利于堆算力。AMD在chiplet技術(shù)已經(jīng)享有先發(fā)優(yōu)勢(shì),在2019年推出的Zen2架構(gòu)中,AMD就采用了chiplet設(shè)計(jì),使用8塊CPU芯片實(shí)現(xiàn)64核,是當(dāng)時(shí)英特爾性能最佳處理器的兩倍。

去年發(fā)布的基于Zen4架構(gòu)的霄龍?zhí)幚砥?,具?6個(gè)核心192個(gè)線程。而最新的代號(hào)為Bergamo的霄龍?zhí)幚砥?,采用Zen4c架構(gòu),將會(huì)搭載128個(gè)核心256個(gè)線程。Zen4c是AMD專(zhuān)門(mén)為云計(jì)算場(chǎng)景打造的一款CPU核心,與Zen4架構(gòu)保持相同的IPC性能和ISA指令集,通過(guò)設(shè)計(jì)優(yōu)化,使得核心面積縮小,功耗效率提升。這也意味著最新霄龍?zhí)幚砥鞯暮诵拿芏葍?yōu)勢(shì),將可以使云服務(wù)提供商能夠支持超過(guò)兩倍的服務(wù)器實(shí)例數(shù)量。

在前不久的AMD數(shù)據(jù)中心和AI首映式中,AMD對(duì)比了霄龍EPYC 9654和Intel至強(qiáng)Xeon 8490H的性能,EPYC 9654比Xeon 8490H高80%,Java編譯性能高70%,云計(jì)算性能(整數(shù))高80%。蘇姿豐稱(chēng),AMD的Epyc在前10名最快的超級(jí)計(jì)算機(jī)中的占據(jù)了5臺(tái),包括Frontier,這是第一臺(tái)使用惠普企業(yè)硬件構(gòu)建的百億億次計(jì)算計(jì)算機(jī)。

目前,AMD的服務(wù)器CPU份額也不斷提高,從2017年第四季度的0.8%到2023年第一季度的18%。預(yù)計(jì)2024年份額達(dá)到20%,2027年份額達(dá)到25%。

除了服務(wù)器CPU,AMD在筆記本電腦CPU也在大刀闊斧地引入AI,銳龍7040系列通過(guò)集成AI引擎,能夠幫助用戶加速多任務(wù)處理,提高生產(chǎn)力和效率。據(jù)AMD官方說(shuō)明,銳龍AI引擎的峰值算力可以達(dá)到10 TOPS,能夠應(yīng)對(duì)日常的AI推理負(fù)載設(shè)計(jì),相較于外置AI運(yùn)算芯片,可實(shí)現(xiàn)毫瓦級(jí)的低功耗AI運(yùn)算,助力實(shí)現(xiàn)本地化的AI運(yùn)算。

CPU加速AI,尚能戰(zhàn)否?

提到AI加速,第一反應(yīng)通常是強(qiáng)大的GPU或?qū)S玫腁I加速芯片,但CPU通過(guò)內(nèi)置AI計(jì)算,優(yōu)化底層指令集、矩陣運(yùn)算加速庫(kù)、神經(jīng)網(wǎng)絡(luò)加速庫(kù)等方式,在AI推理領(lǐng)域表現(xiàn)出了當(dāng)仁不讓的態(tài)勢(shì)。那么,CPU加速AI推理具體有哪些優(yōu)勢(shì)?

英特爾方面表示,經(jīng)過(guò)多年的發(fā)展,CPU加速推理過(guò)程性?xún)r(jià)比更高。例如至強(qiáng)可擴(kuò)展處理器的強(qiáng)大算力可以極大提高AI推理效率,并兼顧成本與安全性。在指令集方面,CPU指令集是計(jì)算機(jī)能力的核心部分,英特爾的AVX-512指令集通過(guò)提升單條指令的計(jì)算數(shù)量,從而可提升CPU的矩陣運(yùn)算效率。并且在加速訓(xùn)練環(huán)節(jié),DL Boost把對(duì)低精度數(shù)據(jù)格式的操作指令融入到了AVX-512指令集中,即AVX-512_VNNI(矢量神經(jīng)網(wǎng)絡(luò)指令)和AVX-512_BF16(bfloat16),分別提供對(duì)INT8(主要用于量化推理)和BF16(兼顧推理和訓(xùn)練)的支持。

例如在企業(yè)落地AI模型的場(chǎng)景中,CPU服務(wù)器部署已經(jīng)非常普遍,而大多數(shù)AI實(shí)際要求的是并發(fā)量,對(duì)推理速度沒(méi)有特別高的要求,并且在制造業(yè)、圖像等行業(yè),模型也不會(huì)太龐大,這種情況就適合使用CPU作為計(jì)算設(shè)備。

此外,學(xué)術(shù)界正在研究輕量級(jí)神經(jīng)網(wǎng)絡(luò),目標(biāo)是使用較少的參數(shù)和較低的算力達(dá)到同樣性能與效果。在這一情況下,用CPU訓(xùn)練輕量級(jí)神經(jīng)網(wǎng)絡(luò)被認(rèn)為可能是一個(gè)性?xún)r(jià)比較高的選項(xiàng),因?yàn)橄鄬?duì)GPU,CPU一方面減少了數(shù)據(jù)的反復(fù)轉(zhuǎn)移,訓(xùn)練更高效;并且面對(duì)輕量神經(jīng)網(wǎng)絡(luò)的訓(xùn)練工作,CPU性能已足夠,且成本比GPU大幅降低。

寫(xiě)在最后

傳統(tǒng)CPU在處理大規(guī)模數(shù)據(jù)和復(fù)雜算法時(shí)顯現(xiàn)出了性能瓶頸,隨著AI發(fā)展和應(yīng)用場(chǎng)景的繼續(xù)擴(kuò)大,需要更強(qiáng)大的計(jì)算能力和存儲(chǔ)能力等支持。因此,傳統(tǒng)CPU架構(gòu)不得不引入AI,以適應(yīng)市場(chǎng)需求。

兩大CPU巨頭激戰(zhàn)正酣,已經(jīng)面向云邊端場(chǎng)景全面引入AI,通過(guò)優(yōu)化架構(gòu)、提高能效等措施,提高CPU性能和效率。就連GPU巨頭英偉達(dá),也開(kāi)始面向AI數(shù)據(jù)中心,推出專(zhuān)有的CPU。

AI時(shí)代,CPU作為計(jì)算機(jī)的核心部件,在計(jì)算機(jī)系統(tǒng)中的地位仍有其不可替代性,也有巨大的想象空間。試想,隨著AI的普及,如果未來(lái)每個(gè)工作負(fù)載都嵌入AI,那么是否意味著每次運(yùn)行AI工作負(fù)載時(shí),都離不開(kāi)CPU?選擇AI,擁抱AI,成為AI,是CPU在新時(shí)代的宿命。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無(wú)評(píng)論