用“AI核彈”飽和攻擊的英偉達(dá),如何贏下AI計(jì)算新賽場(chǎng)?

海怪
隨著云端數(shù)據(jù)中心正在從傳統(tǒng)的數(shù)據(jù)存儲(chǔ)向著進(jìn)行深度學(xué)習(xí)、高性能計(jì)算(HPC)和大數(shù)據(jù)分析的方向演變,英偉達(dá)也將在其中扮演著更加重要的AI計(jì)算服務(wù)商的角色。

在2012年的ImageNet挑戰(zhàn)賽(ILSVRC)上,深度卷積神經(jīng)網(wǎng)絡(luò)AlexNet橫空出世,在圖像分類識(shí)別領(lǐng)域?qū)崿F(xiàn)了質(zhì)的飛躍,被認(rèn)為是AI時(shí)代的標(biāo)志性事件,代表著深度學(xué)習(xí)時(shí)代的正式開(kāi)端。

在此之前,深度學(xué)習(xí)“如何出圈”的一大挑戰(zhàn),就是深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練面臨算力不足的難題。而讓AlexNet實(shí)現(xiàn)算力突破的關(guān)鍵,就在于當(dāng)時(shí)研究者使用了英偉達(dá)的GPU。

GPU一戰(zhàn)成名,成為伴隨AI技術(shù)一同進(jìn)化的基礎(chǔ)設(shè)施。英偉達(dá)也同時(shí)抓住了AI計(jì)算的新增長(zhǎng)機(jī)遇。隨著AI算力要求的爆炸式增長(zhǎng),英偉達(dá)GPU產(chǎn)品系列也經(jīng)歷了多輪的升級(jí)。

現(xiàn)在,英偉達(dá)的GPU家族又迎來(lái)一次“史上最大”的性能升級(jí)。而此次升級(jí)距離上一次發(fā)布“地表最強(qiáng)AI芯片”Tesla V100已經(jīng)過(guò)去三年。

三年蟄伏,一鳴驚人。

(NVIDIA A100 GPU)

英偉達(dá)首次推出第8代安培GPU架構(gòu),以及首款基于安培架構(gòu)的NVIDIA A100 GPU,采用7nm工藝,在和上一代Volta架構(gòu)V100 GPU幾乎相同面積的晶圓上放置了超過(guò)540億個(gè)晶體管,晶體管數(shù)量增長(zhǎng)了2.5倍,但尺寸卻僅大了1.3%,而在AI訓(xùn)練和推理算力上,均較上一代Volta架構(gòu)提升20倍,HPC性能提升到上一代的2.5倍。

的獨(dú)特之處在于,作為一個(gè)端到端機(jī)器學(xué)習(xí)加速器,第一次在一個(gè)平臺(tái)上面統(tǒng)一了AI訓(xùn)練和推理,同時(shí)也將作為數(shù)據(jù)分析、科學(xué)計(jì)算和云圖形設(shè)計(jì)等通用工作負(fù)載的加速器。簡(jiǎn)單來(lái)說(shuō)就是為數(shù)據(jù)中心而生的。

在A100 GPU的基礎(chǔ)上,英偉達(dá)同時(shí)發(fā)布了全球最強(qiáng)AI和HPC服務(wù)器平臺(tái)——HGX A100,全球最先進(jìn)的AI系統(tǒng)——DGX A100系統(tǒng),以及由140個(gè)DGX A100系統(tǒng)組成的DGX SuperPOD集群。此外,還有涉及智能網(wǎng)卡、邊緣AI服務(wù)器、自動(dòng)駕駛平臺(tái)合作以及一系列軟件層面的平臺(tái)型產(chǎn)品的發(fā)布。

可以說(shuō),英偉達(dá)這次不是放出一顆“核彈”,而是一個(gè)“核彈集群”,還是飽和攻擊的那種。英偉達(dá)從云端到邊緣再到端側(cè),從硬件到軟件再到開(kāi)源生態(tài),幾乎建立起一個(gè)堅(jiān)不可摧的AI計(jì)算的壁壘,同時(shí)也將AI芯片的競(jìng)爭(zhēng)帶上了一個(gè)小玩家難以企及的高度。

英偉達(dá)的AI服務(wù)器芯片業(yè)務(wù)正在發(fā)生哪些新變化?A100 GPU的發(fā)布,對(duì)于AI服務(wù)器芯片市場(chǎng)有哪些影響,以及對(duì)于云計(jì)算市場(chǎng)帶來(lái)哪些變化?這成為我們?cè)?ldquo;看熱鬧”之余,要重點(diǎn)探討的幾個(gè)問(wèn)題。

AI服務(wù)器芯片:英偉達(dá)AI計(jì)算增長(zhǎng)新極點(diǎn)

眾所周知,游戲、數(shù)據(jù)中心、專業(yè)視覺(jué)化以及自動(dòng)駕駛等新興業(yè)務(wù)是英偉達(dá)的四大核心業(yè)務(wù)板塊。其中,游戲業(yè)務(wù)雖仍然是營(yíng)收的支柱板塊,但是受到PC游戲市場(chǎng)趨于飽和并向移動(dòng)端轉(zhuǎn)移的影響,獨(dú)顯業(yè)務(wù)的比重正在逐步縮??;專業(yè)視覺(jué)化業(yè)務(wù)一直為英偉達(dá)貢獻(xiàn)著穩(wěn)定營(yíng)收,但受其他業(yè)務(wù)增長(zhǎng)的影響,業(yè)務(wù)占比也在持續(xù)下滑;自動(dòng)駕駛等新興業(yè)務(wù)板塊,目前只占整體應(yīng)收的很小部分,且增速有限,但可以看作是英偉達(dá)未來(lái)的長(zhǎng)線市場(chǎng)。

(Nvidia:Sequential Revenue Change)

最明顯的則是英特爾在數(shù)據(jù)中心業(yè)務(wù)板塊的增長(zhǎng)。近幾年中其營(yíng)收大部分時(shí)間處于高速增長(zhǎng)狀態(tài),且營(yíng)收占比逐步靠近游戲業(yè)務(wù)。

根據(jù)英偉達(dá)最新的2020財(cái)年Q4財(cái)報(bào)數(shù)據(jù)顯示,”游戲“收入高達(dá)14.9億美元,約占總營(yíng)收的47%;而增長(zhǎng)強(qiáng)勁的數(shù)據(jù)中心板塊,AI服務(wù)器芯片的營(yíng)收達(dá)到9.68億美元,同比增長(zhǎng)了42.6%,,逼近10億美元大關(guān),遠(yuǎn)遠(yuǎn)超出市場(chǎng)預(yù)期的8.29億美元。

整體上,隨著全球數(shù)據(jù)中心,特別是超大型數(shù)據(jù)中心,對(duì)AI芯片需求的加速擴(kuò)張,英偉達(dá)的AI服務(wù)器芯片也迎來(lái)了高速增長(zhǎng),正在躍升為英偉達(dá)最具有市場(chǎng)拓展?jié)摿Φ臉I(yè)務(wù)分支。

從業(yè)務(wù)增長(zhǎng)的前景上看,英偉達(dá)推出A100 GPU服務(wù)器芯片以及AI系統(tǒng)集群,所要把守住的正是在當(dāng)前數(shù)據(jù)中心中AI服務(wù)器市場(chǎng)的霸主地位。

那么,英偉達(dá)正在如何構(gòu)建這一AI服務(wù)器芯片的產(chǎn)品體系呢?

一般來(lái)說(shuō),對(duì)于深度神經(jīng)網(wǎng)絡(luò)算法模型,其模型框架的訓(xùn)練需要涉及非常龐大的數(shù)據(jù)計(jì)算,但運(yùn)算方法要求又相對(duì)簡(jiǎn)單,所以需要在云端進(jìn)行大量高并行、高效率和高數(shù)據(jù)傳輸?shù)倪\(yùn)算。因此相較于擅長(zhǎng)復(fù)雜邏輯運(yùn)算、但核心數(shù)較少的CPU,擁有多個(gè)計(jì)算單元的GPU更適合于進(jìn)行深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練任務(wù)。

這是英偉達(dá)的GPU在全球云端AI服務(wù)器芯片市場(chǎng),尤其是訓(xùn)練端,贏得市場(chǎng)先機(jī)的根本原因。與此同時(shí),英偉達(dá)針對(duì)一系列AI服務(wù)開(kāi)發(fā)的完備的TESLA GPU產(chǎn)品線以及成功布局針對(duì)GPU的“CUDA”開(kāi)發(fā)平臺(tái),才是英偉達(dá)在AI服務(wù)器芯片市場(chǎng)一家獨(dú)大的主要原因。

從2016年推出第一個(gè)專為深度學(xué)習(xí)優(yōu)化的Pascal GPU,到2017年又推出性能相比Pascal提升5倍的新GPU架構(gòu)Volta,再到現(xiàn)在推出比Volta性能高20倍的Ampere(安培)架構(gòu),英偉達(dá)在數(shù)據(jù)中心的GPU產(chǎn)品一直成功實(shí)現(xiàn)高速且穩(wěn)定的性能提升。

此外,英偉達(dá)推出了神經(jīng)網(wǎng)絡(luò)推理加速器TensorRT,可以為深度學(xué)習(xí)應(yīng)用提供低延遲、高吞吐率的部署推理加速,兼容目前幾乎所有主流的深度學(xué)習(xí)框架,使其能夠滿足超大數(shù)據(jù)中心從AI訓(xùn)練到部署推理的完整的AI構(gòu)建。

而在去年3月,英偉達(dá)宣布以68億美金收購(gòu)了以色列網(wǎng)絡(luò)通信芯片公司Mellanox。通過(guò)對(duì)Mellanox的加速網(wǎng)絡(luò)平臺(tái)的整合,英偉達(dá)可以解決通過(guò)智能網(wǎng)絡(luò)結(jié)構(gòu)連接大量快速計(jì)算節(jié)點(diǎn),以形成巨大的數(shù)據(jù)中心規(guī)模計(jì)算引擎的整體架構(gòu)。

就在發(fā)布A100 GPU的同時(shí),英偉達(dá)也基于Mellanox技術(shù),推出全球第一款高度安全、高效的25G/50G以太智能網(wǎng)卡SmartNIC,將廣泛應(yīng)用于大型云計(jì)算數(shù)據(jù)中心,大幅優(yōu)化網(wǎng)絡(luò)及存儲(chǔ)的工作負(fù)載,實(shí)現(xiàn)AI計(jì)算的更高安全性和網(wǎng)絡(luò)連接效能。

當(dāng)然,收購(gòu)Mellanox的意義不止于此,除了解決高性能的網(wǎng)絡(luò)連接和算力輸出問(wèn)題,英偉達(dá)還將也擁有GPU、SoC、NPU面向不同細(xì)分領(lǐng)域的三大處理器,這意味著英偉達(dá)已基本具備了獨(dú)立打造AI數(shù)據(jù)中心的能力。

整體上,隨著云端數(shù)據(jù)中心正在從傳統(tǒng)的數(shù)據(jù)存儲(chǔ)向著進(jìn)行深度學(xué)習(xí)、高性能計(jì)算(HPC)和大數(shù)據(jù)分析的方向演變,英偉達(dá)也將在其中扮演著更加重要的AI計(jì)算服務(wù)商的角色。

跨越英偉達(dá)的堅(jiān)壁高墻,AI計(jì)算競(jìng)賽加劇

當(dāng)然,云端AI服務(wù)器芯片市場(chǎng)還遠(yuǎn)未到格局已定的地步,反而在2019年迎來(lái)最激烈的競(jìng)爭(zhēng)態(tài)勢(shì)。

英偉達(dá)的GPU產(chǎn)品,因其高耗能和高價(jià)格一直制約著云計(jì)算數(shù)據(jù)中心的AI算力的成本。從服務(wù)器芯片市場(chǎng)的另一位大佬英特爾,到AMD、高通,云計(jì)算服務(wù)商亞馬遜、谷歌、阿里、華為以及眾多新興的AI芯片創(chuàng)業(yè)公司,都在積極投入云端AI服務(wù)器芯片的研發(fā),尋求替代GPU的解決方案??梢?jiàn)天下苦“GPU”久矣。

在2019年,相比英偉達(dá)的略顯沉寂,其他各家則紛紛推出了自己的AI服務(wù)器芯片產(chǎn)品。比如去年上半年,英特爾、亞馬遜、Facebook以及高通都陸續(xù)推出或宣布推出自己的專用AI服務(wù)器芯片,試圖在AI推理運(yùn)算上實(shí)現(xiàn)對(duì)GPU和FPGA的替代。年中,我國(guó)的主要云端AI廠商也集體發(fā)力,寒武紀(jì)在6月宣布推出第二代云端AI芯片思云270;8月,華為正式發(fā)布算力最強(qiáng)的AI處理器Ascend910及全場(chǎng)景AI計(jì)算框架MindSpore;9月,阿里推出當(dāng)時(shí)號(hào)稱全球最強(qiáng)的AI推理芯片含光800,基本都在對(duì)標(biāo)英偉達(dá)的T4系列產(chǎn)品。

在所有AI芯片的競(jìng)爭(zhēng)者中,作為第二名的英特爾顯然是最想挑戰(zhàn)英偉達(dá)的霸主位置,也是最有可能挑戰(zhàn)英偉達(dá)的代表。

作為通用服務(wù)器芯片的傳統(tǒng)巨頭,英特爾最有可能的策略就是把GPU和AI都融入到自己的CISC指令集和CPU生態(tài)中,也就是把CPU和GPU部署在一起,云服務(wù)商們只需購(gòu)買一家的產(chǎn)品,就能更好地發(fā)揮AI計(jì)算的效能。

在All IN AI的英特爾那里,他們是如何來(lái)構(gòu)建這一AI計(jì)算策略的?

英特爾最先補(bǔ)足的就是AI硬件平臺(tái)版圖,而收購(gòu)則是最快的方案。2015年,英特爾先是天價(jià)收購(gòu)了FPGA的制造商Altera,一年后又收購(gòu)了Nervana,為全新一代AI加速器芯片組奠定了基礎(chǔ)。

去年12月,英特爾再次花掉20億美元高價(jià)收購(gòu)了成立僅3年的以色列數(shù)據(jù)中心AI芯片制造商Habana Labs。與英偉達(dá)收購(gòu)Mellanox一樣異曲同工,通過(guò)收購(gòu)Habana,英特爾也將補(bǔ)足數(shù)據(jù)中心場(chǎng)景下的通信和AI兩種能力。

受到這一收購(gòu)的激勵(lì),英特爾宣布停止去年8月才發(fā)布的用于AI訓(xùn)練的Nervana NNP-T,轉(zhuǎn)而專注于推進(jìn)Habana Labs的Gaudi和Goya處理器產(chǎn)品,以對(duì)標(biāo)英偉達(dá)的tesla V100和推理芯片T4。此外,一款基于Xe架構(gòu)的GPU也將在今年中旬面世。

在軟件層面,為應(yīng)對(duì)異構(gòu)計(jì)算帶來(lái)的挑戰(zhàn),英偉達(dá)在去年11月發(fā)布了OneAPI公開(kāi)發(fā)行版。不管是CPU、GPU、FPGA還是加速器,OneAPI都嘗試最大程度來(lái)簡(jiǎn)化和統(tǒng)一這些跨SVMS架構(gòu)的創(chuàng)新,以釋放硬件性能。

盡管英特爾以“全力以赴”的姿態(tài)投入到AI計(jì)算當(dāng)中,通過(guò)四處出手收編了涵蓋GPU、FPGA到ASIC的AI芯片產(chǎn)品陣列,并建立了廣泛適用的軟硬件生態(tài)。但是在挑戰(zhàn)英偉達(dá)的通用GPU產(chǎn)品上面,仍然還有一定距離。

首先,英特爾通過(guò)CPU適用于AI計(jì)算的策略一直未能得到主要云計(jì)算廠商的青睞,大多數(shù)廠商仍然樂(lè)于選擇CPU+GPU或FPGA的方案來(lái)部署其AI訓(xùn)練的硬件方案。而GPU仍然是英偉達(dá)的主場(chǎng),V100和T4仍然是當(dāng)下數(shù)據(jù)中心主流的通用GPU和推理加速器。

其次,英特爾在AI芯片的布局才剛剛發(fā)力,受到Nervana AI芯片一再延遲的影響,Habana產(chǎn)品才剛剛開(kāi)始進(jìn)行整合,這將使得英特爾短期內(nèi)難以挑戰(zhàn)英偉達(dá)的AI服務(wù)器芯片的市場(chǎng)份額。

而現(xiàn)在英偉達(dá)最新的安培架構(gòu)的A100 GPU以及AI系統(tǒng)集群的發(fā)布,更是給英特爾以及市場(chǎng)其他競(jìng)爭(zhēng)對(duì)手一場(chǎng)飽和攻擊。盡管說(shuō),長(zhǎng)期來(lái)看云計(jì)算廠商和AI服務(wù)器芯片廠商開(kāi)發(fā)的定制芯片會(huì)侵蝕一部分GPU的份額,而如今都要先跨越英偉達(dá)A100所搭起的AI計(jì)算的堅(jiān)壁與高墻。

AI計(jì)算升級(jí),帶來(lái)數(shù)據(jù)中心全新布局方案

我們先看數(shù)據(jù)中心本身的變化。受到AI相關(guān)應(yīng)用需求和場(chǎng)景的爆發(fā)式增長(zhǎng),中小型數(shù)據(jù)中心無(wú)法承受如此巨量的“AI計(jì)算之痛”,市場(chǎng)對(duì)超大型數(shù)據(jù)中心的需求越發(fā)強(qiáng)烈。

第一,以亞馬遜AWS、微軟Azure、阿里、谷歌為代表的公有云巨頭,正在占據(jù)超大型數(shù)據(jù)中心的主要市場(chǎng)份額。一方面,超大型數(shù)據(jù)中心將帶來(lái)更多的服務(wù)器及配套硬件的增長(zhǎng);另一方面,AI算法的復(fù)雜度增加和AI處理任務(wù)的持續(xù)增長(zhǎng),又需要服務(wù)器的配置以及結(jié)構(gòu)得到持續(xù)升級(jí)。

在一些視覺(jué)識(shí)別為主的AI企業(yè),建立一個(gè)超算中心就需要部署上萬(wàn)塊GPU,對(duì)于那些TOP級(jí)云服務(wù)商的云計(jì)算數(shù)據(jù)中心,為支持深度學(xué)習(xí)訓(xùn)練任務(wù),所需要的GPU量級(jí)也將是海量級(jí)別。

第二,云服務(wù)廠商都在推出自研的芯片,來(lái)緩解因?yàn)閮r(jià)格昂貴和數(shù)據(jù)量巨大而帶來(lái)的GPU計(jì)算成本飆升的問(wèn)題。這些廠商推出的大多是推理芯片,以節(jié)省GPU的通用算力。但這些推理芯片只在通用性上面的不足,造成其很難突破自研自用的局面。

那么,英偉達(dá)的A100 GPU芯片的發(fā)布,對(duì)云計(jì)算數(shù)據(jù)中心帶來(lái)哪些新的變化呢?或者說(shuō)為AI服務(wù)器芯片的對(duì)手們?cè)O(shè)立了怎樣的門檻呢?

首先,作為采用全新的安培架構(gòu)的A100 GPU,支持每秒1.5TB的緩沖帶寬處理,支持TF32運(yùn)算和FP64雙精度運(yùn)算,分別帶來(lái)高達(dá)20倍FP32的AI計(jì)算性能和HPC應(yīng)用2.5倍的性能提升。此外還包括MIG新架構(gòu)、NVLink 3.0以及AI運(yùn)算結(jié)構(gòu)的稀疏性等特性,這些使得A100加速卡不僅可用于AI訓(xùn)練和AI推理,還可以用于科學(xué)仿真、AI對(duì)話、基因組與高性能數(shù)據(jù)分析、地震建模及財(cái)務(wù)計(jì)算等多種通用計(jì)算能力。而這一解決方案有可能緩解很多云服務(wù)廠商在推理上面的計(jì)算壓力,也對(duì)其他廠商的推理芯片帶來(lái)一定的競(jìng)爭(zhēng)壓力。

其次,英偉達(dá)發(fā)布的第三代的DGX A100的AI系統(tǒng)在提高吞吐量同時(shí),大幅降低數(shù)據(jù)中心的成本。由于A100內(nèi)置了新的彈性計(jì)算技術(shù),可以分布式的方式進(jìn)行靈活拆分,多實(shí)例GPU能力允許每個(gè)A100 GPU被分割成多達(dá)七個(gè)獨(dú)立的實(shí)例來(lái)推斷任務(wù),同時(shí)也可以將多個(gè)A100作為一個(gè)巨型GPU運(yùn)行,以完成更大的訓(xùn)練任務(wù)。

(“The more you buy,the more money you save!”)

用黃仁勛舉的例子來(lái)說(shuō),一個(gè)典型的AI數(shù)據(jù)中心有50個(gè)DGX-1系統(tǒng)用于AI訓(xùn)練,600個(gè)CPU系統(tǒng)用于AI推理,需用25個(gè)機(jī)架,消耗630kW功率,成本逾1100萬(wàn)美元;而完成同樣的工作,一個(gè)由5個(gè)DGX A100系統(tǒng)組成的機(jī)架,達(dá)到相同的性能要求,只用1個(gè)機(jī)架,消耗28kW功率,花費(fèi)約100萬(wàn)美元。

也就是說(shuō),DGX A100系統(tǒng)用一個(gè)機(jī)架,就能以1/10的成本、1/20的功率、1/25的空間取代一整個(gè)AI數(shù)據(jù)中心。

總體而言,英偉達(dá)用一套性能驚人又極具創(chuàng)新性的AI計(jì)算架構(gòu)與AI服務(wù)器芯片硬件,帶來(lái)了AI數(shù)據(jù)中心計(jì)算平臺(tái)的全新升級(jí)。英偉達(dá)的野心將不再只是提供性能升級(jí)的GPU硬件產(chǎn)品,而是要重新定義數(shù)據(jù)中心的AI計(jì)算的規(guī)則,將數(shù)據(jù)中心視作基本的計(jì)算單元。

實(shí)際來(lái)講,一個(gè)DGX A100 GPU系統(tǒng)的單價(jià)就要20萬(wàn)美元,對(duì)于要為了AI訓(xùn)練而采購(gòu)成千上萬(wàn)塊企業(yè)級(jí)GPU的云計(jì)算廠商來(lái)說(shuō),可想而知成本將有多高?,F(xiàn)在,也只有全球主要的云計(jì)算廠商、IT巨頭以及政府、實(shí)驗(yàn)室為DGX A100下了初始訂單。

對(duì)于其他競(jìng)爭(zhēng)對(duì)手而言,英偉達(dá)這次在AI服務(wù)器芯片及AI數(shù)據(jù)中心計(jì)算平臺(tái)鑄就的堅(jiān)壁高墻,似乎在短期內(nèi)難以逾越。同時(shí),也會(huì)成為未來(lái)幾年,AI服務(wù)器芯片廠商努力去對(duì)標(biāo)的性能標(biāo)準(zhǔn)。當(dāng)然,對(duì)英偉達(dá)A100的挑戰(zhàn),也自然就此開(kāi)始。至于是英特爾、AMD還是AWS、谷歌,我們拭目以待。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無(wú)評(píng)論