HBM,生死局?

隨著chatGPT的爆火和AGI的繁榮,英偉達(dá)正在以前所未見的速度發(fā)展,這不但造就了GPU的繁榮,同時(shí)還讓扮演關(guān)鍵角色HBM熱度高居不下。

本文來自微信公眾號(hào)“半導(dǎo)體行業(yè)觀察”,作者/Timothy。

隨著chatGPT的爆火和AGI的繁榮,英偉達(dá)正在以前所未見的速度發(fā)展,這不但造就了GPU的繁榮,同時(shí)還讓扮演關(guān)鍵角色HBM熱度高居不下。

繼美光和SK Hynix在日前表示,今年的HBM產(chǎn)能自己售罄以后。美光和三星在近日也帶來了HBM新品,以期在這個(gè)蓬勃發(fā)展的市場(chǎng)占有一席之地。其中,前者帶來了將用在英偉達(dá)GH200的之余,還表示將在2024年3月帶來36 GB 12-Hi HBM3E產(chǎn)品,后者則表示,公司發(fā)布的HBM3E 12H將性能和容量提高了50%以上。

由此可見,HBM的競(jìng)爭(zhēng)愈演愈烈,HBM也成為了決定AI芯片命運(yùn)的關(guān)鍵。這也就是為何Timothy Prickett Morgan認(rèn)為,誰掌控了HBM,就掌握了AI訓(xùn)練。

以下為Timothy Prickett Morgan的分享正文:

2024年推動(dòng)Nvidia數(shù)據(jù)中心GPU加速器發(fā)展的最重要因素是什么?

是即將推出的“Blackwell”B100架構(gòu)嗎?我們確信該架構(gòu)將比當(dāng)前的“Hopper”H100及其胖內(nèi)存弟弟H200提供性能飛躍?不。

是該公司有能力從代工合作伙伴臺(tái)積電那里拿回?cái)?shù)百萬顆H100和B100 GPU芯片嗎?不,它不是。

是Nvidia AI Enterprise軟件堆棧及其CUDA編程模型和數(shù)百個(gè)庫嗎?事實(shí)上,至少其中一些軟件(如果不是全部)是AI訓(xùn)練和推理的事實(shí)上的標(biāo)準(zhǔn)。不過,又沒有。

雖然所有這些無疑都是巨大的優(yōu)勢(shì),并且是許多競(jìng)爭(zhēng)對(duì)手都集中精力的優(yōu)勢(shì),但Nvidia在2024年推動(dòng)其業(yè)務(wù)的最重要因素與金錢有關(guān)。具體來說:英偉達(dá)在1月份結(jié)束了2024財(cái)年,現(xiàn)金和銀行投資略低于260億美元,如果本財(cái)年按預(yù)期進(jìn)行,收入將突破1000億美元,其中約占50%以上如果以凈利潤(rùn)的形式體現(xiàn)出來,那么即使在支付了稅款、龐大的研發(fā)業(yè)務(wù)以及公司的正常運(yùn)營費(fèi)用之后,它將為其金庫增加約500億美元。

你可以用750億美元或更多的資金做很多事情,其中之一就是不必太擔(dān)心為數(shù)據(jù)中心級(jí)GPU購買HBM堆棧DRAM內(nèi)存所需的巨額資金。這種內(nèi)存正在以相當(dāng)好的速度變得更快、更密集(就每芯片千兆位而言)和更胖(FAT,就兆字節(jié)帶寬和千兆字節(jié)容量而言),但其改進(jìn)速度并沒有達(dá)到人工智能加速器所需的速度。

隨著美光科技(Micron Technology)加入SK海力士(SK Hynix)和三星(Samsung)的供應(yīng)商行列,HBM的供應(yīng)量有所改善,并且進(jìn)給量和速度也隨之改善。我們強(qiáng)烈懷疑供應(yīng)將無法滿足需求,HBM內(nèi)存的價(jià)格將隨著HBM在一定程度上推動(dòng)的GPU加速器價(jià)格而繼續(xù)攀升。

AMD擁有57.8億美元的現(xiàn)金和投資,沒有那么多閑置資金,盡管英特爾的銀行存款略高于250億美元,但它必須建立代工廠,這確實(shí)非常昂貴(按順序如今每次流行150億至200億美元)。因此,它也確實(shí)不能在HBM內(nèi)存上揮霍。

對(duì)Nvidia GPU加速器業(yè)務(wù)有利的另一個(gè)因素是,在GenAI繁榮時(shí)期,客戶愿意為數(shù)百、數(shù)千甚至數(shù)萬個(gè)數(shù)據(jù)中心GPU支付幾乎任何費(fèi)用。我們認(rèn)為,2022年3月宣布的原始“Hopper”H100 GPU的價(jià)格,特別是在SXM配置中,對(duì)于具有80 GB HBM3內(nèi)存、速度為3.35 TB/秒的單個(gè)H100,其價(jià)格超過30,000美元,我們不知道具有96 GB內(nèi)存,速度為3.9 TB/秒的H100的費(fèi)用,但我們能推測(cè)Nvidia對(duì)具有141 GB HBM3E內(nèi)存、運(yùn)行速度為4.8 TB/秒的H200設(shè)備的收費(fèi)。H200基于與H100完全相同的“Hopper”GPU,將內(nèi)存容量提高了76.3%,內(nèi)存帶寬提高了43.3%,H100芯片的性能提高了1.6倍到1.9倍??紤]到額外的容量意味著需要更少的GPU并消耗更少的電量來針對(duì)靜態(tài)數(shù)據(jù)集訓(xùn)練給定模型,我們認(rèn)為與原始H100相比,Nvidia可以輕松地為H200收取1.6倍到1.9倍的費(fèi)用。

黃金法則:擁有黃金的人制定規(guī)則

我們并不是說H200在第二季度開始發(fā)貨時(shí)就會(huì)發(fā)生這種情況。(我們認(rèn)為英偉達(dá)除了財(cái)務(wù)數(shù)據(jù)外還談?wù)撊諝v季度。)我們只是說這樣的舉動(dòng)是有邏輯的。很大程度上取決于AMD對(duì)“Antares”Instinct MI300X GPU加速器的收費(fèi),該加速器具有192 GB的HBM3,運(yùn)行速度為5.2 TB/秒。MI300X具有更多的原始浮點(diǎn)和整數(shù)能力,HBM容量比Nvidia的H200高36.2%,帶寬比H200高10.4%。

你可以用Elon Musk的最后一塊錢打賭,AMD沒有心情做任何事,除了對(duì)MI300X收取盡可能多的費(fèi)用,甚至有建議稱該公司正在努力升級(jí)到更胖、更快的HBM3E內(nèi)存領(lǐng)域,以保持對(duì)Nvidia的競(jìng)爭(zhēng)。MI300使用具有八高DRAM堆棧的HBM3,MI300中的內(nèi)存控制器具有信號(hào)和帶寬容量,可以替換為時(shí)鐘速度更快的十二高堆棧HBM3E。這意味著容量增加了50%,帶寬也可能增加了25%。也就是說,每個(gè)MI300X具有288 GB的HBM3E容量和6.5 TB/秒的帶寬。

據(jù)推測(cè),這樣一個(gè)經(jīng)過精心設(shè)計(jì)的MI350X芯片(我們可能會(huì)這樣稱呼它)在其峰值失敗次數(shù)中執(zhí)行了相當(dāng)大的實(shí)際工作量,甚至更多,就像Nvidia從H100跳躍到H200時(shí)所發(fā)生的那樣。

正是在這樣的背景下,我們想談?wù)凥BM領(lǐng)域發(fā)生的事情。我們將從SK Hynix開始,該公司展示了16個(gè)芯片高的HBM3E堆棧,每個(gè)堆棧提供48 GB的容量和1.25 TB/秒的帶寬。MI300X配備8個(gè)內(nèi)存控制器,可實(shí)現(xiàn)384 GB內(nèi)存和9.6 TB/秒帶寬。

有了這些數(shù)字,您就不必將CPU作為擴(kuò)展內(nèi)存控制器來處理大量工作負(fù)載。。。。

我們還沒有看到關(guān)于SK海力士十六高HBM3E內(nèi)存的介紹,也不知道它什么時(shí)候上市。去年8月,SK海力士展示了第五代HBM內(nèi)存和第一代HBM3E內(nèi)存,據(jù)稱每個(gè)堆??商峁?.15 TB/秒的帶寬。正如下面由Trendforce創(chuàng)建的HBM路線圖所示,我們的預(yù)期是提供24 GB和36 GB容量,這意味著8高堆棧和12高堆棧。

640 (2).png

去年8月,Nvidia顯然將成為這些芯片的大客戶,并且有傳言稱SK Hynix的這款24 GB HBM3E內(nèi)存將用于即將推出的“Blackwell”B100 GPU加速器。如果是這樣,那么Blackwell GPU小芯片上的六個(gè)內(nèi)存控制器將產(chǎn)生144 GB的容量,如果B100封裝按預(yù)期具有兩個(gè)GPU小芯片,則意味著最大容量為288 GB,帶寬為13.8 TB/秒。很難說收益率如何,可能只有5/6可用。也有可能-但我們希望不是-B100看起來不像一個(gè)GPU,而是系統(tǒng)軟件的兩個(gè)GPU(就像兩個(gè)芯片組AMD“Arcturus”MI250X所做的那樣,而不像MI300X那樣,后者有8個(gè)較小的GPU芯片組這加起來會(huì)帶來更多的魅力,看起來就像一個(gè)GPU到系統(tǒng)軟件)。我們將看看那里會(huì)發(fā)生什么。

美光科技(Micron Technology)進(jìn)入HBM領(lǐng)域較晚,但鑒于供應(yīng)短缺和需求旺盛,該公司無疑在該領(lǐng)域最受歡迎,該公司今天表示,它正在開始生產(chǎn)其首款HBM3E內(nèi)存,這是一種八高堆棧容量為24 GB,并補(bǔ)充說該內(nèi)存是H200 GPU的一部分。我們?nèi)ツ?月介紹過的Micron HBM3E變體的引腳運(yùn)行速度為9.2 Gb/秒,每個(gè)堆棧提供1.2 TB/秒的內(nèi)存。美光還聲稱,其HBM3E內(nèi)存的消耗量比“競(jìng)爭(zhēng)產(chǎn)品”少30%,想必它正在談?wù)搰?yán)格的HBM3E比較。

美光還表示,它已開始對(duì)其12高36 GB HBM3E變體進(jìn)行送樣,其運(yùn)行速度將超過1.2 TB/秒。美光沒有透露比1.2 TB/秒快多少。

640 (1).jpg

今天晚些時(shí)候,三星推出了十二高堆棧HBM3E,這也是其第五代產(chǎn)品,該公司代號(hào)為“Shinebolt”。

Shinebolt取代了去年推出的“Icebolt”HBM3內(nèi)存。Icebolt堆棧式DRAM內(nèi)存為容量為24 GB的十二層堆棧提供819 GB/秒的帶寬。Shinebolt HBM3E在36 GB堆棧中提供1.25 TB/秒的帶寬,就像SK Hynix HBM3E十二高堆棧一樣。

三星在公告中補(bǔ)充道:“用于AI應(yīng)用時(shí),預(yù)計(jì)與采用HBM3 8H相比,AI訓(xùn)練的平均速度可提高34%,同時(shí)推理服務(wù)的并發(fā)用戶數(shù)可提升34%。”擴(kuò)大11.5倍以上。”三星指出,這是基于內(nèi)部模擬,而不是實(shí)際的人工智能基準(zhǔn)。

640 (2).png

三星的Shinebolt HBM3E 12H現(xiàn)已提供樣品,預(yù)計(jì)在6月底前全面投產(chǎn)。

這些12高和16高的HBM3E堆棧幾乎是我們?cè)?026年HBM4發(fā)布之前所擁有的。人們可能希望HBM4會(huì)在2025年出現(xiàn),毫無疑問,我們面臨著推動(dòng)路線圖升級(jí)的壓力,但這似乎不太可能。據(jù)猜測(cè),HBM4的內(nèi)存接口將增加一倍,達(dá)到2,048位。HBM1到HBM3E使用了1,024位內(nèi)存接口,信號(hào)傳輸速度從AMD與SK Hynix設(shè)計(jì)并于2013年交付的初始HBM內(nèi)存相比,已經(jīng)從1 Gb/秒增加到9.2 Gb/秒。接口加倍將允許兩倍的速度。需要大量?jī)?nèi)存來掛起接口,并以一半的時(shí)鐘速度提供給定量的帶寬,并且隨著時(shí)鐘速度再次提升,帶寬會(huì)逐漸增加?;蛘?。它們從一開始就以每引腳9.2 Gb/秒的速度推出,我們只需支付以瓦為單位的價(jià)格。

美光路線圖表示,HBM4將提供36 GB和64 GB的容量,驅(qū)動(dòng)速度為1.5 TB/秒到2 TB/秒,因此看起來會(huì)是寬速和慢速、寬速和更快的混合,但在發(fā)布時(shí)不會(huì)完全滿足需求。談到帶寬。看起來,寬度加倍幾乎可以使容量和帶寬加倍。預(yù)計(jì)HBM4將具有十六層DRAM堆疊,僅此而已。

在2026年另一個(gè)宇宙的夢(mèng)想世界中,HBM4將擁有2,048位接口,類似于引腳上的11.6 Gb/秒信號(hào)傳輸,具有24個(gè)高DRAM堆疊,具有33.3%密度的DRAM內(nèi)存(4 GB而不是3 GB),因此,每個(gè)堆棧的速度約為3.15 TB/秒,每個(gè)堆棧的速度約為96 GB。哦,那我們就瘋狂吧。假設(shè)一個(gè)GPU復(fù)合體有十幾個(gè)小芯片,每個(gè)小芯片都有自己的HBM4內(nèi)存控制器。這將為每個(gè)GPU設(shè)備提供37.8 TB/秒的聚合內(nèi)存帶寬,以及每個(gè)設(shè)備1,152 GB的容量。

從這個(gè)角度來看,根據(jù)Nvidia的說法,一個(gè)1750億個(gè)參數(shù)的GPT-3模型需要175 GB的容量來進(jìn)行推理,因此我們正在討論的理論GPU上的內(nèi)存大小大概能夠處理1.15萬億個(gè)參數(shù)推理。對(duì)于GPT-3訓(xùn)練,需要2.5 TB內(nèi)存來加載數(shù)據(jù)語料庫。如果您的Hoppers具有80 GB HBM3內(nèi)存,則需要32個(gè)Hopper才能完成這項(xiàng)工作。但我們的32臺(tái)設(shè)備的容量將增加14.4倍,因此能夠加載相應(yīng)更大的數(shù)據(jù)量。我們假設(shè)的設(shè)備上的帶寬也高出11.3倍。

請(qǐng)注意,我們沒有提及這十幾個(gè)GPU小芯片的失敗情況?在大多數(shù)情況下,以超過80%的利用率運(yùn)行任何東西都非常棘手,特別是當(dāng)它可能以不同的精度執(zhí)行不同的操作時(shí)。我們想要的是讓觸發(fā)器與比特/秒的比率恢復(fù)正常。我們想要制造一臺(tái)12缸發(fā)動(dòng)機(jī),它有足夠的噴油器來實(shí)際喂養(yǎng)野獸。

我們的猜測(cè)是,80 GB的H100的HBM3內(nèi)存約為理想值的三分之一,帶寬也約為理想值的三分之一。這是一種最大化GPU芯片銷售和收入的方法,正如Nvidia已經(jīng)清楚地證明的那樣,但這并不是構(gòu)建平衡的計(jì)算引擎的方法-就像英特爾在其X86芯片上放置一半的DRAM內(nèi)存控制器并將其全部賣給我們一樣——兩個(gè)帶有中間倉部件的插座一直是數(shù)據(jù)中心通用計(jì)算的正確答案。我們還需要更多的內(nèi)存容量和帶寬。

因此,如果使用這個(gè)概念性Beast GPU加速器將帶寬增加11.3倍,那么與原始H100相比,計(jì)算量可能只會(huì)增加4倍。在張量核心上,H100在FP64精度下的額定速度為67 teraflops,在FP8精度(未使用稀疏性)下的額定速度為1.98 petaflops。因此,這個(gè)TP100 GPU復(fù)合體在FP64下的額定速度為268 teraflops,在FP8下的額定速度為7.92 petaflops,每個(gè)GPU小芯片的性能將是H100芯片性能的三分之一,并且可能是其大小的四分之一到五分之一,具體取決于使用的工藝技術(shù)。假設(shè)它是TSMC 2N或Intel 14A與真正的H100上使用的TSMC 4N。畢竟,這是我們談?wù)摰?026年。

這就是我們想要寫的那種野獸,如果我們銀行里有260億美元,并且未來還有500億美元以上的前景,這就是我們會(huì)做的。但是大量的HBM內(nèi)存和計(jì)算引擎都塞滿了它。

很難說這會(huì)花費(fèi)多少錢。你不可能打電話給Fry's Electronics詢問2026年HBM4內(nèi)存的市場(chǎng)價(jià)格是多少。一方面,F(xiàn)ry's已經(jīng)死了。另一方面,我們現(xiàn)在甚至無法很好地了解GPU和其他矩陣引擎制造商為HBM2e、HBM3和HBM3e內(nèi)存支付的費(fèi)用。每個(gè)人都知道(或者認(rèn)為他們知道),HBM內(nèi)存和用于將內(nèi)存鏈接到設(shè)備的任何中介層是現(xiàn)代人工智能訓(xùn)練和推理引擎的兩個(gè)主要成本。(當(dāng)然,混合使用片上SRAM和普通DRAM的人除外。)

640 (1).jpg

在市場(chǎng)上,用于服務(wù)器的最大、最厚、最快的256 GB DDR5內(nèi)存模塊在4.8 GHz下運(yùn)行的價(jià)格約為18,000美元,每GB約為70美元。但僅可擴(kuò)展至32 GB的更薄模塊每GB成本僅為35美元。因此,HBM2e的價(jià)格約為每GB 110美元,“超過3倍”,如上面的Nvidia圖表所示。96 GB的價(jià)格約為10,600美元。很難說HBM3和HBM3E的提升在該設(shè)備的“市場(chǎng)價(jià)格”上可能值多少錢,但如果達(dá)到HBM3僅提升25%,那么H100的市場(chǎng)價(jià)格約為30,000美元80 GB容量,HBM3的價(jià)格為8,800美元。轉(zhuǎn)向96 GB HBM3E可能會(huì)將內(nèi)存成本提高到“市場(chǎng)價(jià)格”至16,500美元,因?yàn)榧夹g(shù)成本又增加了25%,而且額外的16 GB內(nèi)存和H100 96 GB的市場(chǎng)價(jià)格應(yīng)約為37,700美元。

聽到有關(guān)具有141 GB容量(由于某種原因不是144 GB)的H200的價(jià)格的傳言將會(huì)很有趣。但如果這種內(nèi)存價(jià)格分層成立——我們意識(shí)到這些都是瘋狂的估計(jì)——那么141 GB的HBM3E本身價(jià)值約為25,000美元。但按照這樣的價(jià)格,H200的“市場(chǎng)價(jià)格”約為41,000美元。(注意:這不是我們認(rèn)為Nvidia為HBM3和HBM3E內(nèi)存支付的費(fèi)用——這不是物料清單成本——而是分配給最終用戶的價(jià)格。)

我們認(rèn)為漲幅不會(huì)超過25%左右,因?yàn)閮?nèi)存升級(jí)到HBM3,然后再升級(jí)到HBM3E將推高內(nèi)存價(jià)格,使其高于市場(chǎng)上傳聞的Nvidia GPU價(jià)格。

請(qǐng)記住,這只是一個(gè)思想實(shí)驗(yàn),旨在展示HBM內(nèi)存定價(jià)如何控制Nvidia和AMD可以投入該領(lǐng)域的GPU數(shù)量,而不是相反。內(nèi)存尾巴正在搖晃GPU的狗。內(nèi)存容量和帶寬與H200的配合越來越緊密,如果Nvidia僅對(duì)額外的內(nèi)存及其額外的速度收取象征性的費(fèi)用,那么不僅設(shè)備的實(shí)際效率會(huì)提高,而且性價(jià)比也會(huì)提高。但如果Nvidia只是對(duì)這些更強(qiáng)大的H100和H200進(jìn)行定價(jià),以便性能增益和內(nèi)存增益達(dá)到平衡,那么花的錢就會(huì)少得多,而要花的錢就會(huì)多得多。

老實(shí)說,我們不知道Nvidia會(huì)做什么,也不知道AMD在MI300獲得HBM3E升級(jí)后會(huì)做什么?,F(xiàn)在美光進(jìn)入該領(lǐng)域的HBM供應(yīng)商增加了50%,而且SK Hynix和三星將產(chǎn)量提高了2倍,這是一個(gè)很大的數(shù)字,但相對(duì)于GPU和GPU的需求,市場(chǎng)上的HBM內(nèi)存仍然只增加了3倍。他們的內(nèi)存更大,可以說大于3倍。這不是一個(gè)可以降價(jià)的環(huán)境。在這種環(huán)境下,人們會(huì)提高更先進(jìn)的計(jì)算引擎及其內(nèi)存的價(jià)格,并繼續(xù)盡可能薄地?cái)U(kuò)展HBM內(nèi)存。

這就是為什么只要Nvidia平臺(tái)繼續(xù)成為首選,能夠支付高價(jià)購買HBM內(nèi)存的人(即Nvidia聯(lián)合創(chuàng)始人兼首席執(zhí)行官黃仁勛)就可以設(shè)定人工智能訓(xùn)練的步伐和價(jià)格。

換而言之,對(duì)于GPU和HBM來說,他們面對(duì)的都是生死局。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無評(píng)論