大模型市場,不止帶火HBM

目前,全球前三大存儲芯片制造商正將更多產(chǎn)能轉(zhuǎn)移至生產(chǎn)HBM,但由于調(diào)整產(chǎn)能需要時間,很難迅速增加HBM產(chǎn)量,預(yù)計未來兩年HBM供應(yīng)仍將緊張。

4d2d9464a416b0e266cdeaeefec1b03d (1).jpg

本文來自微信公眾號“半導(dǎo)體產(chǎn)業(yè)縱橫”,作者/六千。

近日,HBM成為芯片行業(yè)的火熱話題。據(jù)TrendForce預(yù)測,2023年高帶寬內(nèi)存(HBM)比特量預(yù)計將達到2.9億GB,同比增長約60%,2024年預(yù)計將進一步增長30%。2008年被AMD提出的HBM內(nèi)存概念,在2013年被SK海力士通過TSV技術(shù)得以實現(xiàn),問世10年后HBM似乎真的來到了大規(guī)模商業(yè)化的時代。

HBM的概念的起飛與AIGC的火爆有直接關(guān)系。AI服務(wù)器對帶寬提出了更高的要求,與DDR SDRAM相比,HBM具有更高的帶寬和更低的能耗。超高的帶寬讓HBM成為了高性能GPU的核心組件,HBM基本是AI服務(wù)器的標配。目前,HBM成本在AI服務(wù)器成本中占比排名第三,約占9%,單機平均售價高達18,000美元。

自從去年ChatGPT出現(xiàn)以來,大模型市場就開始了高速增長,國內(nèi)市場方面,百度、阿里、科大訊飛、商湯、華為等科技巨頭接連宣布將訓(xùn)練自己的AI大模型。TrendForce預(yù)測,2025年將有5個相當(dāng)于ChatGPT的大型AIGC、25個Midjourney的中型AIGC產(chǎn)品、80個小型AIGC產(chǎn)品,即使是全球所需的最小計算能力資源也可能需要145,600至233,700個英偉達A100 GPU。這些都是HBM的潛在增長空間。

2023年開年以來,三星、SK海力士HBM訂單就快速增加,HBM的價格也水漲船高,近期HBM3規(guī)格DRAM價格上漲了5倍。三星已收到AMD與英偉達的訂單,以增加HBM供應(yīng)。SK海力士已著手擴建HBM產(chǎn)線,目標將HBM產(chǎn)能翻倍。韓媒報道,三星計劃投資約7.6億美元擴產(chǎn)HBM,目標明年底之前將HBM產(chǎn)能提高一倍,公司已下達主要設(shè)備訂單。

01

HBM在AIGC中的優(yōu)勢

直接地說,HBM將會讓服務(wù)器的計算能力得到提升。由于短時間內(nèi)處理大量數(shù)據(jù),AI服務(wù)器對帶寬提出了更高的要求。HBM的作用類似于數(shù)據(jù)的“中轉(zhuǎn)站”,就是將使用的每一幀、每一幅圖像等圖像數(shù)據(jù)保存到幀緩存區(qū)中,等待GPU調(diào)用。與傳統(tǒng)內(nèi)存技術(shù)相比,HBM具有更高帶寬、更多I/O數(shù)量、更低功耗、更小尺寸,能夠讓AI服務(wù)器在數(shù)據(jù)處理量和傳輸速率有大幅提升。

1.png

來源:rambus

可以看到HBM在帶寬方面有著“碾壓”級的優(yōu)勢。如果HBM2E在1024位寬接口上以3.6Gbps的速度運行,那么就可以得到每秒3.7Tb的帶寬,這是LPDDR5或DDR4帶寬的18倍以上。

除了帶寬優(yōu)勢,HBM可以節(jié)省面積,進而在系統(tǒng)中安裝更多GPU。HBM內(nèi)存由與GPU位于同一物理封裝上的內(nèi)存堆棧組成。

1.png

這樣的架構(gòu)意味著與傳統(tǒng)的GDDR5/6內(nèi)存設(shè)計相比,可節(jié)省大量功耗和面積,從而允許系統(tǒng)中安裝更多GPU。隨著HPC、AI和數(shù)據(jù)分析數(shù)據(jù)集的規(guī)模不斷增長,計算問題變得越來越復(fù)雜,GPU內(nèi)存容量和帶寬也越來越大是一種必需品。H100 SXM5 GPU通過支持80 GB(五個堆棧)快速HBM3內(nèi)存,提供超過3 TB/秒的內(nèi)存帶寬,是A100內(nèi)存帶寬的2倍。

過去對于HBM來說,價格是一個限制因素。但現(xiàn)在大模型市場上正處于百家爭鳴時期,對于布局大模型的巨頭們來說時間就是金錢,因此“貴有貴的道理”的HBM成為了大模型巨頭的新寵。隨著高端GPU需求的逐步提升,HBM開始成為AI服務(wù)器的標配。

目前英偉達的A100及H100,各搭載達80GB的HBM2e及HBM3,在其最新整合CPU及GPU的Grace Hopper芯片中,單顆芯片HBM搭載容量再提升20%,達96GB。

AMD的MI300也搭配HBM3,其中,MI300A容量與前一代相同為128GB,更高端MI300X則達192GB,提升了50%。

預(yù)期Google將于2023年下半年積極擴大與Broadcom合作開發(fā)AISC AI加速芯片TPU也計劃搭載HBM存儲器,以擴建AI基礎(chǔ)設(shè)施。

02

存儲廠商加速布局

這樣的“錢景”讓存儲巨頭們加速對HBM內(nèi)存的布局。目前,全球前三大存儲芯片制造商正將更多產(chǎn)能轉(zhuǎn)移至生產(chǎn)HBM,但由于調(diào)整產(chǎn)能需要時間,很難迅速增加HBM產(chǎn)量,預(yù)計未來兩年HBM供應(yīng)仍將緊張。

HBM的市場主要還是被三大DRAM巨頭把握。不過不同于DRAM市場被三星領(lǐng)先,SK海力士在HBM市場上發(fā)展的更好。如開頭所說,SK海力士開發(fā)了第一個HBM產(chǎn)品。2023年4月,SK海力士宣布開發(fā)出首個24GB HBM3 DRAM產(chǎn)品,該產(chǎn)品用TSV技術(shù)將12個比現(xiàn)有芯片薄40%的單品DRAM芯片垂直堆疊,實現(xiàn)了與16GB產(chǎn)品相同的高度。同時,SK海力士計劃在2023年下半年準備具備8Gbps數(shù)據(jù)傳輸性能的HBM3E樣品,并將于2024年投入量產(chǎn)。

國內(nèi)半導(dǎo)體公司對HBM的布局大多圍繞著封裝及接口領(lǐng)域。

國芯科技目前正在研究規(guī)劃合封多HBM內(nèi)存的2.5D的芯片封裝技術(shù),積極推進Chiplet技術(shù)的研發(fā)和應(yīng)用。

通富微電公司2.5D/3D生產(chǎn)線建成后,將實現(xiàn)國內(nèi)在HBM高性能封裝技術(shù)領(lǐng)域的突破。

佰維存儲已推出高性能內(nèi)存芯片和內(nèi)存模組,將保持對HBM技術(shù)的持續(xù)關(guān)注。

瀾起科技PCIe 5.0/CXL 2.0 Retimer芯片實現(xiàn)量產(chǎn),該芯片是瀾起科技PCIe 4.0 Retimer產(chǎn)品的關(guān)鍵升級,可為業(yè)界提供穩(wěn)定可靠的高帶寬、低延遲PCIe 5.0/CXL 2.0互連解決方案。

HBM雖好但仍需冷靜,HBM現(xiàn)在依舊處于相對早期的階段,其未來還有很長的一段路要走。而可預(yù)見的是,隨著越來越多的廠商在AI和機器學(xué)習(xí)等領(lǐng)域不斷發(fā)力,內(nèi)存產(chǎn)品設(shè)計的復(fù)雜性正在快速上升,并對帶寬提出了更高的要求,不斷上升的寬帶需求將持續(xù)驅(qū)動HBM發(fā)展。

HBM火熱反映了AIGC的帶動能力。那么除了HBM和GPU,是否還有別的產(chǎn)品在這波新風(fēng)潮中能夠順勢發(fā)展?

03

談?wù)勂渌粠Щ鸬男酒?/strong>

FPGA的優(yōu)勢開始顯現(xiàn)

FPGA(Field Programmable Gate Array,現(xiàn)場可編程門陣列)是一種集成電路,具有可編程的邏輯元件、存儲器和互連資源。不同于ASIC(專用集成電路),F(xiàn)PGA具備靈活性、可定制性、并行處理能力、易于升級等優(yōu)勢。

通過編程,用戶可以隨時改變FPGA的應(yīng)用場景,F(xiàn)PGA可以模擬CPU、GPU等硬件的各種并行運算。因此,在業(yè)內(nèi)也被稱為“萬能芯片”。

FPGA對底層模型頻繁變化的人工智能推理需求很有意義。FPGA的可編程性超過了FPGA使用的典型經(jīng)濟性。需要明確的是,F(xiàn)PGA不會成為使用數(shù)千個GPU的大規(guī)模人工智能系統(tǒng)的有力競爭對手,但隨著人工智能進一步滲透到電子領(lǐng)域,F(xiàn)PGA的應(yīng)用范圍將會擴大。

FPGA相比GPU的優(yōu)勢在于更低的功耗和時延。GPU無法很好地利用片上內(nèi)存,需要頻繁讀取片外的DRAM,因此功耗非常高。FPGA可以靈活運用片上存儲,因此功耗遠低于GPU。

6月27日,AMD宣布推出AMD Versal Premium VP1902自適應(yīng)片上系統(tǒng)(SoC),是基于FPGA的自適應(yīng)SoC。這是一款仿真級、基于小芯片的設(shè)備,能夠簡化日益復(fù)雜的半導(dǎo)體設(shè)計的驗證。據(jù)悉,AMD VP1902將成為全球最大的FPGA,對比上一代產(chǎn)品(Xilinx VU19P),新的VP1902增加了Versal功能,并采用了小芯片設(shè)計,使FPGA的關(guān)鍵性能增加了一倍以上。

東興證券研報認為,F(xiàn)PGA憑借其架構(gòu)帶來的時延和功耗優(yōu)勢,在AI推理中具有非常大的優(yōu)勢。浙商證券此前研報亦指出,除了GPU以外,CPU+FPGA的方案也能夠滿足AI龐大的算力需求。

不同于HBM被海外公司壟斷,國內(nèi)公司FPGA芯片已經(jīng)有所積累。

安路科技主營業(yè)務(wù)為FPGA芯片和專用EDA軟件的研發(fā)、設(shè)計和銷售,產(chǎn)品已廣泛應(yīng)用于工業(yè)控制、網(wǎng)絡(luò)通信、消費電子等領(lǐng)域。紫光國微子公司紫光同創(chuàng)是專業(yè)的FPGA公司,設(shè)計和銷售通用FPGA芯片。紫光國微曾在業(yè)績說明會上表示,公司的FPGA芯片可以用于AI領(lǐng)域。東土科技主要開展FPGA芯片的產(chǎn)業(yè)化工作,公司參股公司中科億海微團隊自主開發(fā)了支撐其FPGA產(chǎn)品應(yīng)用開發(fā)的EDA軟件。

國產(chǎn)替代新思路:存算一體+Chiplet

能否利用我們現(xiàn)在可用的工藝和技術(shù)來開發(fā)在性能上可以跟英偉達對標的AI芯片呢?一些“新思路”出現(xiàn)了,例如存算一體+Chiplet。

存算分離會導(dǎo)致算力瓶頸。AI技術(shù)的快速發(fā)展,使得算力需求呈爆炸式增長。在后摩爾時代,存儲帶寬制約了計算系統(tǒng)的有效帶寬,系統(tǒng)算力增長步履維艱。例如,8塊1080TI從頭訓(xùn)練BERT模型需99天。存算一體架構(gòu)沒有深度多層級存儲的概念,所有的計算都放在存儲器內(nèi)實現(xiàn),從而消除了因為存算異構(gòu)帶來的存儲墻及相應(yīng)的額外開銷;存儲墻的消除可大量減少數(shù)據(jù)搬運,不但提升了數(shù)據(jù)傳輸和處理速度,而且能效比得以數(shù)倍提升。

一方面,存算一體架構(gòu)與傳統(tǒng)架構(gòu)處理器處理同等算力所需的功耗會降低;另一方面,存算一體的數(shù)據(jù)狀態(tài)都是編譯器可以感知的,因此編譯效率很高,可以繞開傳統(tǒng)架構(gòu)的編譯墻。

美國亞利桑那州立大學(xué)的學(xué)者于2021年發(fā)布了一種基于Chiplet的IMC架構(gòu)基準測試仿真器SIAM,用于評估這種新型架構(gòu)在AI大模型訓(xùn)練上的潛力。SIAM集成了器件、電路、架構(gòu)、片上網(wǎng)絡(luò)(NoC)、封裝網(wǎng)絡(luò)(NoP)和DRAM訪問模型,以實現(xiàn)一種端到端的高性能計算系統(tǒng)。SIAM在支持深度神經(jīng)網(wǎng)絡(luò)(DNN)方面具有可擴展性,可針對各種網(wǎng)絡(luò)結(jié)構(gòu)和配置進行定制。其研究團隊通過使用CIFAR-10、CIFAR-100和ImageNet數(shù)據(jù)集對不同的先進DNN進行基準測試來展示SIAM的靈活性、可擴展性和仿真速度。據(jù)稱,相對于英偉達V100和T4 GPU,通過SIAM獲得的chiplet+IMC架構(gòu)顯示ResNet-50在ImageNet數(shù)據(jù)集上的能效分別提高了130和72。

這意味著,存算一體AI芯片有希望借助Chiplet技術(shù)和2.5D/3D堆疊封裝技術(shù)實現(xiàn)異構(gòu)集成,從而形成大型計算系統(tǒng)。存算一體+Chiplet組合似乎是一種可行的實現(xiàn)方式,據(jù)稱億鑄科技正在這條路上探索,其第一代存算一體AI大算力商用芯片可實現(xiàn)單卡算力500T以上,功耗在75W以內(nèi)。也許這將開啟AI算力第二增長曲線的序幕。

04

結(jié)語

世界人工智能大會上,AMD CEO蘇姿豐表示,未來十年一定會出現(xiàn)一個大型計算超級周期,因此,目前正是一個成為技術(shù)供應(yīng)商的好時機,同時也是與一些將會利用這些技術(shù)開發(fā)不同應(yīng)用的客戶合作的好時機。

沒有人想要一個只有一個主導(dǎo)者的行業(yè)。大模型市場能否讓芯片行業(yè)擁有新的市場格局,能否讓新玩家出現(xiàn)?

“大模型市場對芯片行業(yè)帶來了新的市場格局和機會。通過推動AI芯片的發(fā)展、促進云計算和數(shù)據(jù)中心市場的增長以及引發(fā)競爭格局變化,大模型的興起為芯片行業(yè)帶來了新的發(fā)展方向。

需要注意的是,芯片行業(yè)是一個高度競爭和技術(shù)密集的行業(yè)。進入該行業(yè)需要龐大的資金和技術(shù)資源,以滿足復(fù)雜的制造和研發(fā)要求。盡管大模型市場為新玩家提供了機會,但他們需要克服技術(shù)、資金和市場等方面的挑戰(zhàn),才能在競爭激烈的芯片行業(yè)中獲得成功。”Chatgpt如是回應(yīng)。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論