存內(nèi)計算對“存”的選擇

為了減少數(shù)據(jù)移動消耗的能量,提高MVM的計算性能,存內(nèi)計算成了一個不錯的選擇。存內(nèi)計算(IMC)是一項創(chuàng)新的計算方式,將特定的計算任務(wù)放到存儲設(shè)備中,并使用模擬或混合信號的計算技術(shù)。相較馮諾依曼結(jié)構(gòu)或近存計算來說,最大程度地減少了數(shù)據(jù)移動。

本文來自微信公眾號“電子發(fā)燒友網(wǎng)”,作者/周凱揚。

無論是前段時間爆火的繪圖模型Stable Diffusion,還是大規(guī)模語言模型ChatGPT,AI無疑已經(jīng)成了新時代的自動化工具,哪怕是在某些與認(rèn)知相關(guān)的任務(wù)上,也能通過深度學(xué)習(xí)實現(xiàn)高于人類的精度。

但正因我們提過多次的算力問題,對于大型AI訓(xùn)練的計算要求已經(jīng)在每兩個月翻倍了,別說可持續(xù)能源供應(yīng)了,就連硬件的可持續(xù)都有些陷入停滯了。其實以目前各種模型的迭代速度來看,更高的運算效率才是重中之重,畢竟這些模型并不需要每兩個月就推陳出新。

深度學(xué)習(xí)還有哪些環(huán)節(jié)可以提升效率

我們先從深度學(xué)習(xí)運算來看哪些算數(shù)運算占比最高,根據(jù)IBM給出的統(tǒng)計數(shù)據(jù),無論是語音識別的RNN、語言模型DNN和視覺模型CNN,矩陣向量乘法都占據(jù)了運算總數(shù)的70%到90%,所以打造一個矩陣矢量乘法加速器,是多數(shù)AI加速器的思路。

QQ截圖20221206141445.png

數(shù)據(jù)傳輸和運算的功耗對比/ISSCC

要考慮效率,我們就不能不談到功耗的問題,如果只顧算力而不考慮功耗,任由龐大規(guī)模的GPU等硬件消耗能量不顧碳排放的話,也不符合全球當(dāng)下的節(jié)能減排趨勢。而在深度學(xué)習(xí)中,各種精度的加法乘法都會消耗能量,但這些運算消耗的能量與傳統(tǒng)馮諾依曼結(jié)構(gòu)中數(shù)據(jù)移動消耗的能量相比,就顯得微不足道了,尤其是從DRAM中讀寫高精度數(shù)值時,能耗差距甚至可以達(dá)到數(shù)十倍以上。

這還只是在數(shù)據(jù)中心場景中,如果我們放到邊緣來看,如今的移動設(shè)備需要語音識別、圖像識別之類的各種深度學(xué)習(xí)應(yīng)用。所以提升這類設(shè)備的效率,才有可能在功耗和內(nèi)存都有所限制的嵌入式應(yīng)用中普及深度學(xué)習(xí)。

存內(nèi)計算的存儲選擇

為了減少數(shù)據(jù)移動消耗的能量,提高MVM的計算性能,存內(nèi)計算成了一個不錯的選擇。存內(nèi)計算(IMC)是一項創(chuàng)新的計算方式,將特定的計算任務(wù)放到存儲設(shè)備中,并使用模擬或混合信號的計算技術(shù)。相較馮諾依曼結(jié)構(gòu)或近存計算來說,最大程度地減少了數(shù)據(jù)移動。

而早期利用IMC進行神經(jīng)網(wǎng)絡(luò)推理的測試結(jié)果證明,在軟硬件結(jié)合的情況下,可以得到優(yōu)秀的精度結(jié)果,而DAC、ADC、功能激活之類的數(shù)字操作則是通過片外的軟件或硬件來實現(xiàn)的。自那之后,各種使用SRAM、NOR Flash、RRAM、PCM和MRAM的單核或多核存內(nèi)計算芯片紛紛面世。

在對于正確存儲類型的選擇上,存內(nèi)計算必須面臨取舍的問題,比如性能、密度、寫入時間、寫入功耗、穩(wěn)定性以及制造工藝上。性能自然就是直接影響到我們說的TOPS算力以及效率,目前SRAM優(yōu)勢較大,密度則決定了裸片大小,同時也影響到了成本。

而在邊緣場景下,環(huán)境一致性往往不比數(shù)據(jù)中心,所以如果不能保證穩(wěn)定性的話,就會影響到存內(nèi)計算進行深度學(xué)習(xí)的精度。最后的制造工藝不僅決定了這類存內(nèi)計算芯片能否量產(chǎn),是否存在供應(yīng)鏈危機或成本問題,也決定了它有沒有繼續(xù)推進的空間,比如目前工藝較為先進的主要是PCM和SRAM,最高分別已經(jīng)到了14nm和12nm。

在2021年的VLSI技術(shù)大會上,IBM發(fā)表了一篇文章,講述了他們以14nm CMOS工藝打造的一個64核PCM模擬存內(nèi)計算芯片,HERMES。該芯片采用了后端集成的多層相變化內(nèi)存,由256個線性化的CCO ADC組成,可以在1GHz的工作頻率之上進行精確的片上矩陣矢量乘法運算。在深度學(xué)習(xí)的運算測試中,HERMES獲得了10.5 TOPS/W的運算效率以及1.59TOPS/mm2的性能密度。

QQ截圖20221206141445.png

Thetis Core芯片/Axelera AI

而荷蘭初創(chuàng)企業(yè)Axelera AI則選了數(shù)字SRAM這一路線,他們在去年12月成功流片第一代IMC芯片Thetis Core。Thetis Core的面積不到9mm2,卻可以在INT8精度下提供39.3TOPS的算力和14.1 TOPS/W的性能,甚至還可以超頻到48.16TOPS。但不少存內(nèi)計算芯片提到性能表現(xiàn)時,往往都是指滿載的情況,正因如此,Thetis Core在低利用率下的效率表現(xiàn)才顯得無比亮眼。哪怕從100%利用率降低至25%的,該芯片也能展現(xiàn)13TOPS/W的效率,降幅只有7%左右。

小結(jié)

除了“存”以外,存內(nèi)計算在“算”上的選擇也不盡相同,比如進行模擬或數(shù)字MAC運算等等。從斯坦福大學(xué)教授Boris Murmann提出的觀點來看,在低精度下模擬運算要比數(shù)字運算更高效,但一旦精度拔高,比如8位以后,模擬計算的功耗就會成倍增加了??紤]到落地應(yīng)用較少,未來的存內(nèi)計算會更傾向于哪種形式仍有待觀察,但從存儲廠商、存算一體芯片廠商的動向來看,這或許是存儲市場迎來又一輪爆發(fā)的絕佳機遇。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論