存內(nèi)計(jì)算,不確定的未來(lái)

VDD縮放已在0.7至0.8電壓范圍附近達(dá)到飽和點(diǎn),這意味著我們不再能夠從電壓降低中獲得額外的好處,并且其他泄漏水平也保持相對(duì)不變。如果我們繼續(xù)增加SRAM的密度并繼續(xù)采用更新的技術(shù)以在芯片中添加更多晶體管,我們就需要更多的電量來(lái)支持芯片運(yùn)行。

本文來(lái)自微信公眾號(hào)“半導(dǎo)體行業(yè)觀察”。

最近,Semiengineering發(fā)布了一篇專(zhuān)家討論文章,分享了他們關(guān)于AI和SRAM的不確定未來(lái)。

首先,在問(wèn)到人們是否會(huì)致力于縮小SRAM的尺寸嗎?考慮到物理定律,這是否可能?

Alphawave Semi首席技術(shù)官Tony Chan Carusone表示,人們一直承諾會(huì)有改進(jìn),但趨勢(shì)是SRAM的擴(kuò)展速度比邏輯慢。這意味著要么架構(gòu)發(fā)生變化,要么SRAM消耗給定芯片的比例越來(lái)越大。我們可能會(huì)看到兩者。您可以更改層次結(jié)構(gòu)、更改位置、更改用于防止瓶頸的內(nèi)存類(lèi)型。這是一種解決方案。但將會(huì)有大量的技術(shù)研發(fā),比如自下而上的壓縮SRAM的解決方案。

Quadric首席營(yíng)銷(xiāo)官Steve Roddy也認(rèn)同,通過(guò)改變核心技術(shù)你能做的只有這么多。在標(biāo)準(zhǔn)SoC中,它是經(jīng)典的6T SRAM,這種情況已經(jīng)存在30到40年了。人們已經(jīng)嘗試過(guò)各種類(lèi)似3T cell的東西,但存在可靠性、可制造性和可設(shè)計(jì)性問(wèn)題,例如如何使用它進(jìn)行測(cè)試。某些市場(chǎng),例如汽車(chē)市場(chǎng),當(dāng)您獲得更容易出錯(cuò)或?qū)Π柗W用舾械腸ell時(shí),就會(huì)感到恐慌。也許你無(wú)法在汽車(chē)中安裝巨型推理機(jī),因?yàn)槠?chē)存在可靠性和功能安全問(wèn)題。所有這些事情都必須考慮在內(nèi)。各種內(nèi)存層成為架構(gòu)師需要使用的工具包。

在問(wèn)到為什么SRAM的縮小速度比邏輯慢時(shí)?

西門(mén)子EDA的內(nèi)存技術(shù)專(zhuān)家Jongsin Yun說(shuō),SRAM的微縮滯后于邏輯收縮,主要是由于最新技術(shù)中嚴(yán)格的設(shè)計(jì)規(guī)則。過(guò)去,我們對(duì)SRAM有單獨(dú)的設(shè)計(jì)規(guī)則,這使我們能夠比基于邏輯晶體管的設(shè)計(jì)縮小更多尺寸。然而,當(dāng)我們轉(zhuǎn)向更小尺寸的節(jié)點(diǎn)時(shí),保持這種區(qū)別變得越來(lái)越具有挑戰(zhàn)性?,F(xiàn)在,SRAM正在遵循越來(lái)越多的邏輯設(shè)計(jì)規(guī)則,并且與基于邏輯晶體管的設(shè)計(jì)相比,進(jìn)一步縮小存儲(chǔ)器的優(yōu)勢(shì)并不明顯。

除此之外,存儲(chǔ)器的大小也很重要,因?yàn)檫@種設(shè)計(jì)在芯片上重復(fù)了數(shù)百萬(wàn)次,從而影響了芯片的成本。然而,當(dāng)我們近年來(lái)從較低的技術(shù)遷移時(shí),好處被稀釋了,因?yàn)槲覀冏罱K會(huì)花更多的錢(qián)遷移到較低的技術(shù)節(jié)點(diǎn),而不是縮小SRAM內(nèi)存大小的好處。這是我們?cè)谂μ岣逜I芯片中SRAM密度時(shí)面臨的主要挑戰(zhàn)。

而在問(wèn)到縮小晶體管尺寸會(huì)導(dǎo)致漏電流,人們又將如何應(yīng)對(duì)時(shí)?

Jongsin Yun接著說(shuō),技術(shù)遷移的主要漏電優(yōu)勢(shì)來(lái)自降低VDD電平和采用新材料,例如晶體管氧化物中的高k材料,以改善柵極漏電,從而提高功率效率。然而,VDD縮放已在0.7至0.8電壓范圍附近達(dá)到飽和點(diǎn),這意味著我們不再能夠從電壓降低中獲得額外的好處,并且其他泄漏水平也保持相對(duì)不變。如果我們繼續(xù)增加SRAM的密度并繼續(xù)采用更新的技術(shù)以在芯片中添加更多晶體管,我們就需要更多的電量來(lái)支持芯片運(yùn)行。

例如,AMD首席執(zhí)行官蘇姿豐(Lisa Su)預(yù)測(cè),到2035年,我們將使用核電站一半的能源來(lái)運(yùn)行一臺(tái)超級(jí)計(jì)算機(jī)。這是一個(gè)巨大的能源,我們正朝著不可持續(xù)的方向前進(jìn)。需要采取一些措施來(lái)提高芯片的能耗。最近的AMD芯片減少了邏輯面積并填充了更多核心,同時(shí)保持內(nèi)存密度相同。這可以通過(guò)減小邏輯面積來(lái)降低邏輯操作頻率。然而,它還允許系統(tǒng)通過(guò)將內(nèi)核數(shù)量加倍而獲得額外的吞吐量來(lái)完成類(lèi)似的工作負(fù)載,從而實(shí)現(xiàn)適度的權(quán)衡,但能效方面獲得顯著提升。

眾所周知,最近存內(nèi)計(jì)算很熱,當(dāng)中SRAM是其中的重點(diǎn)之一。那么在近內(nèi)存計(jì)算或內(nèi)存計(jì)算中,SRAM將發(fā)揮什么作用?我們會(huì)在商業(yè)市場(chǎng)上看到內(nèi)存計(jì)算嗎?

Steve Roddy回應(yīng)道,芯片初創(chuàng)公司已經(jīng)多次嘗試將模擬內(nèi)存計(jì)算商業(yè)化,特別是乘法函數(shù)。在機(jī)器學(xué)習(xí)中,有大量的矩陣乘法和卷積。通過(guò)談?wù)搱D像很容易概念化。3 x 3卷積正在圍繞三個(gè)最近的鄰居進(jìn)行計(jì)算。因此,使用1 x 1、3 x 3、9 x 9,您可以擴(kuò)大要計(jì)算的范圍。它非常適合您可以在存儲(chǔ)單元中完成此操作的想法。通過(guò)模擬,您可以即時(shí)訪(fǎng)問(wèn)并且可以集成電壓等。但實(shí)際上,這些東西都沒(méi)有實(shí)現(xiàn)。大量風(fēng)險(xiǎn)資金(數(shù)億美元)投入到了從未見(jiàn)過(guò)世面的解決方案中,主要是因?yàn)樗蔀榱艘粋€(gè)分區(qū)問(wèn)題。

如果你說(shuō),“我將在內(nèi)存本身中構(gòu)建某種奇怪的非數(shù)字計(jì)算”,根據(jù)定義,你已經(jīng)說(shuō)過(guò),“我將用單獨(dú)的技術(shù)開(kāi)發(fā)出一個(gè)單獨(dú)的芯片,而我的一般計(jì)算引擎將運(yùn)行純數(shù)字芯片,而其他一些引擎將在該存儲(chǔ)芯片中運(yùn)行?,F(xiàn)在你對(duì)算法進(jìn)行了非常嚴(yán)格的劃分,這造成了很大的限制。您必須擁有這個(gè)Goldilocks網(wǎng)絡(luò),其中計(jì)算可以保留在模擬芯片本地,然后才必須返回到主要代碼完成執(zhí)行的通用芯片。

如果您的手機(jī)配備高通應(yīng)用處理器(與其他公司不同的芯片),并且您想在Zoom通話(huà)期間實(shí)時(shí)運(yùn)行面部美化算法,您該怎么做?如何同步軟件的執(zhí)行?算法每年都變得更加復(fù)雜,而數(shù)據(jù)科學(xué)家并沒(méi)有放慢他們的創(chuàng)新速度。Transformer是新事物,就像ChatGPT的視覺(jué)Transformer一樣,由于來(lái)回傳輸量非常復(fù)雜。假設(shè)您已經(jīng)部署了一些用于卷積的內(nèi)存計(jì)算。你永遠(yuǎn)不會(huì)將視覺(jué)轉(zhuǎn)換器映射到它,因?yàn)槟銜?huì)花掉等待數(shù)據(jù)在兩種不同類(lèi)型的芯片之間來(lái)回傳輸?shù)臅r(shí)間。那么,SRAM中的純內(nèi)存計(jì)算有什么不同的、深?yuàn)W的和分區(qū)的嗎?那永遠(yuǎn)不會(huì)發(fā)生。

如果您可以將其構(gòu)建為可在SoC上的已編譯SRAM,那么現(xiàn)在您所說(shuō)的是不同的東西,但現(xiàn)在您必須擁有一個(gè)6T模擬單元,并內(nèi)置某種其他模擬設(shè)備。它必須是與放置在其旁邊的大型GPU著色器引擎產(chǎn)生的噪音隔離開(kāi)來(lái),因此這也成為一個(gè)問(wèn)題。如何構(gòu)建芯片,使得這里的10,000個(gè)MAC不會(huì)將噪聲注入到您嘗試編譯的敏感模擬電路中?這似乎是一個(gè)站不住腳的問(wèn)題。大約3億美元的風(fēng)險(xiǎn)投資已經(jīng)付諸東流,而且還沒(méi)有人能夠?qū)崿F(xiàn)量產(chǎn)。

Chan Carusone也表示,由于Steve所描述的限制,大多數(shù)理性興趣都集中在將這種技術(shù)用于某些低功耗或利基邊緣推理類(lèi)型的應(yīng)用。我毫不懷疑潛在的影響。但現(xiàn)在的關(guān)鍵是為這項(xiàng)技術(shù)找到一個(gè)有足夠數(shù)量、足夠市場(chǎng)潛力的應(yīng)用,以證明這種專(zhuān)門(mén)為其量身定制的硬件解決方案是合理的。這就是為什么我們看到這個(gè)想法已經(jīng)存在了很長(zhǎng)時(shí)間,但仍在等待它產(chǎn)生重大影響的機(jī)會(huì)。

Yun對(duì)這種觀點(diǎn)表示贊同,他指出,很多新技術(shù)如果沒(méi)有市場(chǎng)的大量需求就不會(huì)得到發(fā)展。即使我們已經(jīng)準(zhǔn)備好部署一項(xiàng)有前途的技術(shù),但在我們解決了所有風(fēng)險(xiǎn)并收到使用它來(lái)創(chuàng)收的需求之前,它也不會(huì)付諸實(shí)踐。在內(nèi)存計(jì)算(CiM)的情況下,我們可以減少數(shù)據(jù)傳輸,因?yàn)樗杏?jì)算都發(fā)生在同一位置。這意味著數(shù)據(jù)將保留在那里并進(jìn)行計(jì)算,而無(wú)需任何數(shù)據(jù)傳輸。這意味著更快的處理速度和能源效率。

然而,為了實(shí)現(xiàn)這一目標(biāo),我們需要對(duì)周?chē)到y(tǒng)進(jìn)行各種調(diào)整,以適應(yīng)這些新的數(shù)據(jù)處理方式。為了證明投資此類(lèi)變革的合理性,必須有強(qiáng)勁的需求。此外,不應(yīng)該存在風(fēng)險(xiǎn)較低的替代解決方案,因此我們可以放心地開(kāi)始研究它。

朝著這個(gè)方向邁出一步的一個(gè)例子是利用DRAM。當(dāng)我們的AI芯片中有很多核心并行連接時(shí),我們需要為處理器帶來(lái)寬帶寬的數(shù)據(jù)以提高效率。因此設(shè)計(jì)人員添加了大量連接到AI芯片的DRAM來(lái)傳輸海量數(shù)據(jù)。選擇DRAM是因?yàn)閷?shù)據(jù)存儲(chǔ)在DRAM中比SRAM更具成本效益。因此,每當(dāng)核心數(shù)量增加時(shí),就需要增加DRAM的通道數(shù)量。現(xiàn)在我們的一些人工智能芯片有數(shù)千個(gè)核心。它需要越來(lái)越多的DRAM通道,很容易達(dá)到數(shù)百個(gè)引腳,盡管物理上不可能將太多通道連接到一個(gè)芯片中。我們必須解決這個(gè)瓶頸。

三星建議在DRAM本身內(nèi)執(zhí)行近內(nèi)存計(jì)算。他們?cè)贒RAM中添加了一個(gè)MAC單元來(lái)執(zhí)行初始計(jì)算。之后,將數(shù)據(jù)發(fā)送至AI芯片進(jìn)行后續(xù)處理。這種方法距離近內(nèi)存計(jì)算又近了一步。如果人們看到死胡同,就會(huì)找到新的解決方案。如果有辦法緩解現(xiàn)有配置的問(wèn)題,人們傾向于保留現(xiàn)有設(shè)置以避免轉(zhuǎn)向新方法的風(fēng)險(xiǎn)。

Chan Carusone則表示,DRAM內(nèi)存瓶頸是需要解決的關(guān)鍵挑戰(zhàn),這就是HBM重要性日益增加的原因。HBM有一個(gè)良好的路線(xiàn)圖,可以提供更高帶寬的內(nèi)存接口。人們還討論了本質(zhì)上使用某種類(lèi)型的小芯片(即HBM到DDR轉(zhuǎn)換器)的潛力。這可能會(huì)在內(nèi)存中引入另一個(gè)層次,其中有一些HBM,也許還有一些稍微遠(yuǎn)一點(diǎn)的DDR。人們正在考慮以各種不同的方式解決這個(gè)內(nèi)存瓶頸問(wèn)題。

Roddy則說(shuō)道,人們甚至試圖在數(shù)據(jù)科學(xué)層面上以數(shù)字方式解決內(nèi)存瓶頸問(wèn)題。訓(xùn)練顯然是非常昂貴的,如果你想訓(xùn)練你的1000億參數(shù)的聊天機(jī)器人,這需要在你最喜歡的云服務(wù)上花費(fèi)數(shù)百萬(wàn)美元的計(jì)算時(shí)間。人們已經(jīng)嘗試過(guò),如果他們?cè)谟?xùn)練中的計(jì)算是浮點(diǎn)32(fp32),他們可以存儲(chǔ)到DDR和其他格式嗎?你有bfloat、fp8以及他們嘗試弄清楚的各種東西。幾年前對(duì)我來(lái)說(shuō)最簡(jiǎn)單的是bfloat。你確實(shí)需要一個(gè)fp32數(shù)字,截掉尾數(shù)的16位以下,然后把它扔掉,說(shuō):“我真的不需要它。”當(dāng)我下次帶它回來(lái)訓(xùn)練時(shí),我會(huì)把它拿回來(lái)。很簡(jiǎn)單,就像“如何將DDR流量減少一半并加快整體訓(xùn)練問(wèn)題的速度?”這已經(jīng)演變成一大堆其他類(lèi)型的數(shù)字問(wèn)題,比如具有各種深?yuàn)W格式的fp8。他們都在努力應(yīng)對(duì)大量數(shù)據(jù)的挑戰(zhàn)——用于全自動(dòng)駕駛或語(yǔ)言樣本的無(wú)數(shù)圖像,或者無(wú)論它是什么,都必須從計(jì)算轉(zhuǎn)移到內(nèi)存,從內(nèi)存轉(zhuǎn)移到計(jì)算。這是內(nèi)存瓶頸和內(nèi)存層次結(jié)構(gòu)問(wèn)題,目前不是計(jì)算問(wèn)題。

THEEND

最新評(píng)論(評(píng)論僅代表用戶(hù)觀點(diǎn))

更多
暫無(wú)評(píng)論