AI大模型這艘“燒錢“游輪上,中國(guó)芯片如何乘風(fēng)破浪?

大模型時(shí)代,構(gòu)建和調(diào)優(yōu)生成式AI基礎(chǔ)模型以滿足應(yīng)用需求,將為整個(gè)基礎(chǔ)設(shè)施市場(chǎng)帶來(lái)改變和發(fā)展機(jī)遇?!耙詰?yīng)用為導(dǎo)向、系統(tǒng)為核心”,將是未來(lái)算力升級(jí)的主要路徑。

本文來(lái)自微信公眾號(hào)“與非網(wǎng)eefocus”,作者/張慧娟。

2023年,大模型的突破和生成式AI的興起,正在引領(lǐng)AI產(chǎn)業(yè)邁入智能創(chuàng)新的新階段,同時(shí)也將引發(fā)算力架構(gòu)的新變局。

根據(jù)最新發(fā)布的《2023-2024年中國(guó)人工智能計(jì)算力發(fā)展評(píng)估報(bào)告》,全球人工智能硬件市場(chǎng)(服務(wù)器)規(guī)模將從2022年的195億美元增長(zhǎng)到2026年的347億美元,五年年復(fù)合增長(zhǎng)率達(dá)17.3%;在中國(guó),預(yù)計(jì)2023年中國(guó)人工智能服務(wù)器市場(chǎng)規(guī)模將達(dá)到91億美元,同比增長(zhǎng)82.5%,2027年將達(dá)到134億美元,五年年復(fù)合增長(zhǎng)率達(dá)21.8%。中國(guó)算力市場(chǎng)、特別是智算領(lǐng)域,正在蓬勃發(fā)展。

CPU+GPU成為AI異構(gòu)計(jì)算主要方式

大模型時(shí)代,構(gòu)建和調(diào)優(yōu)生成式AI基礎(chǔ)模型以滿足應(yīng)用需求,將為整個(gè)基礎(chǔ)設(shè)施市場(chǎng)帶來(lái)改變和發(fā)展機(jī)遇。“以應(yīng)用為導(dǎo)向、系統(tǒng)為核心”,將是未來(lái)算力升級(jí)的主要路徑。

從技術(shù)發(fā)展視角來(lái)看,異構(gòu)計(jì)算仍然是芯片發(fā)展趨勢(shì)之一。在單一系統(tǒng)中,異構(gòu)計(jì)算通過(guò)利用不同類型的處理器(如CPU、GPU、ASIC、FPGA、NPU等)協(xié)同工作,執(zhí)行特定任務(wù),以優(yōu)化性能和效率,更高效地利用不同類型的計(jì)算資源,滿足不同的計(jì)算需求。比如,通過(guò)發(fā)揮GPU并行處理能力,可以提高模型,尤其是大模型的訓(xùn)練速度和效率;在數(shù)據(jù)預(yù)處理、模型調(diào)優(yōu)等階段,可以使用CPU進(jìn)行計(jì)算和決策,或在控制和協(xié)調(diào)計(jì)算資源(如GPU、FPGA等)的工作過(guò)程中使用CPU,以確保計(jì)算過(guò)程的順利進(jìn)行;此外,可通過(guò)使用FPGA進(jìn)行推理加速,從而將模型實(shí)現(xiàn)在邊緣設(shè)備的部署,以開(kāi)展更快速的實(shí)時(shí)推理工作。

IDC調(diào)查研究顯示,截至2023年10月,中國(guó)市場(chǎng)普遍認(rèn)為“CPU+GPU”的異構(gòu)方式是AI異構(gòu)計(jì)算的主要組合形式。

640 (1).png

圖:人工智能訓(xùn)練和推理工作負(fù)載選用的計(jì)算架構(gòu)

(來(lái)源:《2023-2024年中國(guó)人工智能計(jì)算力發(fā)展評(píng)估報(bào)告》)

大模型時(shí)代,AI芯片三大挑戰(zhàn)

AI算力需求的提升給中國(guó)本土芯片廠商的發(fā)展提供了較大的空間,帶來(lái)新的機(jī)遇。IDC預(yù)計(jì),2023年中國(guó)人工智能芯片出貨量將達(dá)到133.5萬(wàn)片,同比增長(zhǎng)22.5%。

在面臨廣闊機(jī)會(huì)的同時(shí),大模型時(shí)代,我國(guó)AI芯片也面臨著新的發(fā)展挑戰(zhàn)。

首先,與國(guó)際領(lǐng)先AI芯片差距較大,以英偉達(dá)最新發(fā)布的H200 GPU為例,性能已經(jīng)達(dá)到其A100 GPU近5倍。而我國(guó)AI芯片的大模型集群訓(xùn)練性能,只有個(gè)別接近A100/A800,大多數(shù)不到其性能的50%,這也意味著,我國(guó)AI芯片在大模型訓(xùn)練性能方面,與國(guó)際領(lǐng)先水平約是3年的代際差距。

其次,生態(tài)方面,英偉達(dá)的CUDA經(jīng)過(guò)17年、累計(jì)超過(guò)100億美元的資金投入,全球開(kāi)發(fā)者已經(jīng)超過(guò)300萬(wàn),成為全球AI開(kāi)發(fā)處于壟斷地位的基礎(chǔ)庫(kù)。反觀國(guó)內(nèi)AI芯片企業(yè),整體市場(chǎng)占有率加起來(lái)不超過(guò)10%,且各家AI芯片軟件各異、生態(tài)零碎割裂。

此外,在當(dāng)前時(shí)代背景下,我國(guó)AI芯片產(chǎn)能受阻、向高端芯片進(jìn)階關(guān)鍵技術(shù)受限等,也在一定程度上制約了AI芯片的發(fā)展。

破解異構(gòu)算力三重難題

基于當(dāng)前現(xiàn)狀,北京智源人工智能研究院副院長(zhǎng)兼總工程師林詠華提出,大模型時(shí)代,我國(guó)異構(gòu)算力主要面臨三重束縛。

異構(gòu)算力束縛一:

不一樣的算力,不能合池訓(xùn)練

具體而言,當(dāng)前異構(gòu)混合分布式訓(xùn)練存在如下挑戰(zhàn):不同架構(gòu)設(shè)備的軟硬件棧不兼容,數(shù)值精度也可能存在差異;不同架構(gòu)設(shè)備之間很難高效通信;不同設(shè)備算力和內(nèi)存不同,很難進(jìn)行負(fù)載均衡切分。

這些挑戰(zhàn)很難一次性解決,目前智源已經(jīng)嘗試在相同架構(gòu)不同代際設(shè)備或者在兼容架構(gòu)的不同設(shè)備上進(jìn)行異構(gòu)訓(xùn)練,未來(lái)將探索不同架構(gòu)設(shè)備上的異構(gòu)訓(xùn)練。FlagScale是一個(gè)支持多廠商異構(gòu)算力合池訓(xùn)練的框架,當(dāng)前實(shí)現(xiàn)了異構(gòu)流水線并行及異構(gòu)數(shù)據(jù)并行兩種模式。

異構(gòu)流水線并行:在該模式實(shí)際訓(xùn)練時(shí),可以跟數(shù)據(jù)并行、張量并行以及序列并行進(jìn)行混合來(lái)實(shí)現(xiàn)高效訓(xùn)練。根據(jù)反向傳播算法內(nèi)存使用特點(diǎn),該模式適合將內(nèi)存比較大的設(shè)備放在流水線并行靠前的階段,內(nèi)存小的設(shè)備放在流水線并行靠后的階段,然后根據(jù)再設(shè)備的算力來(lái)分配不同的網(wǎng)絡(luò)層來(lái)實(shí)現(xiàn)負(fù)載均衡。

異構(gòu)數(shù)據(jù)并行模式:在該模式實(shí)際訓(xùn)練時(shí),可以跟張量并行、流水線并行以及序列并行進(jìn)行混合來(lái)實(shí)現(xiàn)大規(guī)模高效訓(xùn)練。算力和內(nèi)存都比較大的設(shè)備將處理較大的微批次大小,而算力和內(nèi)存都比較小的設(shè)備將處理較小的微批次大小,從而實(shí)現(xiàn)不同設(shè)備上的負(fù)載均衡。

根據(jù)智源所展示的在英偉達(dá)和天數(shù)智芯集群的三組異構(gòu)混合訓(xùn)練實(shí)驗(yàn)結(jié)果,顯示異構(gòu)混合訓(xùn)練收益較好,在三種配置情況下接近甚至超過(guò)了性能上限,這說(shuō)明異構(gòu)混合訓(xùn)練的效率損耗較低,獲得了較好的訓(xùn)練收益。

640 (1).png

林詠華介紹,異構(gòu)算力合池訓(xùn)練框架FlagScale正在實(shí)現(xiàn)英偉達(dá)算力集群與天數(shù)智芯算力集群的異構(gòu)合池訓(xùn)練,未來(lái)將實(shí)現(xiàn)更多不同中國(guó)廠商算力集群之間的異構(gòu)合池訓(xùn)練,推動(dòng)不同廠商異構(gòu)芯片的通信庫(kù)標(biāo)準(zhǔn)化,實(shí)現(xiàn)高速互通互聯(lián)。

她表示,在芯片的迭代更新過(guò)程中,肯定存在新、舊代際芯片混用的過(guò)程,希望繼續(xù)攻關(guān)兼容異構(gòu)芯片的混合訓(xùn)練技術(shù),也希望在同一個(gè)數(shù)據(jù)中心,各種商業(yè)資源可以靈活組合,將性能和效率最大化。

異構(gòu)算力束縛二:

受CUDA制約,算子庫(kù)在不同硬件上適配難度大

當(dāng)前,我國(guó)AI芯片軟件生態(tài)薄弱,主流AI框架以支持英偉達(dá)芯片為主。對(duì)于國(guó)產(chǎn)AI芯片來(lái)說(shuō),需要適配多款框架,每次AI框架版本升級(jí),需要重復(fù)適配;同時(shí),各AI芯片廠商有自己的底層軟件棧,彼此不兼容。

在大模型需求下,上述問(wèn)題帶來(lái)三大影響:第一,針對(duì)大模型需要的算子及優(yōu)化方法缺失,導(dǎo)致模型無(wú)法運(yùn)行或者運(yùn)行效率低;第二,會(huì)出現(xiàn)因?yàn)樾酒軜?gòu)和配套的軟件實(shí)現(xiàn)差異而帶來(lái)的精度誤差問(wèn)題;第三,要在國(guó)產(chǎn)AI芯片上實(shí)現(xiàn)大模型訓(xùn)練,需要大量移植工作,適配遷移成本很高。

對(duì)此,林詠華認(rèn)為,構(gòu)建公共的AI芯片開(kāi)放軟件生態(tài)非常關(guān)鍵,結(jié)合大模型研究和發(fā)展需求,基礎(chǔ)架構(gòu)層面要構(gòu)建基于下一代開(kāi)放、中立的AI編譯器中間層,并且要適配PyTorch框架,支持開(kāi)源編程語(yǔ)言及編譯器擴(kuò)展。下一步,要繼續(xù)探索最大化硬件基礎(chǔ)架構(gòu)性能和利用率的共性核心技術(shù),對(duì)典型和復(fù)雜算子的軟硬件協(xié)同極限優(yōu)化,使得成果開(kāi)源開(kāi)放,高效支撐大模型訓(xùn)練。

異構(gòu)算力束縛三:

芯片架構(gòu)、軟件各異,評(píng)測(cè)難度大,影響落地進(jìn)展

當(dāng)前,AI芯片企業(yè)眾多,各自架構(gòu)和開(kāi)發(fā)工具鏈不同,且AI框架眾多,再加上層出不窮的場(chǎng)景和復(fù)雜多變的模型,導(dǎo)致適配工作量大、開(kāi)發(fā)復(fù)雜度高、評(píng)測(cè)標(biāo)準(zhǔn)難統(tǒng)一,影響了產(chǎn)品的落地和規(guī)?;瘧?yīng)用。

林詠華認(rèn)為,AI異構(gòu)芯片的評(píng)測(cè),對(duì)行業(yè)生態(tài)有重要價(jià)值。當(dāng)前,業(yè)界缺少被廣泛認(rèn)可的、中立的、開(kāi)源開(kāi)放的、針對(duì)異構(gòu)芯片的評(píng)測(cè)體系。應(yīng)該建立開(kāi)源的AI芯片評(píng)測(cè)項(xiàng)目,具體包括基礎(chǔ)環(huán)境、異構(gòu)芯片基礎(chǔ)軟件、測(cè)試集等,對(duì)模型運(yùn)行的支持情況、芯片的訓(xùn)練時(shí)間和計(jì)算吞吐量、芯片和服務(wù)器其他零部件的使用情況、芯片對(duì)不同框架和軟件生態(tài)的支持能力等方面,進(jìn)行全方位評(píng)測(cè)。

寫在最后

AI大模型的發(fā)展提升了智能算力的需求。IDC數(shù)據(jù)顯示,2022-2027年,我國(guó)智能算力規(guī)模年復(fù)合增長(zhǎng)率達(dá)33.9%,超越同期通用算力規(guī)模16.6%的年復(fù)合增長(zhǎng)率。

本土AI芯片廠商正面臨著新的機(jī)遇和挑戰(zhàn)。針對(duì)單芯片算力的瓶頸問(wèn)題、多芯片異構(gòu)合池訓(xùn)練難題,以全局思維打造算力基礎(chǔ)設(shè)施平臺(tái)成為未來(lái)的關(guān)鍵。特別是在構(gòu)建與硬件匹配的軟件生態(tài),包括操作系統(tǒng)、中間件和工具鏈等方面,隨著大模型從基礎(chǔ)研發(fā)走向應(yīng)用落地,軟件基礎(chǔ)設(shè)施的重要性和價(jià)值將會(huì)進(jìn)一步凸顯。這也是大模型在完成了“從0到1”的預(yù)訓(xùn)練之后,在通往“從1到100”的應(yīng)用和大規(guī)模落地過(guò)程中,AI芯片作為核心基礎(chǔ)環(huán)節(jié)必須完成的修煉,也將給中國(guó)AI芯片產(chǎn)業(yè)帶來(lái)深遠(yuǎn)的影響。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無(wú)評(píng)論