鵬博士集團(tuán)副總裁孫向東:統(tǒng)籌智算資源能破解大模型“算力荒”

算力指的是計算能力,即CPU、GPU、TPU、FPGA、ASIC等各類處理器依托計算機(jī)服務(wù)器、高性能計算集群、各類智能終端等承載設(shè)備,每秒執(zhí)行數(shù)據(jù)運(yùn)算次數(shù)的能力,常見計量單位包括TOPS(每秒可進(jìn)行萬億次操作數(shù))、FLOPS(每秒所執(zhí)行的浮點(diǎn)運(yùn)算次數(shù))、MIP(每秒執(zhí)行百萬級指令數(shù))等。

本文來自微信公眾號“中國電子報”。

“通用算力是不缺的,我們現(xiàn)在缺的是能夠滿足大模型訓(xùn)練需求的智能算力。”算力運(yùn)營商鵬博士集團(tuán)副總裁孫向東在接受《中國電子報》記者專訪時這樣說。建設(shè)滿足大模型訓(xùn)練需求的智算中心、提高智能算力供給能力,是破解大模型發(fā)展瓶頸的關(guān)鍵。

大模型訓(xùn)練需要新建智算中心

算力指的是計算能力,即CPU、GPU、TPU、FPGA、ASIC等各類處理器依托計算機(jī)服務(wù)器、高性能計算集群、各類智能終端等承載設(shè)備,每秒執(zhí)行數(shù)據(jù)運(yùn)算次數(shù)的能力,常見計量單位包括TOPS(每秒可進(jìn)行萬億次操作數(shù))、FLOPS(每秒所執(zhí)行的浮點(diǎn)運(yùn)算次數(shù))、MIP(每秒執(zhí)行百萬級指令數(shù))等。

當(dāng)前的算力共有三種:通用算力、智能算力和超算算力。其中,通用算力主要由CPU芯片提供,可完成大多數(shù)類型的處理任務(wù);智能算力由GPU、FPGA、AI加速芯片等提供,用于人工智能算法模型訓(xùn)練與模型推理;超算算力由超級計算機(jī)等高性能計算集群提供,主要用于尖端科學(xué)領(lǐng)域的計算,比如行星模擬、藥物分子設(shè)計、基因分析等。

孫向東表示,從市場供需情況來看,我國并不缺通用算力,缺的是由大模型訓(xùn)練帶來的智能算力需求。孫向東說,模型訓(xùn)練完成后,可以通過壓縮、系數(shù)化等處理放在較低端的算力芯片上做運(yùn)營和服務(wù),滿足模型推理所需的算力芯片并不缺。

根據(jù)《中國綜合算力指數(shù)(2023年)》,截至2023年6月底,我國算力總規(guī)模達(dá)到197EFLOPS,其中通用算力規(guī)模占比達(dá)74%,智能算力規(guī)模同比增長45%,比算力規(guī)模整體增速高15%,在整體算力規(guī)模中的比例提高至25.4%。

研究機(jī)構(gòu)數(shù)據(jù)顯示,在大模型訓(xùn)練需求的帶動下,智能算力增長速度將遠(yuǎn)超通用算力。全球智能算力規(guī)模將在2027年達(dá)到1117.4EFlops,大致相當(dāng)于2023年的2.7倍、2020年的15倍。

在接受《中國電子報》記者采訪時,孫向東也說:“自ChatGPT出現(xiàn)以來,我們能夠直觀感受到智算需求的增長。”

然而,與需求算力需求增長強(qiáng)勁同時存在的,是我國智能算力供給不足,這是我國算力市場當(dāng)前面臨的主要矛盾。由此,孫向東表示,要配合需求建設(shè)能夠滿足智能算力的智算中心。

之所以要新建算力中心,是因?yàn)橹撬阒行呐c傳統(tǒng)數(shù)據(jù)中心存在諸多不同,改造傳統(tǒng)數(shù)據(jù)中心并不能滿足智算需要。二者的區(qū)別首先體現(xiàn)在組建機(jī)柜的芯片種類上,傳統(tǒng)數(shù)據(jù)中心提供計算功能的芯片以CPU為主,智算中心以GPU等可提供AI并行計算的芯片為主。二者區(qū)別還體現(xiàn)在服務(wù)器機(jī)柜的組建方式、功耗等諸多方面。傳統(tǒng)數(shù)據(jù)中心的業(yè)務(wù)以存儲為主,其功耗約為4~6千瓦時;智算中心的業(yè)務(wù)則以高性能計算為主,其功耗可能達(dá)到12千瓦時甚至更高。不僅需要配備高密度機(jī)柜,整個機(jī)房的布局也要配合需求進(jìn)行調(diào)整。

為滿足市場的強(qiáng)需求,符合人工智能應(yīng)用需要的智算中心正在建設(shè)。但在孫向東看來,建設(shè)速度還遠(yuǎn)趕不上需求增長速度。

統(tǒng)籌智算資源“集中力量辦大事”

建設(shè)算力中心,首先需要解決的是算力基礎(chǔ)設(shè)施——芯片的供應(yīng)問題。當(dāng)前,多家國內(nèi)企業(yè)和機(jī)構(gòu)正在做AI芯片的研發(fā)和生產(chǎn),其部分產(chǎn)品已經(jīng)在數(shù)據(jù)中心中應(yīng)用,但國產(chǎn)算力芯片還不足以滿足解決大模型訓(xùn)練所需的算力缺口。一方面,國產(chǎn)算力芯片的性能和產(chǎn)能還不足;另一方面,大模型訓(xùn)練需要的是千卡甚至萬卡級別的超大規(guī)模計算集群,不同品牌的芯片組合在一起還需要解決兼容性、軟件適配性和大規(guī)模集群可靠性的問題。調(diào)動千卡、萬卡級別的計算集群,對集群搭建者提出了很高的技術(shù)要求,而這是個別大公司才能實(shí)現(xiàn)的。

由此,為了盡可能多地解決智算的供需矛盾,孫向東提出了另一條發(fā)展思路:由政府或大企業(yè)出面,統(tǒng)籌全國的智算資源,“集中力量辦大事”。

區(qū)別于普通計算,大模型需要的是千卡甚至萬卡規(guī)模的計算集群。但建設(shè)智算中心,一方面,可用服務(wù)器供給有限,且配置成本高。因此,孫向東認(rèn)為,盡可能提高現(xiàn)有資源的利用效率,就要實(shí)現(xiàn)算力中心的連接,建設(shè)成智算網(wǎng)絡(luò)。這樣一來,就可以把可用的、符合大模型訓(xùn)練標(biāo)準(zhǔn)的算力基礎(chǔ)設(shè)施連接起來,搭建成像水電一樣的計算網(wǎng)絡(luò),當(dāng)某計算任務(wù)完成后,這部分占用的資源就能夠及時釋放出來,提供給其他企業(yè)使用,以此滿足并行大規(guī)模計算的需求。

2023年10月,工信部等六部門聯(lián)合印發(fā)《算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動計劃》,將提升算力高效運(yùn)載能力列為重點(diǎn)任務(wù),稱要探索構(gòu)建布局合理、泛在連接、靈活高效的算力互聯(lián)網(wǎng),增強(qiáng)異構(gòu)算力與網(wǎng)絡(luò)的融合能力,通過網(wǎng)絡(luò)的應(yīng)用感知和資源分配機(jī)制,及時響應(yīng)各類應(yīng)用需求,實(shí)現(xiàn)計算、存儲的高效利用。針對智能計算、超級計算和邊緣計算等場景,開展數(shù)據(jù)處理器(DPU)、無損網(wǎng)絡(luò)等技術(shù)升級與試點(diǎn)應(yīng)用,實(shí)現(xiàn)算力中心網(wǎng)絡(luò)高性能傳輸。

關(guān)于建設(shè)算力網(wǎng)絡(luò),孫向東補(bǔ)充道:“通俗而言,其含義就是,不論是誰投資、哪里提供的算力,都連接到一個平臺上,做算力互聯(lián)互通的交易。這與云計算的理念是有共通之處的,都是使算力在一個大的平臺上流動,打破算力提供者、算力資源儲備地等物理邊界,使算力資源真正流動起來,實(shí)現(xiàn)收益最大化。”

THEEND

最新評論(評論僅代表用戶觀點(diǎn))

更多
暫無評論