局外人看AI基礎設施與未來

近年來,國內AI企業(yè)在面臨重重挑戰(zhàn)的情況下,依然展現(xiàn)出頑強的創(chuàng)新精神和技術突破。盡管在技術積累和產業(yè)生態(tài)方面起步較晚,但憑借政策支持、資本投入、市場需求的強勁推動,中國的AI基礎設施建設正在迅速崛起。

本文來自微信公眾號“twt企業(yè)IT社區(qū)”,作者/李威,某金融機構架構師。

5月13日,OpenAI用一場春季發(fā)布會再次讓AI整個產業(yè)鏈都為之沸騰。ChatGPT的新產品ChatGPT-4o,感知能力更強,不再是一個只會幫你生成內容的聊天的工具,而能實時對音頻、視覺以及文本進行推理,神似一名智能的AI助理。不由得讓我聯(lián)想到2018年發(fā)售的一款游戲《Detroit:Become Human》,身臨其境的全智AI體驗,游玩的時候相當震撼,這一天似乎也快到來了?

前些天收到了社區(qū)寄出第8期《邁向YB數(shù)據(jù)時代》,恰巧本次的主題也是“大模型行業(yè)應用”,雖然筆者是一名非AI專業(yè)的局外人,但對AI大模型發(fā)展趨勢的關注卻與日俱增。隨著AI技術的迅猛發(fā)展,大模型在各行各業(yè)的應用越來越廣泛。從語言模型到計算機視覺,AI大模型正在改變我們的生活和工作方式。在拜讀完各位專家的大作后,就AI的基礎架構嘮個嗑,聊表慰藉。

2023年9月,在處理器和系統(tǒng)工程師年度盛會Hot Chips上NVIDIA首席科學Bill Dally介紹了加速計算和AI背后的硬驅動力,從三個方向介紹了基礎硬件帶來的效率提升:新的運算方法(混合運算及結構化稀疏功能)、GPU高速互聯(lián)傳輸(NVLINK及NVIDIA SpectrumX網(wǎng)絡)以及半導體工藝制程革新。從Bill Dally這個1小時5分的主題分享中,我們可以看到NVIDIA GPU集群的優(yōu)化對于生成式AI(GenAI)效率有著顯著的提升,這也慢慢衍生到了當前AI大模型面臨的一個核心難題——如何通過合理優(yōu)化基礎架構最大程度發(fā)揮GPU集群最大的性能表現(xiàn)。

大型AI集群的規(guī)模逐年提升,目前主流的都來到了64K甚至更多GPU(如2024年3月Meta公開的第二代AI集群,單集群GPU數(shù)量達到了24576張NVIDIA H100)。大型AI集群首先面臨的就是網(wǎng)絡數(shù)據(jù)交換問題。巨型的GPU集群需要更低延遲、更高吞吐、更可靠的網(wǎng)絡集群來支撐,RoCE雖然可以在已有以太網(wǎng)基礎設施上部署升級,在低廉成本的前提下獲得低延遲的網(wǎng)絡架構,但性能和擴展性層面上,InfiniBand還是略勝一籌。眾般皆好,必有一失。InfiniBand高昂的TOC成本、復雜的部署方式卻讓用戶愛不起來。網(wǎng)絡解決方案的問題,最終轉換為效率與成本的平衡、投入與產出的性價比抉擇。

其次是GPU(互聯(lián))效率,隨著GPU數(shù)量規(guī)模的升級,不論在GPU主機內支持更多GPU互聯(lián),還是在GPU系統(tǒng)間的高速互聯(lián),效率都是最為關注的問題。GPU數(shù)量的增加,也催生了更高帶寬和更低延遲的互聯(lián)需求。在通用GPU架構中(可參考下圖的NVIDIA DGX A100 System),同一主機內GPU之間多采用NVSwitch互聯(lián)以獲得更低延遲和更高的帶寬,跨主機的GPU之間多考慮RoCE或InfiniBand互聯(lián)。當然在實際中也有企業(yè)單位采用Intel的CXL(Compute Express Link)來進行集群組網(wǎng),據(jù)公開資料表明其效率低于NVIDIA解決方案,萬卡以上的AI集群更多NVIDIA方案部署。從目前的局勢來看,主流的卡間互聯(lián)僅二者可選。此外跨主機的通訊效率大幅低于主機內通訊(NVLink帶寬約PICe Gen4的10倍),這也使得大型AI集群更傾向提升單主機規(guī)格,支持GPU數(shù)量更多和性能更強。在過去20多年里,在摩爾定律的催生下XPU的計算能力增加了9000多倍,然而DRAM內存的帶寬僅增加了30倍,內存堆疊封裝技術的升級逐步放緩,在此趨勢之下單主機GPU性能堆砌的窮途末路必是三墻---內存墻、通訊墻以及存儲墻。

640 (2).png

從2024年的風向標來看,AI計算架構正逐漸向分布式和異構計算轉變。集群通過將計算任務分散到多個節(jié)點,并利用不同類型的加速器(如GPU、TPU、FPGA等)協(xié)同工作,可以更好地應對內存、通訊和存儲帶來的瓶頸。同時,軟件層面的優(yōu)化,如模型并行和數(shù)據(jù)并行策略,也在不斷推進,進一步提升系統(tǒng)的整體性能和效率,Meta公開的第二代AI集群便是其中的一個事實印證。

對于國內的用戶,AI大模型建設投資的最后一環(huán)必然是成本考量。這些成本分為兩類:硬件采購成本和技術擁有成本。受制于美國《出口管理條例》,國內企業(yè)獲得高性能顯卡與技術的難度越來越大,當前國內企業(yè)HPC領域的芯片制造能力還在培育階段,與英偉達、超威半導體等國際一線還有很長距離。AI大模型幾乎不可能上演一場沒有顯卡的戰(zhàn)斗。然而曾經簡單的物料采購,如今對國內核心企業(yè)已成為一道難以逾越的鴻溝。在通用AI集群中,英偉達顯卡和NVLINK往往組合應用,其產品技術支撐占據(jù)了半壁江山,可替代性選擇暫無二致。也正式借著AI這股強心劑,2024年2月16日英偉達一舉擊敗谷歌和亞馬遜成為全球TOP4市值最高的公司,整體市值年度環(huán)比222.22%的漲幅。

與英偉達欣欣向榮之勢截然相反的是國內的AI境況。2024年5月8日,美國眾議院提出了“加強海外關鍵出口國家框架法案”(ENFORCE法案),加強管制AI模型出口,甚至Llama這樣的開源模型也在出口管制之內?;仡欉^往,自2018年起,美國便開始陸續(xù)對中國等特定國家實施更為嚴格的人工智能軟件和硬件出口管制并層層升級。針對AI領域的圍剿層層加碼,很難令人相信這僅是大國博弈,而不是端到端的技術封鎖。曾經高喊Freedom的國度,也并不Free。

俗話說得好,雄關漫道真如鐵,而今邁步從頭越。近年來,國內AI企業(yè)在面臨重重挑戰(zhàn)的情況下,依然展現(xiàn)出頑強的創(chuàng)新精神和技術突破。盡管在技術積累和產業(yè)生態(tài)方面起步較晚,但憑借政策支持、資本投入、市場需求的強勁推動,中國的AI基礎設施建設正在迅速崛起。

以華為的Atlas 900為例,Atlas 900集群的持續(xù)迭代體現(xiàn)了國產AI硬件的飛速進步。Atlas 900搭載的Ascend 910B芯片,在AI訓練場景中的表現(xiàn)已經能夠媲美NVIDIA的A100和A800,盡管在HCCS(Huawei Cache Coherence System)與NVLINK帶寬性能方面還存在差距,但其計算能力和效率已經達到了國際領先水平。當然華為的Atlas多以集群形式整體交付,幾乎很少存在定制,性能至上的同時少了一點靈活。

與華為Ascend系列走ASIC線路一致,另一家最具代表性的國產AI芯片廠商也值得說道——寒武紀。憑借著持續(xù)高強度的投資研發(fā),寒武紀逐步扭虧奔盈,構建了智能加速卡、智能加速系統(tǒng)、智能邊緣計算模組、終端智能處理器IP以及軟件開發(fā)平臺等產品線,在智能加速的細分場景,通過產品的靈活組合打造優(yōu)異的競爭力,滿足市場的多樣性需求,規(guī)避了ASIC可編程性不足的劣勢。其高端智能加速卡思元370系列采用7nm TSMC制程工藝,基于自研的MLUarch3(Machine Learning Unit)架構,支持LPDDR5內存,搭載MLU-Link多芯互聯(lián)技術。其中基于雙芯思元370打造的MLU370-X8整合了兩倍于標準思元370的內存、編解碼資源,借助MLU-Link多芯互聯(lián)技術,每張加速卡可獲得200GB/s的吞吐性能,勝任多芯多卡訓練和分布式推理任務。

640 (2).png

有別于華為Ascend、寒武紀思元,海光則走授權+創(chuàng)新的模式搭上快車,并同時兼容了廣泛使用的“類CUDA”環(huán)境,另辟蹊徑,這種戰(zhàn)略使得海光在激烈的市場競爭中占據(jù)了一席之地,既能滿足國內市場的需求,又具備國際競爭力。

國產AI芯片在算力指標上的追趕和突破已不再是夢想,而是一步一步的照進現(xiàn)實。

在數(shù)據(jù)交換層面,國內互聯(lián)網(wǎng)三巨頭——阿里巴巴、騰訊和字節(jié)跳動同樣出色,推出了自研的旗艦級51.2T高性能交換機。阿里的“白虎”交換機、騰訊的TCS9500交換機以及字節(jié)跳動的B5020交換機已經成為全球旗艦級51.2T高性能交換機網(wǎng)絡性能的標桿。它們不僅在數(shù)據(jù)傳輸速度和穩(wěn)定性方面具備卓越的表現(xiàn),還在定制化和場景優(yōu)化上具有明顯優(yōu)勢,這些創(chuàng)新為國內AI集群提供了強大的網(wǎng)絡支持。

此外,國內AI基礎設施的崛起還離不開軟件生態(tài)的繁榮。飛槳(PaddlePaddle)、MindSpore等國產深度學習框架不斷更新迭代,推動了AI應用的普及和技術的進步。這些框架不僅適配了本地硬件,還在性能優(yōu)化、易用性和社區(qū)支持方面取得了長足的進展,為AI開發(fā)者提供了有力的工具支持。

總而言之,盡管國內AI基礎設施的發(fā)展還面臨諸多挑戰(zhàn),如起步晚、技術積累不足、生態(tài)體系不完善等,但在企業(yè)的自主創(chuàng)新和市場需求的推動下,中國的AI產業(yè)正以穩(wěn)健的步伐向前邁進。希望這次不再是武漢弘芯事件的延續(xù),而是國產制造及企業(yè)科技的覺醒。未來,隨著更多技術突破和產業(yè)協(xié)同,相信國產AI基礎設施有望在全球范圍內成為人工智能發(fā)展的新的動力,這將不僅是一部發(fā)展史,更是一部自主創(chuàng)新崛起的抗爭史。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論