華為云,讓AI算力入山河

風辭遠
整個2023年,全球科技界都在為大模型沸騰。云計算產(chǎn)業(yè)作為AI大模型與產(chǎn)業(yè)場景間的最短路徑,自然也在大模型浪潮中備受關注。目前階段,云廠商已經(jīng)紛紛入局大模型,從多個角度探索大模型帶給云計算產(chǎn)業(yè)的可能性。

本文來自微信公眾號“腦極體”,作者/風辭遠。

整個2023年,全球科技界都在為大模型沸騰。云計算產(chǎn)業(yè)作為AI大模型與產(chǎn)業(yè)場景間的最短路徑,自然也在大模型浪潮中備受關注。目前階段,云廠商已經(jīng)紛紛入局大模型,從多個角度探索大模型帶給云計算產(chǎn)業(yè)的可能性。

但我們往往會忽略這樣一個關鍵節(jié)點:“百模千態(tài)”的大模型,第一項挑戰(zhàn)是AI算力。而做好大模型服務,首當其沖也要做好算力服務。

在AI算力這個最為基礎的能力中,隱藏著AI云服務如何能走向更遠的真正答案。

1.png

9月21日,在華為全聯(lián)接大會2023期間,華為常務董事、華為云CEO張平安圍繞“共建智能世界云底座,讓AI重塑千行萬業(yè)”發(fā)表主題演講,發(fā)布盤古大模型在礦山、政務、汽車、氣象、醫(yī)學、數(shù)字人、研發(fā)等領域的創(chuàng)新服務,并宣布華為云昇騰AI云服務正式上線,加快讓千行萬業(yè)實現(xiàn)大模型普惠。圍繞盤古大模型落地,本次華為云分享的主題是“解難題,做難事”。讓AI算力能用、夠用、好用、有大用,就是華為云解開的第一道難題。

算力入山河,AI始落地。

為了做好這件重要的“難事”,昇騰AI云服務出發(fā)了。

大山大河,

需要AI大算力

信息革命以來,人類逐步發(fā)現(xiàn)科技創(chuàng)新的幅度與算力消耗成正比,這一點在大模型身上又一次得到了印證。

大模型的出現(xiàn)和成熟,給千行萬業(yè)智能化帶來了全新的機遇。可以說,每個行業(yè)的每個場景都值得融入大模型,甚至其中大部分可以被大模型所重塑。而無論是大模型本身模型規(guī)模大、數(shù)據(jù)參數(shù)多的特點,還是各個行業(yè)涌現(xiàn)的大模型需求,都指向同一個結果:社會生產(chǎn)體系所消耗的AI算力,將得到指數(shù)級提升。

大模型需要大算力,已經(jīng)成為了行業(yè)共識。但如果我們具體打開這個問題,會發(fā)現(xiàn)圍繞AI算力產(chǎn)生的產(chǎn)業(yè)挑戰(zhàn)非常多樣。我們可以將其概括為供需矛盾、能效挑戰(zhàn)、運維需求、安全顧慮四種。

先來看AI算力最為核心的挑戰(zhàn),即供需之間客觀上的不平衡。

截至2023年7月,中國累計已經(jīng)有130個大模型問世。“百模大戰(zhàn)”帶來了AI算力的巨量增長。根據(jù)相關數(shù)據(jù)報告,過去10年全球AI算力需求增長了30萬倍,而未來10年我們還面臨著需求500倍的增長。根據(jù)《2022-2023中國人工智能計算力發(fā)展評估報告》顯示,在2022年中國進行的AI計算總量已經(jīng)超過了通用計算。在可見的未來,AI算力將會變成社會各界需求量最大、供需缺口最大、資源最為緊張的計算形態(tài)。

其次是大模型與大算力,帶來了尖銳的能效問題。

由于大模型訓練需要集群式AI計算,因此其訓練任務大量依靠數(shù)據(jù)中心,而AI服務器的功率密度遠超普通服務器,單機柜的功耗是過去的6到8倍。在雙碳大背景下,數(shù)據(jù)中心的能效比必須持續(xù)下降,因此大模型帶來的計算能效問題已刻不容緩。如何在AI算力提升與能效比下降之間達成平衡,成為了產(chǎn)業(yè)界必須面對的問題。

1.png

除此之外,我們還要看到AI算力在應用過程中發(fā)生了一系列運維難題。由于大模型的訓練、部署目標各不相同,各自的訓練與部署環(huán)境也差異巨大,期間也自然會產(chǎn)生網(wǎng)絡時延、模型可靠性、運維管理門檻等運維問題。舉個例子,一些大模型需要極大量級的算力集群來支撐,而大量服務器與計算單元之間的協(xié)同往往會出現(xiàn)問題,一旦計算單元出現(xiàn)問題,研發(fā)人員就需要重啟訓練。大模型訓練中巨大的時間、人才、算力成本消耗,就發(fā)生在頻繁的故障與重啟訓練任務當中。因此,大模型不僅需要AI算力充足,還需要算力服務精細,幫助用戶降低整體運維難題。

最后,我們還要看到大模型帶來新的安全顧慮。

由于大模型的部署場景大多事關國計民生,因此其安全隱患必須全部掃清。在數(shù)據(jù)訪問、存儲加密、傳輸安全等領域,大模型目前還存在著諸多的安全隱患。

整體而言,大模型并不是高度一致化的產(chǎn)品。其本身技術分類復雜、工程化路徑多變,并且各個用戶還需要根據(jù)自身需求進行大模型的精調(diào)與訂制化工作。這些問題讓大模型對AI算力服務有了多方面、多角度的差異化需求。

滿足大模型的AI算力需求,已經(jīng)成為了大模型時代的頭一道考題。

把昇騰AI云服務

做實,做精,做成競爭力

對于華為云來說,要把算力這道題答好,需要兼顧兩方面的建設:一個是如何讓AI算力充足可用,另一個是如何跨越算力服務在運維、安全、能效等方面的挑戰(zhàn)。AI算力既要做實,還要做精。

今年7月,華為云發(fā)布了最新的昇騰AI云服務,可以為千行萬業(yè)的用戶提供澎湃AI算力。在其背后,是華為云堅實的算力基礎設施建設。

1.png

截至目前,華為云在貴安、烏蘭察布、蕪湖建設了3大AI算力中心。基于此,昇騰AI云服務在全國范圍內(nèi)實現(xiàn)了20ms的時延圈。用戶可以實現(xiàn)就近接入,一根光纖即可聯(lián)接澎湃的AI算力,服務即開即用。為確保大模型訓練數(shù)據(jù)的全生命周期安全,昇騰AI云服務還采用了數(shù)據(jù)傳輸與存儲加密、數(shù)據(jù)安全清除、數(shù)據(jù)訪問控制、數(shù)據(jù)水印防泄露等多重技術。值得注意的是,無論對于企業(yè)還是社會整體,云服務都是能效比最優(yōu)的雙碳時代AI算力獲取方式。

1.png

為了實現(xiàn)AI算力的極致性能,華為云還在基礎設施之上進行了針對AI云服務的技術優(yōu)化。比如ModelArts提供了數(shù)據(jù)、訓練、推理三層加速,通過DataTurbo數(shù)據(jù)加速技術能夠利用計算節(jié)點存儲資源構建分布式緩存,將數(shù)據(jù)讀取時延降低至亞毫秒級。TrainTurbo訓練加速技術可以實現(xiàn)在訓練數(shù)據(jù)超過100T時數(shù)據(jù)讀取時間縮短50%,并使能整體訓練效率提升20%以上。在模型的推理環(huán)節(jié),InferTurbo推理加速技術通過圖編譯技術加速模型推理,通過全鏈路垂直協(xié)同優(yōu)化,將大模型的推理性能提升30%。

在這樣強大基建與核心技術加持下,用戶可以獲得極致的AI計算性能,而為了讓算力不僅“夠用”,還要“好用”,華為云進行了一系列把AI算力“做精”的探索。

比如說,AI開發(fā)有賴于工具與平臺的全面。昇騰AI云服務背后,有著異構計算架構CANN、全場景AI框架昇思MindSpore、AI開發(fā)生產(chǎn)線ModelArts等一系列華為持續(xù)打造的AI底層開發(fā)工具與技術平臺,從而為大模型提供分布式并行加速,算子和編譯優(yōu)化、集群級通信優(yōu)化等關鍵能力,奠定AI算力服務的根技術加持。

如上文所說,在大模型訓練、部署過程中還面臨著一系列運維、能效等問題。在算力服務的優(yōu)化方面,昇騰AI云服務可以提供更長穩(wěn)的AI算力服務,千卡訓練30天長穩(wěn)率達到90%,還可以實現(xiàn)分鐘級信息獲取、2小時定界、24小時提供解決方案,斷點恢復時長不超過10分鐘,任務恢復時長小于半小時。

在模型遷移方面,華為云為用戶提供了遷移工具鏈,并集成全棧的開發(fā)工具,能夠?qū)崿F(xiàn)典型模型遷移效率低至2周,主流場景自助遷移。此外,昇騰AI云服務還適配了業(yè)界主流的開源大模型,如LLAMA、Stable Diffusion等,從而真正讓昇騰AI云服務滿足“百模千態(tài)”的大模型需求。

對于運動員來說,基本功就是競爭力。在云+大模型的賽道上,華為云通過基建、技術、服務的集成,也把AI算力練成了競爭力。

澎湃易用的AI算力,是大模型產(chǎn)業(yè)化落地的基石,也是一切故事的開端。

算力,技術,場景:

構筑大模型正循環(huán)

在大模型這個突然到來的巨大智能化機遇面前,千行萬業(yè)的用戶有著差異化巨大的需求。有人缺少算力,有人需要模型,有人尋覓場景,也有人需要特定技術工具的幫助。任何一個條件的缺失,都會讓大模型的飛輪無法旋轉(zhuǎn)。

換個角度看,算力資源、技術工具、模型的場景化應用都能變成支點。這些要素可以通過全棧配合、彼此推動的方式,幫助企業(yè)用戶和開發(fā)者走上大模型之路。

華為云提供的昇騰AI云服務,不僅AI算力能用、夠用,好用,還能通過與華為云一系列布局進行聯(lián)動,讓大模型從此“有大用”,從而共同實現(xiàn)盤古大模型解難題,做難事。

比如說,我們能夠看到眾多技術創(chuàng)新與昇騰AI云服務相輔相成,共同解決著AI算力需求大、供給難的挑戰(zhàn)。華為云最新發(fā)布的分布式QingTian架構就有著這樣的效果。

1.png

以AIGC為代表的大模型應用,算力需求特點是高度依賴分布式計算能力,這也對算力架構產(chǎn)生了新的挑戰(zhàn)。分布式QingTian架構作為新一代對等架構,能夠?qū)鹘y(tǒng)的數(shù)據(jù)中心算力集群,演變?yōu)榛诟咚倏偩€的對等池化系統(tǒng)集群,從而打破單一部件的性能限制,實現(xiàn)軟硬協(xié)同、管控面全卸載、資源與性能零損耗,最終為用戶帶來性能、可靠性、安全可信等方面的極致體驗。

除此之外,華為云還圍繞不斷發(fā)展的AI需求,在AI云存儲、GaussDB向量數(shù)據(jù)庫、數(shù)智融合、Serverless+大模型工程套件等一系列領域進行了技術創(chuàng)新,從系統(tǒng)架構層、數(shù)據(jù)處理層、模型訓練層、應用開發(fā)層實現(xiàn)系統(tǒng)性創(chuàng)新,從而掃清了用戶使用AI云服務過程中的障礙,讓AI算力真正對齊到千行萬業(yè)的場景化需求。

在基礎AI算力與系列技術創(chuàng)新之上,就是華為云提供的盤古系列大模型。在華為全聯(lián)接大會2023上,我們也可以看到盤古大模型在行業(yè)中有了更為深入的場景化落地。

1.png

在汽車行業(yè),盤古汽車大模型能夠覆蓋車企的設計、生產(chǎn)、營銷、研發(fā)等環(huán)節(jié),并在自動駕駛訓練、專用場景落地等領域發(fā)揮獨特價值。在自動駕駛領域,盤古汽車大模型可基于實際場景采集的照片和視頻,構建該場景的數(shù)字孿生空間,加入可移動的物體、可編輯的天氣、光照等,生成供自動駕駛學習的場景樣本。在港口、礦區(qū)等作業(yè)場景,盤古汽車大模型的多場景、多車型控制算法,可讓60噸的重卡橫向誤差小于0.2米、精準??空`差小于0.1米。目前在新疆疆納礦業(yè)和內(nèi)蒙古伊敏露天煤礦,已有23輛無人重卡在礦山中24小時不間斷作業(yè)。

1.png

在直播+數(shù)字人領域,盤古數(shù)字人大模型基于十萬級高質(zhì)量直播話術進行預訓練,能夠自動生成專業(yè)話術,從而準確、流利地介紹產(chǎn)品,并且還能自動捕捉彈幕和觀眾實時互動。在貴州丹寨,盤古數(shù)字人大模型已經(jīng)讓非遺產(chǎn)業(yè)蠟染走向全球。

1.png

總結一下不難發(fā)現(xiàn),華為云已經(jīng)形成AI算力作為底座,技術創(chuàng)新作為驅(qū)動,盤古大模型融入行業(yè)場景為導向的“大模型正循環(huán)”。澎湃AI算力可以帶動大模型的使用;技術創(chuàng)新將不斷降低大模型的門檻;行業(yè)場景將帶動大模型規(guī)?;涞?。算力推動場景和技術發(fā)展;技術進步實現(xiàn)算力得到充分釋放,場景價值被深入挖掘;場景的進步將帶動算力建設,引領技術進步。三者滾動向前,吸引千行萬業(yè)在云上尋找大模型的答案。

以算力為基礎,以算力為鑰匙,讓AI融入山河大地——這便是華為云的AI長歌。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論