大模型存儲需求及技術(shù)策略

隨著人工智能和機(jī)器學(xué)習(xí)技術(shù)的飛速發(fā)展,大模型已廣泛應(yīng)用于各個(gè)領(lǐng)域,大模型擁有更強(qiáng)的數(shù)據(jù)處理能力和更高的預(yù)測精度,為企業(yè)提供了更為精準(zhǔn)的業(yè)務(wù)分析和預(yù)測服務(wù)。

本文來自微信公眾號“twt企業(yè)IT社區(qū)”,作者/劉艷春。

隨著人工智能和機(jī)器學(xué)習(xí)技術(shù)的飛速發(fā)展,大模型已廣泛應(yīng)用于各個(gè)領(lǐng)域,大模型擁有更強(qiáng)的數(shù)據(jù)處理能力和更高的預(yù)測精度,為企業(yè)提供了更為精準(zhǔn)的業(yè)務(wù)分析和預(yù)測服務(wù)。然而,在數(shù)據(jù)獲取,數(shù)據(jù)處理、模型訓(xùn)練、模型微調(diào)、推理應(yīng)用等業(yè)務(wù)流程中,特別是在計(jì)算機(jī)視覺、自然語言處理、語音處理以及跨模態(tài)檢索生成等關(guān)鍵環(huán)節(jié)中,每個(gè)階段都涉及數(shù)據(jù)的存儲與訪問,對存儲系統(tǒng)有很大的挑戰(zhàn)。一方面,大模型的訓(xùn)練和推理過程需要大規(guī)模數(shù)據(jù)的支持,這些數(shù)據(jù)需要高效的存儲和訪問;另一方面,大模型的部署和維護(hù)需要穩(wěn)定、高效的存儲系統(tǒng),以確保模型的持續(xù)運(yùn)行和數(shù)據(jù)的可靠性,同時(shí)還需要注重?cái)?shù)據(jù)的安全性和隱私保護(hù)。為了應(yīng)對這些挑戰(zhàn),企業(yè)需要采用高效的數(shù)據(jù)處理技術(shù)和算法,同時(shí)需要構(gòu)建高性能、可擴(kuò)展的存儲系統(tǒng),以滿足數(shù)據(jù)處理的實(shí)時(shí)性和可靠性需求。

一、AI大模型存儲需求

AI大模型的存儲需求,隨著業(yè)務(wù)場景復(fù)雜性和數(shù)據(jù)量的增長,在不斷演變和升級。模型的數(shù)據(jù)處理模式已經(jīng)從單一類型轉(zhuǎn)向包含文本、圖片、音頻、視頻等在內(nèi)的多模態(tài)數(shù)據(jù),這種轉(zhuǎn)變導(dǎo)致原始數(shù)據(jù)量呈現(xiàn)爆炸式增長,往往達(dá)到PB級別。這就要求存儲系統(tǒng)必須具備足夠大的容量,以容納這些海量的多模態(tài)數(shù)據(jù)。同時(shí),AI大模型的規(guī)模也在持續(xù)擴(kuò)大,參數(shù)數(shù)量從數(shù)百萬躍升至千億甚至萬億級別,這種龐大的模型規(guī)模不僅對計(jì)算資源提出了更高的要求,也對存儲系統(tǒng)的性能和穩(wěn)定性構(gòu)成了嚴(yán)峻的挑戰(zhàn)。由于模型訓(xùn)練涉及大量的數(shù)據(jù)讀寫操作,包括向量庫、日志、超大CheckPoint文件等,這就要求存儲系統(tǒng)必須具備出色的I/O性能、高帶寬和低延遲,減少寶貴GPU算力資源的等待。有數(shù)據(jù)顯示,千卡多模態(tài)大模型單個(gè)CheckPoint文件能夠達(dá)到TB級,在訓(xùn)練過程中大模型每隔2小時(shí)左右就會暫停保存CheckPoint,這時(shí)GPU資源都是被浪費(fèi)的。因此需要存儲的高性能能力,來減少GPU等待。除了容量和性能方面的需求外,AI大模型還對存儲系統(tǒng)的穩(wěn)定性有著極高的要求。在訓(xùn)練過程中,任何數(shù)據(jù)丟失或存儲故障都可能導(dǎo)致模型訓(xùn)練的失敗,甚至造成無法挽回的損失。因此,存儲系統(tǒng)的穩(wěn)定性對于AI大模型的訓(xùn)練和推理至關(guān)重要。

在應(yīng)對海量小文件方面,存儲系統(tǒng)需要展現(xiàn)出高并發(fā)、低延遲的特性。由于小文件數(shù)量巨大,存儲系統(tǒng)需要能夠快速響應(yīng)并發(fā)讀寫請求,避免因延遲過高而影響模型訓(xùn)練和推理的效率。同時(shí),隨著業(yè)務(wù)規(guī)模的不斷擴(kuò)大和數(shù)據(jù)量的持續(xù)增加,存儲系統(tǒng)還需要具備優(yōu)秀的擴(kuò)展性,以靈活應(yīng)對未來的增長需求。

對于異構(gòu)多模態(tài)數(shù)據(jù)的存儲需求,存儲系統(tǒng)需要能夠高效管理并加載相互關(guān)聯(lián)、嵌套的數(shù)據(jù)。要求存儲系統(tǒng)不僅具備高性能和可擴(kuò)展性,還需要具備高度的可維護(hù)性和可靠性。同時(shí),隨著大模型對分布式并行訓(xùn)練的需求日益增長,存儲系統(tǒng)還需要支持高并發(fā)、低延遲的數(shù)據(jù)加載和模型訓(xùn)練,存儲系統(tǒng)需要具備出色的數(shù)據(jù)吞吐能力和低延遲性能,以滿足大規(guī)模并行訓(xùn)練的需求。

隨著數(shù)據(jù)使用頻率和價(jià)值的變化,存儲系統(tǒng)還需具備數(shù)據(jù)生命周期管理能力,智能地進(jìn)行數(shù)據(jù)歸檔、刪除和遷移,從而優(yōu)化存儲資源使用,提高數(shù)據(jù)訪問效率,降低存儲成本并提升數(shù)據(jù)價(jià)值。同時(shí),隨著云計(jì)算和邊緣計(jì)算技術(shù)的不斷進(jìn)步,跨平臺的數(shù)據(jù)訪問和共享已成為大模型存儲系統(tǒng)的關(guān)鍵特性,要求存儲系統(tǒng)必須提供高度一致的數(shù)據(jù)服務(wù),并確保高可用性和容錯(cuò)能力,要求存儲系統(tǒng)支持多種協(xié)議和接口,實(shí)現(xiàn)數(shù)據(jù)的靈活流動和高效協(xié)作。

AI大模型訓(xùn)練中心也面臨著巨大的能耗壓力,例如ChatGPT每天可能要消耗超過50萬千瓦時(shí)的電力,以響應(yīng)用戶的約2億個(gè)請求。GPT3每訓(xùn)練一次,就要消耗128.7萬度電,消耗的電力是我們?nèi)賯€(gè)家庭一年的電量。馬斯克曾說AI發(fā)展正在從缺硅走向缺電,因此存儲作為AI數(shù)據(jù)中心關(guān)鍵基礎(chǔ)設(shè)施,既要考慮高性能、高可用性和大容量,還需要考慮AI數(shù)據(jù)中心綠色節(jié)能的訴求。

640 (1).png

圖1大模型存儲挑戰(zhàn)與需求

綜上所述,AI大模型對存儲的需求是多方面的,包括大容量、高性能、高穩(wěn)定性、高效性、綠色節(jié)能以及跨平臺的數(shù)據(jù)訪問和共享能力等。隨著AI技術(shù)的不斷進(jìn)步和應(yīng)用場景的不斷拓展,這些需求還將持續(xù)演化和升級。因此,需要不斷創(chuàng)新和優(yōu)化存儲技術(shù),以滿足AI大模型日益增長的存儲需求,并推動AI技術(shù)的廣泛應(yīng)用和發(fā)展。

二、大模型存儲技術(shù)策略

未來大模型存儲的方向?qū)⒏鶕?jù)不同應(yīng)用場景和實(shí)際需求來靈活選擇適宜的存儲方式,如分布式存儲、對象存儲、數(shù)據(jù)湖以及集中存儲等,以實(shí)現(xiàn)數(shù)據(jù)的高效管理、快速訪問和靈活擴(kuò)展。建議存儲技術(shù)策略如下:

1.分塊存儲:針對海量小文件,建議將小文件分成固定大小的數(shù)據(jù)塊,分別存儲在不同的存儲節(jié)點(diǎn)上。這種方式可以有效地提高并發(fā)讀寫性能,降低單個(gè)節(jié)點(diǎn)的負(fù)載。同時(shí),通過合理地分配數(shù)據(jù)塊,可以避免節(jié)點(diǎn)間的數(shù)據(jù)熱點(diǎn),提高存儲效率。

2.緩存加速:緩存加速技術(shù)利用高速緩存設(shè)備,將頻繁訪問的數(shù)據(jù)暫存于本地或高速存儲中,顯著提升了數(shù)據(jù)的讀寫速度和處理效率。合理調(diào)整緩存容量和策略,不僅有效避免了緩存失效及擊穿等潛在問題,還實(shí)現(xiàn)了多層次的緩存優(yōu)化,按需將熱數(shù)據(jù)緩存到GPU內(nèi)存和本地盤中,利用數(shù)據(jù)本地性提供高性能訪問。訓(xùn)練先將Checkpoint寫到性能相對容易保證的本地存儲,再向遠(yuǎn)端對象存儲服務(wù)器/數(shù)據(jù)湖上傳。

3.數(shù)據(jù)壓縮:采用數(shù)據(jù)壓縮技術(shù),對小文件數(shù)據(jù)進(jìn)行壓縮存儲??捎行У販p少存儲的空間占用,提高存儲效率。同時(shí),通過合理地選擇壓縮算法和壓縮參數(shù),可以平衡壓縮和解壓縮的時(shí)間消耗,避免對存儲性能產(chǎn)生過大影響。

4.去重技術(shù):利用去重技術(shù),去除重復(fù)文件數(shù)據(jù),只存儲一份數(shù)據(jù)副本。這種方式可以有效減少存儲空間的占用,提高存儲效率。同時(shí),通過合理地選擇去重算法和去重參數(shù),可以避免對存儲性能產(chǎn)生過大影響。

5.連續(xù)穩(wěn)定:為了確保訓(xùn)練的連續(xù)性和穩(wěn)定性,存儲系統(tǒng)需要提供強(qiáng)大的訓(xùn)練斷點(diǎn)保存與恢復(fù)功能。模型訓(xùn)練的Checkpoint機(jī)制是確保訓(xùn)練過程可靠性的關(guān)鍵。通過優(yōu)化Checkpoint過程并減少其耗時(shí),降低訓(xùn)練中斷的時(shí)間,提高訓(xùn)練效率and/or利用率,減少GPU空閑,優(yōu)化數(shù)據(jù)清洗過程,數(shù)據(jù)搬運(yùn)和處理與計(jì)算重疊;2.優(yōu)化讀取過程,讓每Epoch讀取數(shù)據(jù)耗時(shí)小于計(jì)算耗時(shí)。同時(shí)存儲系統(tǒng)需要具備高帶寬的特性,從而確保數(shù)據(jù)能夠迅速、穩(wěn)定存儲。

6.異構(gòu)多模態(tài)存儲:采用分布式存儲系統(tǒng),如Hadoop、Spark等,將異構(gòu)多模態(tài)數(shù)據(jù)分布存儲在多個(gè)節(jié)點(diǎn)上,實(shí)現(xiàn)數(shù)據(jù)的并行讀寫和高效處理。采用并行計(jì)算框架,如TensorFlow、PyTorch等,結(jié)合分布式存儲系統(tǒng),實(shí)現(xiàn)多模態(tài)數(shù)據(jù)的快速訓(xùn)練和加載。建立異構(gòu)多模態(tài)文件數(shù)據(jù)間的關(guān)聯(lián)和嵌套關(guān)系,例如圖-文對應(yīng)、文-視頻對應(yīng)等,以實(shí)現(xiàn)數(shù)據(jù)的多模態(tài)融合。

三、大模型存儲未來方向

分布式存儲可以通過將數(shù)據(jù)分散到多個(gè)節(jié)點(diǎn)來實(shí)現(xiàn)可擴(kuò)展性和容錯(cuò)性,非常適合大規(guī)模數(shù)據(jù)存儲和處理。而對象存儲則提供了更加靈活的數(shù)據(jù)存儲和管理方式,適用于各種類型的數(shù)據(jù),包括圖片、視頻、文本等。

此外,數(shù)據(jù)湖作為一種新的數(shù)據(jù)存儲和處理架構(gòu),將公開數(shù)據(jù)集、訓(xùn)練數(shù)據(jù)、模型結(jié)果統(tǒng)一存儲到數(shù)據(jù)湖,實(shí)現(xiàn)不同形態(tài)的數(shù)據(jù)統(tǒng)一存儲和高效流轉(zhuǎn),避免數(shù)據(jù)在AI大模型不同的階段頻繁拷貝,降低效率。為落地多模態(tài)、萬億參數(shù)大模型,企業(yè)數(shù)據(jù)湖將需要具備如下能力:1)支持EB級的橫向擴(kuò)展能力來應(yīng)對多模態(tài)海量數(shù)據(jù)的爆發(fā);2)支持10TB級的帶寬,億級的IOPS,數(shù)據(jù)加載、斷點(diǎn)/故障恢復(fù)CheckPoint加載時(shí)長從小時(shí)級->秒級;3)提供全局統(tǒng)一命名空間、數(shù)據(jù)同步一致訪問、數(shù)據(jù)強(qiáng)一致的存儲集群,降低AI調(diào)度平臺復(fù)雜度。對于追求極致性能和能效比的應(yīng)用場景,存算一體化和近存加速技術(shù)或?qū)⒚摲f而出。而對于需要靈活性和可擴(kuò)展性的應(yīng)用,存算分離策略可能更為合適。展望未來,大模型存儲將呈現(xiàn)綜合性發(fā)展趨勢,不僅關(guān)注性能與效率,還強(qiáng)調(diào)可靠性、安全性、多模態(tài)支持、智能化管理以及綠色環(huán)保等多個(gè)維度。隨著技術(shù)的持續(xù)革新和應(yīng)用需求的不斷演變,大模型存儲系統(tǒng)必將迎接新挑戰(zhàn),并持續(xù)創(chuàng)造新的價(jià)值。

THEEND

最新評論(評論僅代表用戶觀點(diǎn))

更多
暫無評論