国产日韩欧美一区二区东京,巨大放在里面一直没有出来

大模型存儲需求及技術(shù)策略

2024-08-15 08:42

twt企業(yè)IT社區(qū)

劉艷春

本文來自微信公眾號“twt企業(yè)IT社區(qū)”，作者/劉艷春。

隨著人工智能和機(jī)器學(xué)習(xí)技術(shù)的飛速發(fā)展，大模型已廣泛應(yīng)用于各個(gè)領(lǐng)域，大模型擁有更強(qiáng)的數(shù)據(jù)處理能力和更高的預(yù)測精度，為企業(yè)提供了更為精準(zhǔn)的業(yè)務(wù)分析和預(yù)測服務(wù)。然而，在數(shù)據(jù)獲取，數(shù)據(jù)處理、模型訓(xùn)練、模型微調(diào)、推理應(yīng)用等業(yè)務(wù)流程中，特別是在計(jì)算機(jī)視覺、自然語言處理、語音處理以及跨模態(tài)檢索生成等關(guān)鍵環(huán)節(jié)中，每個(gè)階段都涉及數(shù)據(jù)的存儲與訪問，對存儲系統(tǒng)有很大的挑戰(zhàn)。一方面，大模型的訓(xùn)練和推理過程需要大規(guī)模數(shù)據(jù)的支持，這些數(shù)據(jù)需要高效的存儲和訪問；另一方面，大模型的部署和維護(hù)需要穩(wěn)定、高效的存儲系統(tǒng)，以確保模型的持續(xù)運(yùn)行和數(shù)據(jù)的可靠性，同時(shí)還需要注重?cái)?shù)據(jù)的安全性和隱私保護(hù)。為了應(yīng)對這些挑戰(zhàn)，企業(yè)需要采用高效的數(shù)據(jù)處理技術(shù)和算法，同時(shí)需要構(gòu)建高性能、可擴(kuò)展的存儲系統(tǒng)，以滿足數(shù)據(jù)處理的實(shí)時(shí)性和可靠性需求。

一、AI大模型存儲需求

AI大模型的存儲需求，隨著業(yè)務(wù)場景復(fù)雜性和數(shù)據(jù)量的增長，在不斷演變和升級。模型的數(shù)據(jù)處理模式已經(jīng)從單一類型轉(zhuǎn)向包含文本、圖片、音頻、視頻等在內(nèi)的多模態(tài)數(shù)據(jù)，這種轉(zhuǎn)變導(dǎo)致原始數(shù)據(jù)量呈現(xiàn)爆炸式增長，往往達(dá)到PB級別。這就要求存儲系統(tǒng)必須具備足夠大的容量，以容納這些海量的多模態(tài)數(shù)據(jù)。同時(shí)，AI大模型的規(guī)模也在持續(xù)擴(kuò)大，參數(shù)數(shù)量從數(shù)百萬躍升至千億甚至萬億級別，這種龐大的模型規(guī)模不僅對計(jì)算資源提出了更高的要求，也對存儲系統(tǒng)的性能和穩(wěn)定性構(gòu)成了嚴(yán)峻的挑戰(zhàn)。由于模型訓(xùn)練涉及大量的數(shù)據(jù)讀寫操作，包括向量庫、日志、超大CheckPoint文件等，這就要求存儲系統(tǒng)必須具備出色的I/O性能、高帶寬和低延遲，減少寶貴GPU算力資源的等待。有數(shù)據(jù)顯示，千卡多模態(tài)大模型單個(gè)CheckPoint文件能夠達(dá)到TB級，在訓(xùn)練過程中大模型每隔2小時(shí)左右就會暫停保存CheckPoint,這時(shí)GPU資源都是被浪費(fèi)的。因此需要存儲的高性能能力，來減少GPU等待。除了容量和性能方面的需求外，AI大模型還對存儲系統(tǒng)的穩(wěn)定性有著極高的要求。在訓(xùn)練過程中，任何數(shù)據(jù)丟失或存儲故障都可能導(dǎo)致模型訓(xùn)練的失敗，甚至造成無法挽回的損失。因此，存儲系統(tǒng)的穩(wěn)定性對于AI大模型的訓(xùn)練和推理至關(guān)重要。

在應(yīng)對海量小文件方面，存儲系統(tǒng)需要展現(xiàn)出高并發(fā)、低延遲的特性。由于小文件數(shù)量巨大，存儲系統(tǒng)需要能夠快速響應(yīng)并發(fā)讀寫請求，避免因延遲過高而影響模型訓(xùn)練和推理的效率。同時(shí)，隨著業(yè)務(wù)規(guī)模的不斷擴(kuò)大和數(shù)據(jù)量的持續(xù)增加，存儲系統(tǒng)還需要具備優(yōu)秀的擴(kuò)展性，以靈活應(yīng)對未來的增長需求。

對于異構(gòu)多模態(tài)數(shù)據(jù)的存儲需求，存儲系統(tǒng)需要能夠高效管理并加載相互關(guān)聯(lián)、嵌套的數(shù)據(jù)。要求存儲系統(tǒng)不僅具備高性能和可擴(kuò)展性，還需要具備高度的可維護(hù)性和可靠性。同時(shí)，隨著大模型對分布式并行訓(xùn)練的需求日益增長，存儲系統(tǒng)還需要支持高并發(fā)、低延遲的數(shù)據(jù)加載和模型訓(xùn)練，存儲系統(tǒng)需要具備出色的數(shù)據(jù)吞吐能力和低延遲性能，以滿足大規(guī)模并行訓(xùn)練的需求。

隨著數(shù)據(jù)使用頻率和價(jià)值的變化，存儲系統(tǒng)還需具備數(shù)據(jù)生命周期管理能力，智能地進(jìn)行數(shù)據(jù)歸檔、刪除和遷移，從而優(yōu)化存儲資源使用，提高數(shù)據(jù)訪問效率，降低存儲成本并提升數(shù)據(jù)價(jià)值。同時(shí)，隨著云計(jì)算和邊緣計(jì)算技術(shù)的不斷進(jìn)步，跨平臺的數(shù)據(jù)訪問和共享已成為大模型存儲系統(tǒng)的關(guān)鍵特性，要求存儲系統(tǒng)必須提供高度一致的數(shù)據(jù)服務(wù)，并確保高可用性和容錯(cuò)能力，要求存儲系統(tǒng)支持多種協(xié)議和接口，實(shí)現(xiàn)數(shù)據(jù)的靈活流動和高效協(xié)作。

AI大模型訓(xùn)練中心也面臨著巨大的能耗壓力，例如ChatGPT每天可能要消耗超過50萬千瓦時(shí)的電力，以響應(yīng)用戶的約2億個(gè)請求。GPT3每訓(xùn)練一次，就要消耗128.7萬度電，消耗的電力是我們?nèi)賯€(gè)家庭一年的電量。馬斯克曾說AI發(fā)展正在從缺硅走向缺電，因此存儲作為AI數(shù)據(jù)中心關(guān)鍵基礎(chǔ)設(shè)施，既要考慮高性能、高可用性和大容量，還需要考慮AI數(shù)據(jù)中心綠色節(jié)能的訴求。

圖1大模型存儲挑戰(zhàn)與需求

綜上所述，AI大模型對存儲的需求是多方面的，包括大容量、高性能、高穩(wěn)定性、高效性、綠色節(jié)能以及跨平臺的數(shù)據(jù)訪問和共享能力等。隨著AI技術(shù)的不斷進(jìn)步和應(yīng)用場景的不斷拓展，這些需求還將持續(xù)演化和升級。因此，需要不斷創(chuàng)新和優(yōu)化存儲技術(shù)，以滿足AI大模型日益增長的存儲需求，并推動AI技術(shù)的廣泛應(yīng)用和發(fā)展。

二、大模型存儲技術(shù)策略

未來大模型存儲的方向?qū)⒏鶕?jù)不同應(yīng)用場景和實(shí)際需求來靈活選擇適宜的存儲方式，如分布式存儲、對象存儲、數(shù)據(jù)湖以及集中存儲等，以實(shí)現(xiàn)數(shù)據(jù)的高效管理、快速訪問和靈活擴(kuò)展。建議存儲技術(shù)策略如下：

1.分塊存儲：針對海量小文件，建議將小文件分成固定大小的數(shù)據(jù)塊，分別存儲在不同的存儲節(jié)點(diǎn)上。這種方式可以有效地提高并發(fā)讀寫性能，降低單個(gè)節(jié)點(diǎn)的負(fù)載。同時(shí)，通過合理地分配數(shù)據(jù)塊，可以避免節(jié)點(diǎn)間的數(shù)據(jù)熱點(diǎn)，提高存儲效率。

2.緩存加速：緩存加速技術(shù)利用高速緩存設(shè)備，將頻繁訪問的數(shù)據(jù)暫存于本地或高速存儲中，顯著提升了數(shù)據(jù)的讀寫速度和處理效率。合理調(diào)整緩存容量和策略，不僅有效避免了緩存失效及擊穿等潛在問題，還實(shí)現(xiàn)了多層次的緩存優(yōu)化，按需將熱數(shù)據(jù)緩存到GPU內(nèi)存和本地盤中，利用數(shù)據(jù)本地性提供高性能訪問。訓(xùn)練先將Checkpoint寫到性能相對容易保證的本地存儲，再向遠(yuǎn)端對象存儲服務(wù)器/數(shù)據(jù)湖上傳。

3.數(shù)據(jù)壓縮：采用數(shù)據(jù)壓縮技術(shù)，對小文件數(shù)據(jù)進(jìn)行壓縮存儲?？捎行У販p少存儲的空間占用，提高存儲效率。同時(shí)，通過合理地選擇壓縮算法和壓縮參數(shù)，可以平衡壓縮和解壓縮的時(shí)間消耗，避免對存儲性能產(chǎn)生過大影響。

4.去重技術(shù)：利用去重技術(shù)，去除重復(fù)文件數(shù)據(jù)，只存儲一份數(shù)據(jù)副本。這種方式可以有效減少存儲空間的占用，提高存儲效率。同時(shí)，通過合理地選擇去重算法和去重參數(shù)，可以避免對存儲性能產(chǎn)生過大影響。

5.連續(xù)穩(wěn)定：為了確保訓(xùn)練的連續(xù)性和穩(wěn)定性，存儲系統(tǒng)需要提供強(qiáng)大的訓(xùn)練斷點(diǎn)保存與恢復(fù)功能。模型訓(xùn)練的Checkpoint機(jī)制是確保訓(xùn)練過程可靠性的關(guān)鍵。通過優(yōu)化Checkpoint過程并減少其耗時(shí)，降低訓(xùn)練中斷的時(shí)間，提高訓(xùn)練效率and/or利用率，減少GPU空閑，優(yōu)化數(shù)據(jù)清洗過程，數(shù)據(jù)搬運(yùn)和處理與計(jì)算重疊；2.優(yōu)化讀取過程，讓每Epoch讀取數(shù)據(jù)耗時(shí)小于計(jì)算耗時(shí)。同時(shí)存儲系統(tǒng)需要具備高帶寬的特性，從而確保數(shù)據(jù)能夠迅速、穩(wěn)定存儲。

6.異構(gòu)多模態(tài)存儲：采用分布式存儲系統(tǒng)，如Hadoop、Spark等，將異構(gòu)多模態(tài)數(shù)據(jù)分布存儲在多個(gè)節(jié)點(diǎn)上，實(shí)現(xiàn)數(shù)據(jù)的并行讀寫和高效處理。采用并行計(jì)算框架，如TensorFlow、PyTorch等，結(jié)合分布式存儲系統(tǒng)，實(shí)現(xiàn)多模態(tài)數(shù)據(jù)的快速訓(xùn)練和加載。建立異構(gòu)多模態(tài)文件數(shù)據(jù)間的關(guān)聯(lián)和嵌套關(guān)系，例如圖-文對應(yīng)、文-視頻對應(yīng)等，以實(shí)現(xiàn)數(shù)據(jù)的多模態(tài)融合。

三、大模型存儲未來方向

分布式存儲可以通過將數(shù)據(jù)分散到多個(gè)節(jié)點(diǎn)來實(shí)現(xiàn)可擴(kuò)展性和容錯(cuò)性，非常適合大規(guī)模數(shù)據(jù)存儲和處理。而對象存儲則提供了更加靈活的數(shù)據(jù)存儲和管理方式，適用于各種類型的數(shù)據(jù)，包括圖片、視頻、文本等。

此外，數(shù)據(jù)湖作為一種新的數(shù)據(jù)存儲和處理架構(gòu)，將公開數(shù)據(jù)集、訓(xùn)練數(shù)據(jù)、模型結(jié)果統(tǒng)一存儲到數(shù)據(jù)湖，實(shí)現(xiàn)不同形態(tài)的數(shù)據(jù)統(tǒng)一存儲和高效流轉(zhuǎn)，避免數(shù)據(jù)在AI大模型不同的階段頻繁拷貝，降低效率。為落地多模態(tài)、萬億參數(shù)大模型，企業(yè)數(shù)據(jù)湖將需要具備如下能力：1）支持EB級的橫向擴(kuò)展能力來應(yīng)對多模態(tài)海量數(shù)據(jù)的爆發(fā)；2）支持10TB級的帶寬，億級的IOPS，數(shù)據(jù)加載、斷點(diǎn)/故障恢復(fù)CheckPoint加載時(shí)長從小時(shí)級->秒級；3）提供全局統(tǒng)一命名空間、數(shù)據(jù)同步一致訪問、數(shù)據(jù)強(qiáng)一致的存儲集群，降低AI調(diào)度平臺復(fù)雜度。對于追求極致性能和能效比的應(yīng)用場景，存算一體化和近存加速技術(shù)或?qū)⒚摲f而出。而對于需要靈活性和可擴(kuò)展性的應(yīng)用，存算分離策略可能更為合適。展望未來，大模型存儲將呈現(xiàn)綜合性發(fā)展趨勢，不僅關(guān)注性能與效率，還強(qiáng)調(diào)可靠性、安全性、多模態(tài)支持、智能化管理以及綠色環(huán)保等多個(gè)維度。隨著技術(shù)的持續(xù)革新和應(yīng)用需求的不斷演變，大模型存儲系統(tǒng)必將迎接新挑戰(zhàn)，并持續(xù)創(chuàng)造新的價(jià)值。

THEEND

免責(zé)聲明：凡注明為其它來源的信息均轉(zhuǎn)自其它平臺，由網(wǎng)友自主投稿和發(fā)布、編輯整理上傳，對此類作品本站僅提供交流平臺，不為其版權(quán)負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。若有來源標(biāo)注錯(cuò)誤或侵犯了您的合法權(quán)益，請作者持權(quán)屬證明與本站聯(lián)系，我們將及時(shí)更正、刪除，謝謝。聯(lián)系郵箱：xiali@infoobs.com

本月熱門

精選文章

熱點(diǎn)資訊

人工智能賦能新型工業(yè)化，助力千行百業(yè)轉(zhuǎn)型升級

大模型存儲需求及技術(shù)策略

2024 信息化觀察網(wǎng)

長按掃描二維碼閱讀原文

大模型存儲需求及技術(shù)策略

最新評論（評論僅代表用戶觀點(diǎn)）

國家發(fā)改委、國家能源局：大力提升新能源主動支撐能力，推動儲能與可再生能源協(xié)同發(fā)展關(guān)于加強(qiáng)新形勢下電力系統(tǒng)穩(wěn)定工作的指導(dǎo)意見

3D打印“千元機(jī)”走入家庭：為何仍逃不了雞肋困境？

同江市委副書記、市長王林一行受邀到訪國聯(lián)股份肥多多

數(shù)字零售，真正意義上的電商新進(jìn)化

本月熱門

云計(jì)算的江湖，風(fēng)云再起

揭秘，IOTE國際物聯(lián)網(wǎng)展2025年巡展預(yù)告!

防勒索病毒攻擊關(guān)鍵措施

匯聚行業(yè)精英，探討前沿技術(shù) 第十九屆汽車涂裝工藝技術(shù)研討會即將啟幕!

網(wǎng)博會革新升級：“區(qū)域頻道”精準(zhǔn)選型引領(lǐng)，引領(lǐng)智能制造新風(fēng)潮

萬億賽道!AI算力趨勢發(fā)展深度分析 2024

精選文章

凡拓?cái)?shù)創(chuàng)入選 IDC報(bào)告“中國數(shù)字孿生城市技術(shù)提供商”圖譜

還在擔(dān)心驗(yàn)證碼錯(cuò)誤？新的算法將更容易識別文本驗(yàn)證碼

顧瑋：SD-WAN技術(shù)賦能企業(yè)數(shù)字化轉(zhuǎn)型

解碼可持續(xù)發(fā)展|12月26日—28日開啟第十七屆中國IDC產(chǎn)業(yè)年度大典

牛振東：智能數(shù)字圖書館發(fā)展及其在企業(yè)創(chuàng)新服務(wù)中應(yīng)用探索

引領(lǐng)數(shù)據(jù)要素創(chuàng)新之路，虹信軟件上榜2024“數(shù)商TOP50”

熱點(diǎn)資訊

共筑數(shù)字未來|深度解析數(shù)字化轉(zhuǎn)型與建設(shè)的戰(zhàn)略指南

數(shù)據(jù)要素X政策寶：引領(lǐng)企業(yè)和政策數(shù)據(jù)服務(wù)的新浪潮

政策寶|構(gòu)筑企業(yè)與政策間的高效數(shù)據(jù)通道，跑出惠企助企加速度

政策智能匹配與業(yè)務(wù)線索：企業(yè)騰飛的雙重動力引擎!

鼎好DH3煥新顏，美的樓宇科技助力中關(guān)村地標(biāo)綠色新生

人工智能賦能新型工業(yè)化，助力千行百業(yè)轉(zhuǎn)型升級

五大汽車芯片廠商倚重中國

大模型存儲需求及技術(shù)策略

最新評論（評論僅代表用戶觀點(diǎn)）

欄目推薦

國家發(fā)改委、國家能源局：大力提升新能源主動支撐能力，推動儲能與可再生能源協(xié)同發(fā)展 關(guān)于加強(qiáng)新形勢下電力系統(tǒng)穩(wěn)定工作的指導(dǎo)意見

3D打印“千元機(jī)”走入家庭：為何仍逃不了雞肋困境？

同江市委副書記、市長王林一行受邀到訪國聯(lián)股份肥多多

數(shù)字零售，真正意義上的電商新進(jìn)化

本月熱門

精選文章

熱點(diǎn)資訊

人工智能賦能新型工業(yè)化，助力千行百業(yè)轉(zhuǎn)型升級

五大汽車芯片廠商倚重中國

國家發(fā)改委、國家能源局：大力提升新能源主動支撐能力，推動儲能與可再生能源協(xié)同發(fā)展關(guān)于加強(qiáng)新形勢下電力系統(tǒng)穩(wěn)定工作的指導(dǎo)意見

3D打印“千元機(jī)”走入家庭：為何仍逃不了雞肋困境？

同江市委副書記、市長王林一行受邀到訪國聯(lián)股份肥多多

數(shù)字零售，真正意義上的電商新進(jìn)化

人工智能賦能新型工業(yè)化，助力千行百業(yè)轉(zhuǎn)型升級