與傳統(tǒng)業(yè)務(wù)場景相比,大模型對數(shù)據(jù)存儲資源的需求有哪些異同?

大模型需要快速處理和分析大量數(shù)據(jù),對數(shù)據(jù)處理速度的要求更高。因此,數(shù)據(jù)存儲系統(tǒng)需要具備高性能的讀寫能力和數(shù)據(jù)處理能力。

本文來自微信公眾號“twt企業(yè)IT社區(qū)”。

與傳統(tǒng)業(yè)務(wù)場景相比,大模型對數(shù)據(jù)存儲資源的需求有哪些相同與不同之處?

大模型作為新的應(yīng)用范式,對數(shù)據(jù)存儲的需求與傳統(tǒng)業(yè)務(wù)有所不同。本議題交流核心是分析大模型應(yīng)用對數(shù)據(jù)存儲需求的特殊性在哪些方面?又有哪些與傳統(tǒng)業(yè)務(wù)數(shù)據(jù)存儲需求一致的地方?

問題來自社區(qū)會員 wanggeng某銀行系統(tǒng)運(yùn)維工程師,以下內(nèi)容來自社區(qū)同行探討

 朱祥磊某移動公司系統(tǒng)架構(gòu)師:

相同之處:

1.數(shù)據(jù)存儲需求量大:無論是傳統(tǒng)業(yè)務(wù)場景還是大模型場景,都需要大規(guī)模存儲數(shù)據(jù),以滿足業(yè)務(wù)需求。

2.數(shù)據(jù)安全性要求高:對于任何業(yè)務(wù)場景,數(shù)據(jù)的安全性和隱私保護(hù)都是重要的考慮因素。大模型也不例外,需要確保數(shù)據(jù)的安全性。

3.數(shù)據(jù)質(zhì)量很重要:無論是傳統(tǒng)業(yè)務(wù)還是大模型應(yīng)用,都需要確保數(shù)據(jù)的準(zhǔn)確性和完整性,以提高模型的準(zhǔn)確性和可靠性。

不同之處:

1.數(shù)據(jù)規(guī)模差異:傳統(tǒng)業(yè)務(wù)場景通常處理的數(shù)據(jù)量較小,而大模型則需要處理大規(guī)模的數(shù)據(jù),可能達(dá)到數(shù)十TB甚至數(shù)百TB。

2.數(shù)據(jù)處理速度要求:大模型需要快速處理和分析大量數(shù)據(jù),對數(shù)據(jù)處理速度的要求更高。因此,數(shù)據(jù)存儲系統(tǒng)需要具備高性能的讀寫能力和數(shù)據(jù)處理能力。

3.數(shù)據(jù)存儲類型多樣化:在大模型場景中,除了結(jié)構(gòu)化數(shù)據(jù)外,還需要處理大量的非結(jié)構(gòu)化數(shù)據(jù),如圖像、音頻和視頻等。因此,數(shù)據(jù)存儲系統(tǒng)需要支持多種類型的存儲需求。

4.數(shù)據(jù)存儲效率要求:由于大模型需要進(jìn)行大量迭代和訓(xùn)練,對數(shù)據(jù)存儲的效率和響應(yīng)時間有更高的要求。因此,數(shù)據(jù)存儲系統(tǒng)需要具備高效率和低延遲的特點(diǎn)。

5.數(shù)據(jù)存儲可擴(kuò)展性:大模型的應(yīng)用和發(fā)展通常需要不斷擴(kuò)展數(shù)據(jù)存儲容量和性能。因此,數(shù)據(jù)存儲系統(tǒng)需要具備可擴(kuò)展性,能夠隨著業(yè)務(wù)的發(fā)展而靈活擴(kuò)展。

綜上所述,雖然傳統(tǒng)業(yè)務(wù)場景和大模型場景在數(shù)據(jù)存儲資源需求方面有一些共同點(diǎn),但大模型對數(shù)據(jù)規(guī)模、處理速度、存儲類型、效率和可擴(kuò)展性等方面有更高的要求。

 國金證券AI算法工程師:

相同之處:

數(shù)據(jù)量大:大模型和傳統(tǒng)業(yè)務(wù)場景都需要處理大量數(shù)據(jù),因此雙方對于數(shù)據(jù)存儲資源的需求量都很大。

安全性:數(shù)據(jù)安全性對于大模型和傳統(tǒng)業(yè)務(wù)場景都是重要關(guān)注點(diǎn),尤其涉及內(nèi)部私有數(shù)據(jù)和敏感數(shù)據(jù)。

不同之處:

存儲方式:大模型需要特定的存儲方式來支持高效讀取模型參數(shù)和訓(xùn)練數(shù)據(jù),而傳統(tǒng)業(yè)務(wù)場景可能更多使用傳統(tǒng)數(shù)據(jù)庫和文件存儲方式。

訪問模式:大模型可能需要頻繁的讀寫訪問,而傳統(tǒng)業(yè)務(wù)場景通常設(shè)計為批量處理和定時更新。

數(shù)據(jù)結(jié)構(gòu):大模型可能需要更復(fù)雜的數(shù)據(jù)結(jié)構(gòu)來存儲模型參數(shù)和訓(xùn)練數(shù)據(jù),而傳統(tǒng)業(yè)務(wù)場景更注重結(jié)構(gòu)化數(shù)據(jù)存儲。

綜上所述,雖然大模型和傳統(tǒng)業(yè)務(wù)場景在數(shù)據(jù)存儲資源需求方面有共通之處,如數(shù)據(jù)量大和安全性要求,但它們在存儲方式、訪問模式和數(shù)據(jù)結(jié)構(gòu)等方面存在明顯差異。理解這些相同與不同之處有助于有效滿足大模型對數(shù)據(jù)存儲資源的特殊需求。

 匿名用戶:

1、海量存儲:大模型的訓(xùn)練需要海量的高質(zhì)量數(shù)據(jù),但是高質(zhì)量數(shù)據(jù)往往從更海量的數(shù)據(jù)中篩選清洗而來,所以對于原始數(shù)據(jù)、清洗后數(shù)據(jù)的存儲、分類管理是一個重要變化。

2、大規(guī)模異構(gòu)存儲:當(dāng)前路線的多模態(tài)大模型的訓(xùn)練仍然需要異構(gòu)數(shù)據(jù),需要類似于數(shù)據(jù)湖的基礎(chǔ)設(shè)施作為異構(gòu)數(shù)據(jù)的集成管理。

3、日志存儲的可控性:大模型服務(wù)的可控性一直是大模型應(yīng)用的重要問題。隨之而來的,海量異構(gòu)的服務(wù)日志,如何進(jìn)行日志記錄、篩選、反饋處理以及內(nèi)容后審查等都與以往服務(wù)存在較大的不同。

4、知識存儲:RAG的向量化存儲、圖存儲等,均是隨著大模型技術(shù)發(fā)展而發(fā)展的,需要考慮異構(gòu)知識的統(tǒng)一存儲和管理等新問題。

 Moson建信金融科技架構(gòu)師:

大模型對數(shù)據(jù)存儲資源的需求與傳統(tǒng)業(yè)務(wù)場景相比,既有相同之處也有不同之處。

相同之處在于,無論是大模型還是傳統(tǒng)業(yè)務(wù)場景,都需要數(shù)據(jù)存儲資源來存儲和管理數(shù)據(jù)。數(shù)據(jù)存儲資源需要具備可靠性、可用性和擴(kuò)展性等特點(diǎn),以確保數(shù)據(jù)的準(zhǔn)確性和完整性,以及滿足業(yè)務(wù)增長的需求。

不同之處在于,大模型對數(shù)據(jù)存儲資源的需求更為復(fù)雜和多樣化。大模型需要處理的數(shù)據(jù)量通常更大,數(shù)據(jù)類型更為復(fù)雜,需要進(jìn)行高效的讀寫操作和數(shù)據(jù)處理。此外,大模型還需要支持各種算法和計算需求,包括深度學(xué)習(xí)、機(jī)器學(xué)習(xí)等,對存儲性能和I/O吞吐量的要求更高。

因此,大模型需要更加專業(yè)和高效的存儲解決方案,例如分布式存儲系統(tǒng)、高性能存儲設(shè)備等,以滿足其對數(shù)據(jù)存儲資源的需求。同時,大模型也需要更加靈活和可擴(kuò)展的存儲架構(gòu),以適應(yīng)不斷變化的數(shù)據(jù)量和計算需求。

 jinhaibo昆侖銀行技術(shù)管理:

相同之處:

1、存儲容量:無論是傳統(tǒng)業(yè)務(wù)還是大模型,都需要一定規(guī)模的存儲容量來存儲數(shù)據(jù)。

2、讀取性能:在許多應(yīng)用中,快速的數(shù)據(jù)讀取速度是必要的,無論是傳統(tǒng)業(yè)務(wù)還是大模型。

3、數(shù)據(jù)一致性和完整性需求:無論是傳統(tǒng)業(yè)務(wù)還是大模型,都需要保證數(shù)據(jù)的準(zhǔn)確性和完整性,以避免數(shù)據(jù)錯誤或不一致導(dǎo)致的問題。

主要區(qū)別在以下方面:

1、數(shù)據(jù)類型:傳統(tǒng)業(yè)務(wù)通常處理結(jié)構(gòu)化數(shù)據(jù),大模型需要處理各種類型的數(shù)據(jù),包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。需要不同類型的存儲解決方案,如對象存儲或分布式文件系統(tǒng)。

2、計算資源:大模型處理的數(shù)據(jù)量較大,需要更多的計算資源。對存儲的性能需求增加,需要更高的I/O吞吐量、更快的處理速度等。

3、數(shù)據(jù)備份:由于大模型需要處理大量數(shù)據(jù),考慮到數(shù)據(jù)備份的成本和數(shù)據(jù)本身的價值,需要針對不同價值的數(shù)據(jù)制定不同的備份策略,以權(quán)衡數(shù)據(jù)的可用性和成本。

 xuyy秦皇島銀行數(shù)據(jù)架構(gòu)師:

大模型與傳統(tǒng)數(shù)據(jù)場景,均需具備良好數(shù)據(jù)基礎(chǔ)與數(shù)據(jù)質(zhì)量,且對數(shù)據(jù)安全性有較高的要求。

大型模型的到來對數(shù)據(jù)和存儲提出了新的要求。從成本的角度來看,數(shù)據(jù)和數(shù)據(jù)的存儲過程和處理過程越來越重要。不僅數(shù)據(jù)量增加,數(shù)據(jù)處理過程也更加復(fù)雜,對性能的要求也越來越高,其附加值也越來越高。

大模型要求算力和存力的建設(shè)需要有最佳的計算存量比例,大模型不能靠計算能力做好。計算能力建設(shè)過多,存力建設(shè)過少,會導(dǎo)致計算能力閑置,資源浪費(fèi)。企業(yè)需要開展計算能力網(wǎng)絡(luò)優(yōu)化行動,加大高性能智能計算供給,加強(qiáng)先進(jìn)存儲產(chǎn)品部署,加快構(gòu)建云端協(xié)同、計算、存儲、運(yùn)輸一體化、多層次算力基礎(chǔ)設(shè)施體系。

 chinesezzqiang信息技術(shù)經(jīng)理:

大模型對數(shù)據(jù)存儲資源的需求非常高,主要體現(xiàn)在以下幾個方面:

相同之處:

存儲容量需求大:無論是哪種類型的大模型,都需要存儲大量的數(shù)據(jù),包括訓(xùn)練數(shù)據(jù)、模型參數(shù)等。

高性能存儲需求:大模型的訓(xùn)練和推理需要高速讀寫存儲器,以支持實時處理和快速響應(yīng)。

持久性需求:大模型訓(xùn)練和推理產(chǎn)生的數(shù)據(jù)需要長期保存,以便后續(xù)分析和挖掘。

可擴(kuò)展性需求:隨著大模型的不斷發(fā)展,數(shù)據(jù)量會不斷增加,存儲系統(tǒng)需要具備可擴(kuò)展性,以適應(yīng)數(shù)據(jù)量的增長。

不同之處:

數(shù)據(jù)類型差異:不同類型的大模型(如NLP、CV、語音等)需要處理的原始數(shù)據(jù)格式不同,因此對存儲系統(tǒng)的數(shù)據(jù)類型需求也有所不同。

I/O性能要求:某些大模型需要高速I/O性能來支持實時的訓(xùn)練或推理,而其他模型可能對I/O性能要求較低。

數(shù)據(jù)一致性需求:一些大模型需要高一致性的數(shù)據(jù)存儲來保證訓(xùn)練和推理的準(zhǔn)確性,而其他模型可能對數(shù)據(jù)一致性的要求較低。

成本考慮:對于一些經(jīng)濟(jì)高效的模型,存儲成本也是需要考慮的重要因素。

綜上所述,大模型對數(shù)據(jù)存儲資源的需求具有相似性和差異性。在為特定大模型選擇存儲系統(tǒng)時,需要綜合考慮其具體需求和約束。

 一桶漿糊存儲解決方案架構(gòu)師:

相同點(diǎn)上面幾位老師講的比較多了,從大模型的生命周期角度補(bǔ)充一下對存儲的一些需求:

1、數(shù)據(jù)的采集和處理階段,比如網(wǎng)絡(luò)爬取、清洗標(biāo)注等,這個階段主要是要求存儲支持豐富的接入?yún)f(xié)議以及海量的存儲空間,高吞吐量。

2、模型的開發(fā)設(shè)計階段,該階段主要涉及并行開發(fā),需要數(shù)據(jù)存儲具備各個兼容各平臺能力,比如大數(shù)據(jù)平臺、容器平臺等。

3、模型訓(xùn)練階段,主要是快速讀取訓(xùn)練集及checkpoint的保存和讀取,需要存儲提供非常高效且穩(wěn)定的數(shù)據(jù)讀寫能力。

4、模型推理部署階段,此階段我理解主要是計算密集型,但對模型加載和保存有需求,對存儲的需求是高性能、高并發(fā)。同時具備較高的可靠性。

 nxdy系統(tǒng)運(yùn)維工程師:

一、傳統(tǒng)業(yè)務(wù)場景和大模型場景在數(shù)據(jù)存儲資源需求的不同之處如下:

傳統(tǒng)業(yè)務(wù)場景,包括交易類的、數(shù)據(jù)分析類等,這些業(yè)務(wù)場景主要使用的是關(guān)系型的結(jié)構(gòu)化數(shù)據(jù),通俗來講,就是二維表格。這些關(guān)系型數(shù)據(jù)在軟件層面主要使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫進(jìn)行存儲,在硬件層面可以放在集中式塊存儲、文件存儲等存儲設(shè)備上。

大語言模型,顧名思義,以處理自然語言文字信息為主,因此它所使用的數(shù)據(jù)主要不是關(guān)系型結(jié)構(gòu)化數(shù)據(jù),而是海量的語言文字?jǐn)?shù)據(jù),可以使用文本數(shù)據(jù)庫、向量數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)湖等方式進(jìn)行存儲,因為語言文字?jǐn)?shù)據(jù)具有海量的特性,所需要的空間非常大,且增長速度快,因此在硬件層面上,應(yīng)該使用分布式存儲、對象存儲等。

二、相同之處如下:

傳統(tǒng)業(yè)務(wù)場景與大模型場景,都需要充足的數(shù)據(jù)存儲空間,且存儲設(shè)備都需要具備高可用、高性能、高吞吐、穩(wěn)定性強(qiáng)的特點(diǎn)。

THEEND

最新評論(評論僅代表用戶觀點(diǎn))

更多
暫無評論