啦啦啦最新视频在线观看免费,亚洲国产中文区男人本色vr

與傳統(tǒng)業(yè)務(wù)場景相比，大模型對數(shù)據(jù)存儲資源的需求有哪些異同？

2024-02-28 10:52

twt企業(yè)IT社區(qū)

大模型需要快速處理和分析大量數(shù)據(jù)，對數(shù)據(jù)處理速度的要求更高。因此，數(shù)據(jù)存儲系統(tǒng)需要具備高性能的讀寫能力和數(shù)據(jù)處理能力。

本文來自微信公眾號“twt企業(yè)IT社區(qū)”。

與傳統(tǒng)業(yè)務(wù)場景相比，大模型對數(shù)據(jù)存儲資源的需求有哪些相同與不同之處？

大模型作為新的應(yīng)用范式，對數(shù)據(jù)存儲的需求與傳統(tǒng)業(yè)務(wù)有所不同。本議題交流核心是分析大模型應(yīng)用對數(shù)據(jù)存儲需求的特殊性在哪些方面？又有哪些與傳統(tǒng)業(yè)務(wù)數(shù)據(jù)存儲需求一致的地方？

問題來自社區(qū)會員 wanggeng某銀行系統(tǒng)運(yùn)維工程師，以下內(nèi)容來自社區(qū)同行探討

朱祥磊某移動公司系統(tǒng)架構(gòu)師：

相同之處：

1.數(shù)據(jù)存儲需求量大：無論是傳統(tǒng)業(yè)務(wù)場景還是大模型場景，都需要大規(guī)模存儲數(shù)據(jù)，以滿足業(yè)務(wù)需求。

2.數(shù)據(jù)安全性要求高：對于任何業(yè)務(wù)場景，數(shù)據(jù)的安全性和隱私保護(hù)都是重要的考慮因素。大模型也不例外，需要確保數(shù)據(jù)的安全性。

3.數(shù)據(jù)質(zhì)量很重要：無論是傳統(tǒng)業(yè)務(wù)還是大模型應(yīng)用，都需要確保數(shù)據(jù)的準(zhǔn)確性和完整性，以提高模型的準(zhǔn)確性和可靠性。

不同之處：

1.數(shù)據(jù)規(guī)模差異：傳統(tǒng)業(yè)務(wù)場景通常處理的數(shù)據(jù)量較小，而大模型則需要處理大規(guī)模的數(shù)據(jù)，可能達(dá)到數(shù)十TB甚至數(shù)百TB。

2.數(shù)據(jù)處理速度要求：大模型需要快速處理和分析大量數(shù)據(jù)，對數(shù)據(jù)處理速度的要求更高。因此，數(shù)據(jù)存儲系統(tǒng)需要具備高性能的讀寫能力和數(shù)據(jù)處理能力。

3.數(shù)據(jù)存儲類型多樣化：在大模型場景中，除了結(jié)構(gòu)化數(shù)據(jù)外，還需要處理大量的非結(jié)構(gòu)化數(shù)據(jù)，如圖像、音頻和視頻等。因此，數(shù)據(jù)存儲系統(tǒng)需要支持多種類型的存儲需求。

4.數(shù)據(jù)存儲效率要求：由于大模型需要進(jìn)行大量迭代和訓(xùn)練，對數(shù)據(jù)存儲的效率和響應(yīng)時間有更高的要求。因此，數(shù)據(jù)存儲系統(tǒng)需要具備高效率和低延遲的特點(diǎn)。

5.數(shù)據(jù)存儲可擴(kuò)展性：大模型的應(yīng)用和發(fā)展通常需要不斷擴(kuò)展數(shù)據(jù)存儲容量和性能。因此，數(shù)據(jù)存儲系統(tǒng)需要具備可擴(kuò)展性，能夠隨著業(yè)務(wù)的發(fā)展而靈活擴(kuò)展。

綜上所述，雖然傳統(tǒng)業(yè)務(wù)場景和大模型場景在數(shù)據(jù)存儲資源需求方面有一些共同點(diǎn)，但大模型對數(shù)據(jù)規(guī)模、處理速度、存儲類型、效率和可擴(kuò)展性等方面有更高的要求。

國金證券AI算法工程師：

相同之處：

數(shù)據(jù)量大：大模型和傳統(tǒng)業(yè)務(wù)場景都需要處理大量數(shù)據(jù)，因此雙方對于數(shù)據(jù)存儲資源的需求量都很大。

安全性：數(shù)據(jù)安全性對于大模型和傳統(tǒng)業(yè)務(wù)場景都是重要關(guān)注點(diǎn)，尤其涉及內(nèi)部私有數(shù)據(jù)和敏感數(shù)據(jù)。

不同之處：

存儲方式：大模型需要特定的存儲方式來支持高效讀取模型參數(shù)和訓(xùn)練數(shù)據(jù)，而傳統(tǒng)業(yè)務(wù)場景可能更多使用傳統(tǒng)數(shù)據(jù)庫和文件存儲方式。

訪問模式：大模型可能需要頻繁的讀寫訪問，而傳統(tǒng)業(yè)務(wù)場景通常設(shè)計為批量處理和定時更新。

數(shù)據(jù)結(jié)構(gòu)：大模型可能需要更復(fù)雜的數(shù)據(jù)結(jié)構(gòu)來存儲模型參數(shù)和訓(xùn)練數(shù)據(jù)，而傳統(tǒng)業(yè)務(wù)場景更注重結(jié)構(gòu)化數(shù)據(jù)存儲。

綜上所述，雖然大模型和傳統(tǒng)業(yè)務(wù)場景在數(shù)據(jù)存儲資源需求方面有共通之處，如數(shù)據(jù)量大和安全性要求，但它們在存儲方式、訪問模式和數(shù)據(jù)結(jié)構(gòu)等方面存在明顯差異。理解這些相同與不同之處有助于有效滿足大模型對數(shù)據(jù)存儲資源的特殊需求。

匿名用戶：

1、海量存儲：大模型的訓(xùn)練需要海量的高質(zhì)量數(shù)據(jù)，但是高質(zhì)量數(shù)據(jù)往往從更海量的數(shù)據(jù)中篩選清洗而來，所以對于原始數(shù)據(jù)、清洗后數(shù)據(jù)的存儲、分類管理是一個重要變化。

2、大規(guī)模異構(gòu)存儲：當(dāng)前路線的多模態(tài)大模型的訓(xùn)練仍然需要異構(gòu)數(shù)據(jù)，需要類似于數(shù)據(jù)湖的基礎(chǔ)設(shè)施作為異構(gòu)數(shù)據(jù)的集成管理。

3、日志存儲的可控性：大模型服務(wù)的可控性一直是大模型應(yīng)用的重要問題。隨之而來的，海量異構(gòu)的服務(wù)日志，如何進(jìn)行日志記錄、篩選、反饋處理以及內(nèi)容后審查等都與以往服務(wù)存在較大的不同。

4、知識存儲：RAG的向量化存儲、圖存儲等，均是隨著大模型技術(shù)發(fā)展而發(fā)展的，需要考慮異構(gòu)知識的統(tǒng)一存儲和管理等新問題。

Moson建信金融科技架構(gòu)師：

大模型對數(shù)據(jù)存儲資源的需求與傳統(tǒng)業(yè)務(wù)場景相比，既有相同之處也有不同之處。

相同之處在于，無論是大模型還是傳統(tǒng)業(yè)務(wù)場景，都需要數(shù)據(jù)存儲資源來存儲和管理數(shù)據(jù)。數(shù)據(jù)存儲資源需要具備可靠性、可用性和擴(kuò)展性等特點(diǎn)，以確保數(shù)據(jù)的準(zhǔn)確性和完整性，以及滿足業(yè)務(wù)增長的需求。

不同之處在于，大模型對數(shù)據(jù)存儲資源的需求更為復(fù)雜和多樣化。大模型需要處理的數(shù)據(jù)量通常更大，數(shù)據(jù)類型更為復(fù)雜，需要進(jìn)行高效的讀寫操作和數(shù)據(jù)處理。此外，大模型還需要支持各種算法和計算需求，包括深度學(xué)習(xí)、機(jī)器學(xué)習(xí)等，對存儲性能和I/O吞吐量的要求更高。

因此，大模型需要更加專業(yè)和高效的存儲解決方案，例如分布式存儲系統(tǒng)、高性能存儲設(shè)備等，以滿足其對數(shù)據(jù)存儲資源的需求。同時，大模型也需要更加靈活和可擴(kuò)展的存儲架構(gòu)，以適應(yīng)不斷變化的數(shù)據(jù)量和計算需求。

jinhaibo昆侖銀行技術(shù)管理：

相同之處：

1、存儲容量：無論是傳統(tǒng)業(yè)務(wù)還是大模型，都需要一定規(guī)模的存儲容量來存儲數(shù)據(jù)。

2、讀取性能：在許多應(yīng)用中，快速的數(shù)據(jù)讀取速度是必要的，無論是傳統(tǒng)業(yè)務(wù)還是大模型。

3、數(shù)據(jù)一致性和完整性需求：無論是傳統(tǒng)業(yè)務(wù)還是大模型，都需要保證數(shù)據(jù)的準(zhǔn)確性和完整性，以避免數(shù)據(jù)錯誤或不一致導(dǎo)致的問題。

主要區(qū)別在以下方面：

1、數(shù)據(jù)類型：傳統(tǒng)業(yè)務(wù)通常處理結(jié)構(gòu)化數(shù)據(jù)，大模型需要處理各種類型的數(shù)據(jù)，包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。需要不同類型的存儲解決方案，如對象存儲或分布式文件系統(tǒng)。

2、計算資源：大模型處理的數(shù)據(jù)量較大，需要更多的計算資源。對存儲的性能需求增加，需要更高的I/O吞吐量、更快的處理速度等。

3、數(shù)據(jù)備份：由于大模型需要處理大量數(shù)據(jù)，考慮到數(shù)據(jù)備份的成本和數(shù)據(jù)本身的價值，需要針對不同價值的數(shù)據(jù)制定不同的備份策略，以權(quán)衡數(shù)據(jù)的可用性和成本。

xuyy秦皇島銀行數(shù)據(jù)架構(gòu)師：

大模型與傳統(tǒng)數(shù)據(jù)場景，均需具備良好數(shù)據(jù)基礎(chǔ)與數(shù)據(jù)質(zhì)量，且對數(shù)據(jù)安全性有較高的要求。

大型模型的到來對數(shù)據(jù)和存儲提出了新的要求。從成本的角度來看，數(shù)據(jù)和數(shù)據(jù)的存儲過程和處理過程越來越重要。不僅數(shù)據(jù)量增加，數(shù)據(jù)處理過程也更加復(fù)雜，對性能的要求也越來越高，其附加值也越來越高。

大模型要求算力和存力的建設(shè)需要有最佳的計算存量比例，大模型不能靠計算能力做好。計算能力建設(shè)過多，存力建設(shè)過少，會導(dǎo)致計算能力閑置，資源浪費(fèi)。企業(yè)需要開展計算能力網(wǎng)絡(luò)優(yōu)化行動，加大高性能智能計算供給，加強(qiáng)先進(jìn)存儲產(chǎn)品部署，加快構(gòu)建云端協(xié)同、計算、存儲、運(yùn)輸一體化、多層次算力基礎(chǔ)設(shè)施體系。

chinesezzqiang信息技術(shù)經(jīng)理：

大模型對數(shù)據(jù)存儲資源的需求非常高，主要體現(xiàn)在以下幾個方面：

相同之處：

存儲容量需求大：無論是哪種類型的大模型，都需要存儲大量的數(shù)據(jù)，包括訓(xùn)練數(shù)據(jù)、模型參數(shù)等。

高性能存儲需求：大模型的訓(xùn)練和推理需要高速讀寫存儲器，以支持實時處理和快速響應(yīng)。

持久性需求：大模型訓(xùn)練和推理產(chǎn)生的數(shù)據(jù)需要長期保存，以便后續(xù)分析和挖掘。

可擴(kuò)展性需求：隨著大模型的不斷發(fā)展，數(shù)據(jù)量會不斷增加，存儲系統(tǒng)需要具備可擴(kuò)展性，以適應(yīng)數(shù)據(jù)量的增長。

不同之處：

數(shù)據(jù)類型差異：不同類型的大模型（如NLP、CV、語音等）需要處理的原始數(shù)據(jù)格式不同，因此對存儲系統(tǒng)的數(shù)據(jù)類型需求也有所不同。

I/O性能要求：某些大模型需要高速I/O性能來支持實時的訓(xùn)練或推理，而其他模型可能對I/O性能要求較低。

數(shù)據(jù)一致性需求：一些大模型需要高一致性的數(shù)據(jù)存儲來保證訓(xùn)練和推理的準(zhǔn)確性，而其他模型可能對數(shù)據(jù)一致性的要求較低。

成本考慮：對于一些經(jīng)濟(jì)高效的模型，存儲成本也是需要考慮的重要因素。

綜上所述，大模型對數(shù)據(jù)存儲資源的需求具有相似性和差異性。在為特定大模型選擇存儲系統(tǒng)時，需要綜合考慮其具體需求和約束。

一桶漿糊存儲解決方案架構(gòu)師：

相同點(diǎn)上面幾位老師講的比較多了，從大模型的生命周期角度補(bǔ)充一下對存儲的一些需求：

1、數(shù)據(jù)的采集和處理階段，比如網(wǎng)絡(luò)爬取、清洗標(biāo)注等，這個階段主要是要求存儲支持豐富的接入?yún)f(xié)議以及海量的存儲空間，高吞吐量。

2、模型的開發(fā)設(shè)計階段，該階段主要涉及并行開發(fā)，需要數(shù)據(jù)存儲具備各個兼容各平臺能力，比如大數(shù)據(jù)平臺、容器平臺等。

3、模型訓(xùn)練階段，主要是快速讀取訓(xùn)練集及checkpoint的保存和讀取，需要存儲提供非常高效且穩(wěn)定的數(shù)據(jù)讀寫能力。

4、模型推理部署階段，此階段我理解主要是計算密集型，但對模型加載和保存有需求，對存儲的需求是高性能、高并發(fā)。同時具備較高的可靠性。

nxdy系統(tǒng)運(yùn)維工程師：

一、傳統(tǒng)業(yè)務(wù)場景和大模型場景在數(shù)據(jù)存儲資源需求的不同之處如下：

傳統(tǒng)業(yè)務(wù)場景，包括交易類的、數(shù)據(jù)分析類等，這些業(yè)務(wù)場景主要使用的是關(guān)系型的結(jié)構(gòu)化數(shù)據(jù)，通俗來講，就是二維表格。這些關(guān)系型數(shù)據(jù)在軟件層面主要使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫進(jìn)行存儲，在硬件層面可以放在集中式塊存儲、文件存儲等存儲設(shè)備上。

大語言模型，顧名思義，以處理自然語言文字信息為主，因此它所使用的數(shù)據(jù)主要不是關(guān)系型結(jié)構(gòu)化數(shù)據(jù)，而是海量的語言文字?jǐn)?shù)據(jù)，可以使用文本數(shù)據(jù)庫、向量數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)湖等方式進(jìn)行存儲，因為語言文字?jǐn)?shù)據(jù)具有海量的特性，所需要的空間非常大，且增長速度快，因此在硬件層面上，應(yīng)該使用分布式存儲、對象存儲等。

二、相同之處如下：

傳統(tǒng)業(yè)務(wù)場景與大模型場景，都需要充足的數(shù)據(jù)存儲空間，且存儲設(shè)備都需要具備高可用、高性能、高吞吐、穩(wěn)定性強(qiáng)的特點(diǎn)。

THEEND

免責(zé)聲明：凡注明為其它來源的信息均轉(zhuǎn)自其它平臺，由網(wǎng)友自主投稿和發(fā)布、編輯整理上傳，對此類作品本站僅提供交流平臺，不為其版權(quán)負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負(fù)任何法律責(zé)任。若有來源標(biāo)注錯誤或侵犯了您的合法權(quán)益，請作者持權(quán)屬證明與本站聯(lián)系，我們將及時更正、刪除，謝謝。聯(lián)系郵箱：xiali@infoobs.com

本月熱門

精選文章

熱點(diǎn)資訊

元宇宙通過廣闊的商業(yè)策略徹底改變零售業(yè)的十大驚人方式

與傳統(tǒng)業(yè)務(wù)場景相比，大模型對數(shù)據(jù)存儲資源的需求有哪些異同？

2024 信息化觀察網(wǎng)

長按掃描二維碼閱讀原文

與傳統(tǒng)業(yè)務(wù)場景相比，大模型對數(shù)據(jù)存儲資源的需求有哪些異同？

最新評論（評論僅代表用戶觀點(diǎn)）

從光纖到以太網(wǎng)：如何轉(zhuǎn)換網(wǎng)絡(luò)以實現(xiàn)最大數(shù)據(jù)傳輸

算力經(jīng)濟(jì)：我國經(jīng)濟(jì)增長新引擎

電子郵箱泄密的途徑到底有哪些？

工信部：三方面持續(xù)發(fā)力構(gòu)建全國一體化算力體系

本月熱門

云計算的江湖，風(fēng)云再起

揭秘，IOTE國際物聯(lián)網(wǎng)展2025年巡展預(yù)告!

防勒索病毒攻擊關(guān)鍵措施

匯聚行業(yè)精英，探討前沿技術(shù) 第十九屆汽車涂裝工藝技術(shù)研討會即將啟幕!

網(wǎng)博會革新升級：“區(qū)域頻道”精準(zhǔn)選型引領(lǐng)，引領(lǐng)智能制造新風(fēng)潮

萬億賽道!AI算力趨勢發(fā)展深度分析 2024

精選文章

如何做網(wǎng)站安全防范之防止被黑

共繪藍(lán)圖共話未來—投資四川·2023攀枝花城市發(fā)展暨土地資源推介會在上海站成功舉辦

創(chuàng)新不止!智邦國際榮獲數(shù)智一體化影響力企業(yè)/人物兩項大獎

杭州一多低代碼平臺榮獲“2023中國高等教育行業(yè)數(shù)字化影響力”大獎?

再獲認(rèn)可!新一代國創(chuàng)數(shù)智云腦入選2022十大“數(shù)字大腦”優(yōu)秀產(chǎn)品

全天智能榮獲「2019中國信息技術(shù)大數(shù)據(jù)可視化+人工智能行業(yè)領(lǐng)軍企業(yè) 」年度獎項

熱點(diǎn)資訊

共筑數(shù)字未來|深度解析數(shù)字化轉(zhuǎn)型與建設(shè)的戰(zhàn)略指南

數(shù)據(jù)要素X政策寶：引領(lǐng)企業(yè)和政策數(shù)據(jù)服務(wù)的新浪潮

政策寶|構(gòu)筑企業(yè)與政策間的高效數(shù)據(jù)通道，跑出惠企助企加速度

政策智能匹配與業(yè)務(wù)線索：企業(yè)騰飛的雙重動力引擎!

鼎好DH3煥新顏，美的樓宇科技助力中關(guān)村地標(biāo)綠色新生

元宇宙通過廣闊的商業(yè)策略徹底改變零售業(yè)的十大驚人方式

人工智能在農(nóng)產(chǎn)品行業(yè)的應(yīng)用和影響

與傳統(tǒng)業(yè)務(wù)場景相比，大模型對數(shù)據(jù)存儲資源的需求有哪些異同？

最新評論（評論僅代表用戶觀點(diǎn)）

欄目推薦

從光纖到以太網(wǎng)：如何轉(zhuǎn)換網(wǎng)絡(luò)以實現(xiàn)最大數(shù)據(jù)傳輸

算力經(jīng)濟(jì)：我國經(jīng)濟(jì)增長新引擎

電子郵箱泄密的途徑到底有哪些？

工信部：三方面持續(xù)發(fā)力構(gòu)建全國一體化算力體系

本月熱門

精選文章

熱點(diǎn)資訊

元宇宙通過廣闊的商業(yè)策略徹底改變零售業(yè)的十大驚人方式

人工智能在農(nóng)產(chǎn)品行業(yè)的應(yīng)用和影響

與傳統(tǒng)業(yè)務(wù)場景相比，大模型對數(shù)據(jù)存儲資源的需求有哪些異同？

電子郵箱泄密的途徑到底有哪些？