如何通過管理非結構化數(shù)據(jù)來提升性能并降低成本

Marc Staimer
非結構化數(shù)據(jù)是所有數(shù)據(jù)中增長速度最快的。根據(jù)IDC的數(shù)據(jù),它正在以61%的復合年增長率增長,到2025年將占全球數(shù)據(jù)的80%。對于許多大型IT企業(yè)而言,在不久前就已經超過了這一標準。

非托管、非結構化數(shù)據(jù)是否堵塞了企業(yè)的主存儲?為了控制這種成本高且性能低下的情況,企業(yè)需要進行經濟高效的管理非結構化數(shù)據(jù)。

非結構化數(shù)據(jù)是所有數(shù)據(jù)中增長速度最快的。根據(jù)IDC的數(shù)據(jù),它正在以61%的復合年增長率增長,到2025年將占全球數(shù)據(jù)的80%。對于許多大型IT企業(yè)而言,在不久前就已經超過了這一標準。

非結構化數(shù)據(jù)的增長不再受文件,電子表格,演示文稿,照片,視頻和音頻等通常文件的驅動。當今其增長背后的動力來自日志,物聯(lián)網設備,社交媒體,傳感器,元數(shù)據(jù)和搜索引擎查詢等。

屠龍者咨詢公司的調查顯示,企業(yè)中的大多數(shù)非結構化數(shù)據(jù)是涼數(shù)據(jù)(已使用30天以上且不經常訪問)或冷數(shù)據(jù)(已使用90天以上且罕有訪問)。但是,它位于昂貴的主存儲上,不斷消耗預算。

管理非結構化數(shù)據(jù)的挑戰(zhàn)在于如何以既經濟又高效的方式實現(xiàn)。非結構化數(shù)據(jù)不容易分類或建立索引,也不容易存儲在傳統(tǒng)數(shù)據(jù)庫中。此外,它通常不是源自具備分析能力的數(shù)據(jù)庫,例如JSON數(shù)據(jù)庫、key-value數(shù)據(jù)庫和XML數(shù)據(jù)庫。這意味著這些數(shù)據(jù)必須被提取,轉換并加載到一個有用的數(shù)據(jù)庫中。這是一個勞動密集,耗時且容易出錯的過程,需要腳本或外部服務提供商。移動數(shù)據(jù)還可以創(chuàng)建數(shù)據(jù)的多個副本,這意味著會有更多的存儲空間,機架空間,交換機端口,軟件許可證,電源,散熱,電纜,收發(fā)器,分配的開銷和管理員。那么這在經濟上沒有任何意義。

是否要管理非結構化數(shù)據(jù)

非結構化數(shù)據(jù)的常見處理方式是根本不對其進行管理。許多IT商店選擇增加其主存儲系統(tǒng)的容量,而不是對非結構化數(shù)據(jù)進行分類,管理,分析甚至歸檔。他們認為,如果有需要,數(shù)據(jù)就在那兒,但是可能很難找到。這種方法的問題在于它在財務上是不可持續(xù)的,原因有如下幾個。

第一個原因是數(shù)據(jù)會消耗容量---通常是主存儲容量。而且,一旦消耗掉了,該容量就無法用于其他數(shù)據(jù)。主存儲是最昂貴的存儲,通常由某種類型的閃存SSD介質組成。存儲系統(tǒng)軟件和許多其它類型的軟件(如備份和復制)都是基于容量購買許可或訂閱的,這就增加了非結構化數(shù)據(jù)的成本,即使是非結構化數(shù)據(jù)未被訪問時也是如此。

所有存儲系統(tǒng)必須每3-5年更新一次。當一個系統(tǒng)升級,新系統(tǒng)必須包括所有現(xiàn)有的非結構化數(shù)據(jù),以及在新系統(tǒng)使用壽命期間存儲的任何數(shù)據(jù),這就增加了更多的基礎設施和成本。同時,需要將數(shù)據(jù)從舊存儲系統(tǒng)遷移到新存儲系統(tǒng)。這需要時間、精力、軟件或腳本。它消耗的不僅僅是主存儲空間,還消耗二級存儲,因為所有存儲的非結構化數(shù)據(jù)都必須進行備份。除了備份非結構化數(shù)據(jù)的成本外,更大的成本是從中斷中恢復數(shù)據(jù)。恢復涼數(shù)據(jù)和冷數(shù)據(jù)所花費的時間可能會延遲系統(tǒng)的恢復和運行,這個過時的過程會增加更多成本。

將非結構化數(shù)據(jù)保存在主存儲上造成問題的另一個原因是全球的隱私法律法規(guī),如《加州消費者隱私法》、《歐盟通用數(shù)據(jù)保護條例》、日本的《個人信息保護法》和泰國的《個人數(shù)據(jù)保護法》。是否遵從是沒有余地可選擇的,如果不遵從會產生嚴重的經濟后果。這意味著IT組織必須知道他們所保存的非結構化數(shù)據(jù)中是否包含個人身份信息(PII)及其內容。

非結構化數(shù)據(jù)管理工具

管理非結構化數(shù)據(jù)以優(yōu)化性能和降低成本的關鍵是捕獲,收集,解析和分析元數(shù)據(jù)。在某些情況下,例如PII,這意味著需要分析內容本身。有幾家公司提供了旨在管理非結構化數(shù)據(jù)及其成本的產品和服務。這些產品包括Aparavi,InfiniteIO,open source iRODs,Komprise,Spectra Logic StorCycle等。

正確完成非結構化數(shù)據(jù)管理后,一切都會以良好的方式發(fā)生變化。數(shù)據(jù)從昂貴的主存儲中移動,存檔或刪除,轉移到更具成本效益的二級存儲,云存儲或磁帶存儲中。數(shù)據(jù)管理軟件根據(jù)非結構化數(shù)據(jù)的特征和性能要求確定將其移動到何處。通過客戶端軟件,符號鏈接,全局名稱空間或它們的組合來維護訪問。

這些智能和自主的數(shù)據(jù)管理系統(tǒng)具有訪問和分類非結構化數(shù)據(jù)的不同方法。他們使用管理特權(iROD,Komprise,Spectra Logic,Starfish,StrongBox)安裝文件或對象存儲,看起來像交換機一樣位于數(shù)據(jù)路徑中(InfiniteIO),或者運行在捕獲元數(shù)據(jù)的計算系統(tǒng)中(Aparavi),對內容進行分類,復制,移動,歸檔和刪除數(shù)據(jù)。這樣可以減少在主存儲中消耗的容量以及在二級存儲中備份或復制的數(shù)據(jù)。

如何選擇非結構化數(shù)據(jù)管理系統(tǒng)

將數(shù)據(jù)從昂貴的主存儲轉移到成本較低的存儲后,可以輕松訪問它們,而無需重新存儲原始存儲中的數(shù)據(jù)。它對數(shù)據(jù)進行分類,實現(xiàn)基于策略的移動和存儲,并使存儲系統(tǒng)商品化。

選擇最佳的智能或自主非結構化數(shù)據(jù)管理系統(tǒng)需要知識和研究。企業(yè)需要回答以下五個有關企業(yè)的需求和正在尋找的產品的問題:

1、隨著時間的推移,將移動或遷移多少數(shù)據(jù)?

2、是否需要元數(shù)據(jù)和數(shù)據(jù)索引?

3、需要哪些級別的可擴縮性和性能?需要一個可擴展至艾字節(jié)的系統(tǒng),還是一個PB級的系統(tǒng)就足夠了?

4、希望管理系統(tǒng)的自動化程度,簡單性和直觀性如何?

5、最后,每個系統(tǒng)如何獲得許可或訂閱?雖然其中大多數(shù)都是按每太字節(jié)收費的,但收費標準取決于運行該軟件的物理機或虛擬機中的內核數(shù)。這關系到總擁有成本。

如果做得好,管理非結構化數(shù)據(jù)的總成本應該低于以前的完全不管理的方法。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論