數(shù)據(jù)湖的發(fā)展趨勢將給企業(yè)帶來什么

編譯/李睿
隨后很多人質(zhì)疑組織是在創(chuàng)建具有業(yè)務(wù)價(jià)值的數(shù)據(jù)湖,還是創(chuàng)建價(jià)值有限或沒有價(jià)值的數(shù)據(jù)沼澤。有鑒于此,行業(yè)專家Marco Iansiti和Karim Lakhani建議說,“數(shù)據(jù)湖(其中的數(shù)據(jù)是原始來源)是數(shù)據(jù)平臺(tái)的一部分,數(shù)據(jù)從下到上流動(dòng)……數(shù)據(jù)平臺(tái)聚合、清理、精煉和處理在數(shù)據(jù)湖中捕獲的數(shù)據(jù)”。

“數(shù)據(jù)湖”(Data Lake)這一術(shù)語已經(jīng)推出了將近10年的時(shí)間,如今已經(jīng)成為從大型數(shù)據(jù)存儲(chǔ)庫中的數(shù)據(jù)挖掘中形成競爭性見解的關(guān)鍵工具。

2345截圖20201119114036.png

Pentaho公司創(chuàng)始人James Dixon在2010年創(chuàng)造了“數(shù)據(jù)湖”這個(gè)術(shù)語。他對(duì)“數(shù)據(jù)湖”給出了這樣描述:“如果將數(shù)據(jù)集市看作是一個(gè)瓶裝水的儲(chǔ)存地——經(jīng)過清潔、包裝和結(jié)構(gòu)化以便消費(fèi),那么數(shù)據(jù)湖就是在自然狀態(tài)下的一個(gè)大型水體。”

隨后很多人質(zhì)疑組織是在創(chuàng)建具有業(yè)務(wù)價(jià)值的數(shù)據(jù)湖,還是創(chuàng)建價(jià)值有限或沒有價(jià)值的數(shù)據(jù)沼澤。有鑒于此,行業(yè)專家Marco Iansiti和Karim Lakhani建議說,“數(shù)據(jù)湖(其中的數(shù)據(jù)是原始來源)是數(shù)據(jù)平臺(tái)的一部分,數(shù)據(jù)從下到上流動(dòng)……數(shù)據(jù)平臺(tái)聚合、清理、精煉和處理在數(shù)據(jù)湖中捕獲的數(shù)據(jù)”。

考慮到這種更為精細(xì)的觀點(diǎn),那么問題是:數(shù)據(jù)湖在其炒作周期內(nèi)發(fā)揮了什么作用?為了回答這個(gè)問題,行業(yè)媒體征求了一些首席信息官和行業(yè)專家的意見。

數(shù)據(jù)湖產(chǎn)生了什么結(jié)果?

首席技術(shù)官Steve Jones說:“我所在的組織部署了很多數(shù)據(jù)湖,通常它們有三點(diǎn)基礎(chǔ):(1)彌補(bǔ)傳統(tǒng)企業(yè)數(shù)據(jù)倉庫的不一致的鴻溝;(2)使機(jī)器學(xué)習(xí)和人工智能更容易實(shí)施;(3)數(shù)據(jù)的提取和整理實(shí)現(xiàn)產(chǎn)業(yè)化。這樣做的目的是讓組織專注于結(jié)果,而IT團(tuán)隊(duì)專注于供應(yīng)數(shù)據(jù),而不是將系統(tǒng)集成到數(shù)據(jù)集市/倉庫中。如果有了這些,那么用例就會(huì)變得無窮無盡。”

作為數(shù)據(jù)湖實(shí)施者,首席信息官Deb Gildersleeve表示,她所在的組織已經(jīng)為業(yè)務(wù)部門實(shí)現(xiàn)了特定主題的數(shù)據(jù)湖,它們在獲取見解并為企業(yè)用戶提供訪問方面確實(shí)起到了很大作用。”

首席信息官Jim Russell表示,也采取了類似的自助服務(wù)方法,并部署了適用于供應(yīng)商的數(shù)據(jù)湖。他說,“它是我們?nèi)瓿墒煊?jì)劃的一部分,以修復(fù)數(shù)據(jù)并開始查看流程。其驅(qū)動(dòng)力很難判斷,因?yàn)樗砹宋覀兘M織的總體范式轉(zhuǎn)變。因此,它證明了這一點(diǎn),但并不令我們感到驚訝。”

同時(shí),企業(yè)架構(gòu)師Craig Milroy表示,“我們已在不同的平臺(tái)(AWS、Azure和Cloudera)上分別繼承了一個(gè)數(shù)據(jù)湖。每個(gè)領(lǐng)域都專注于從數(shù)字到5G的特定業(yè)務(wù)成果。我認(rèn)為我們正處于價(jià)值驅(qū)動(dòng)之旅的起點(diǎn)。要使業(yè)務(wù)價(jià)值和成果與技術(shù)投資保持一致,還有很多工作要做。”

與此同時(shí),首席信息官M(fèi)elissa Woo認(rèn)為從其數(shù)據(jù)湖中獲得的業(yè)務(wù)成果并不確定。她說:“我們的分析主管在數(shù)據(jù)湖變成現(xiàn)實(shí)之前就實(shí)施了一個(gè)數(shù)據(jù)湖,但是對(duì)于我們的組織而言,并沒有那么多需求。我們的客戶仍然需要傳統(tǒng)的數(shù)據(jù)倉庫和報(bào)告編寫功能。我們公司總裁仍然對(duì)建立適當(dāng)?shù)幕A(chǔ)設(shè)施可能產(chǎn)生的結(jié)果非常感興趣,并且非常喜歡數(shù)據(jù)湖這一術(shù)語。”

更糟糕的是,首席信息官Ben Haines說:“許多數(shù)據(jù)湖變成了數(shù)據(jù)沼澤,浪費(fèi)了數(shù)據(jù)機(jī)會(huì)。”以上的討論導(dǎo)致Mark Thiele提出一個(gè)問題,“數(shù)據(jù)湖是否取代了其他數(shù)據(jù)存儲(chǔ)庫,還是只是一種增值服務(wù)?”

與數(shù)據(jù)倉庫相比,數(shù)據(jù)湖面臨的最大機(jī)遇是什么?

對(duì)于電信行業(yè)高管Mil Roy來說,數(shù)據(jù)湖提供了對(duì)來自5G終端的大量非結(jié)構(gòu)化數(shù)據(jù)的支持。這不適合傳統(tǒng)的數(shù)據(jù)倉庫方法,尤其是在線/實(shí)時(shí)流式數(shù)據(jù)和分析功能。他表示,針對(duì)特定業(yè)務(wù)需求,將適合特定用途的工作負(fù)載部署到數(shù)據(jù)湖。

Stephen diFilipo對(duì)Milroy的建議表示認(rèn)同,并表示,“數(shù)據(jù)湖提供了收集、存儲(chǔ)和分析所有數(shù)據(jù)、格式、非結(jié)構(gòu)化元數(shù)據(jù)的功能,而這是傳統(tǒng)數(shù)據(jù)倉庫存儲(chǔ)庫無法實(shí)現(xiàn)的。”

與類似的觀點(diǎn)一樣,Gildersleeve認(rèn)為數(shù)據(jù)湖的最大機(jī)會(huì)是能夠應(yīng)用焦點(diǎn),并比傳統(tǒng)數(shù)據(jù)倉庫移動(dòng)更快。這樣可以使更多人訪問數(shù)據(jù)。

首席技術(shù)官Steve Jones在這一點(diǎn)上斷言,數(shù)據(jù)湖和數(shù)據(jù)倉庫之間的區(qū)別在于能夠從“更改數(shù)據(jù)捕獲”轉(zhuǎn)變?yōu)樗懈牡臍v史。使用數(shù)據(jù)湖,無需僅提取報(bào)告所需的數(shù)據(jù),就可以捕獲整個(gè)歷史記錄。

Gartner公司分析師Nick Heudecker對(duì)這一討論進(jìn)行了總結(jié),他說:“數(shù)據(jù)湖應(yīng)被視為勘探系統(tǒng)。它們?yōu)閿?shù)據(jù)倉庫方法提供了補(bǔ)充。”

數(shù)據(jù)湖項(xiàng)目成敗的驅(qū)動(dòng)因素是什么?

對(duì)于成功的數(shù)據(jù)湖項(xiàng)目的性質(zhì),首席信息官們有著不同的看法。一些人認(rèn)為,當(dāng)多個(gè)業(yè)務(wù)組數(shù)據(jù)合并以創(chuàng)建融合而不是歷史報(bào)告的總和時(shí),數(shù)據(jù)湖是最好的利用方式。首席信息官M(fèi)elissa說,“這已成為我們解決問題的一部分。如果不同的群體不愿意提供數(shù)據(jù),則沒有什么價(jià)值。顯然,分析的成熟度仍然很重要。但是,成功完成這一任務(wù)的組織將成為分析公司或競爭對(duì)手。”

首席信息官M(fèi)cBreen說,“當(dāng)企業(yè)能夠?yàn)楣餐哪康亩献鲿r(shí),這就像來自許多設(shè)備、合作伙伴和重要領(lǐng)域的數(shù)據(jù)流,但我們只是從頭開始。對(duì)于人工智能和機(jī)器學(xué)習(xí)來說,這可能是使用它們進(jìn)行增強(qiáng)。”就成功或失敗的驅(qū)動(dòng)因素而言,首席信息官幫助執(zhí)行團(tuán)隊(duì)理解有價(jià)值的數(shù)據(jù)湖和數(shù)據(jù)沼澤之間的區(qū)別是很重要的。常見問題包括:

(1)缺乏業(yè)務(wù)定義的用例/結(jié)果。

(2)缺乏人際交往能力。

(3)資源不足。

(4)過高的期望。

(5)數(shù)據(jù)素養(yǎng)和流利性。

(6)數(shù)據(jù)質(zhì)量。

(7)數(shù)據(jù)治理。

Heudecker表示:“數(shù)據(jù)湖部署經(jīng)常遇到困難,因?yàn)樯形创_定目標(biāo)受眾。這會(huì)影響可用的工具,所需的數(shù)據(jù)素養(yǎng)水平等等。而認(rèn)為數(shù)據(jù)湖只是一種服務(wù)的觀點(diǎn)是不正確的。”

隨著首席數(shù)據(jù)官的出現(xiàn),首席信息官可以在哪里增加最大價(jià)值?

diFilipo建議說,“企業(yè)的首席信息官也將成為為首席數(shù)據(jù)官提供數(shù)據(jù)平臺(tái)的數(shù)據(jù)資產(chǎn)經(jīng)理。”

Craig Milroy表示,由于這個(gè)原因,首席信息官們應(yīng)該讓分析、數(shù)據(jù)科學(xué)更容易獲得高質(zhì)量、更容易理解的數(shù)據(jù),從而推動(dòng)業(yè)務(wù)價(jià)值和成果。

結(jié)語

首席信息官在數(shù)據(jù)管理中繼續(xù)發(fā)揮著重要作用。數(shù)據(jù)湖為他們提供了增值的潛力。顯然,隨著數(shù)據(jù)湖的應(yīng)用結(jié)果喜憂參半,許多組織在業(yè)務(wù)上面臨失敗。但是對(duì)于那些將數(shù)據(jù)湖視為生成數(shù)據(jù)平臺(tái)或用數(shù)據(jù)結(jié)構(gòu)分析的一些組織來說,加速業(yè)務(wù)轉(zhuǎn)型付出一些代價(jià)都是值得的。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無評(píng)論