為什么85%的大數(shù)據(jù)項(xiàng)目都以失敗告終?

數(shù)據(jù)治理體系
熟悉大數(shù)據(jù)的人都知道,這個(gè)問(wèn)題是真實(shí)且嚴(yán)重的,而不完全是技術(shù)問(wèn)題。事實(shí)上,相對(duì)于本質(zhì)原因,技術(shù)是失敗的次要原因。以下是大數(shù)據(jù)項(xiàng)目失敗的四個(gè)主要原因,以及可以成功的四種方式。

360截圖16251112669372.png

本文來(lái)自數(shù)據(jù)治理體系。

2016年,Gartner估算約60%的大數(shù)據(jù)項(xiàng)目都會(huì)失敗。一年后,Gartner分析師Nick Heudecker表示,這個(gè)數(shù)據(jù)“過(guò)于保守”,大數(shù)據(jù)項(xiàng)目失敗率應(yīng)接近85%。直至現(xiàn)在他也是這樣認(rèn)為的。

并不只有Gartner這樣認(rèn)為,前微軟高管Bob Muglia告訴分析網(wǎng)站Datanami,“我找不到完全滿(mǎn)意的Hadoop客戶(hù)”。實(shí)際上,成功應(yīng)用Hadoop的客戶(hù)數(shù)量可能少于20個(gè),甚至可能少于10個(gè)。考慮到其存在時(shí)間以及行業(yè)投入,這個(gè)結(jié)果很令人震驚。

熟悉大數(shù)據(jù)的人都知道,這個(gè)問(wèn)題是真實(shí)且嚴(yán)重的,而不完全是技術(shù)問(wèn)題。事實(shí)上,相對(duì)于本質(zhì)原因,技術(shù)是失敗的次要原因。以下是大數(shù)據(jù)項(xiàng)目失敗的四個(gè)主要原因,以及可以成功的四種方式。

01四個(gè)主要的原因

大數(shù)據(jù)問(wèn)題1:整合不佳

Heudecker表示,大數(shù)據(jù)失敗背后存在著一個(gè)重要的技術(shù)問(wèn)題,那就是整合多個(gè)來(lái)源的孤立數(shù)據(jù),以實(shí)現(xiàn)企業(yè)所需的數(shù)據(jù)處理能力。建立與孤立傳統(tǒng)系統(tǒng)的連接并不容易。他說(shuō),整合成本是軟件成本的五到十倍。其中最大的問(wèn)題是簡(jiǎn)單集成:如何將多個(gè)數(shù)據(jù)源鏈接在一起?很多人選擇數(shù)據(jù)湖路線(xiàn),認(rèn)為這個(gè)方式很簡(jiǎn)單,但事實(shí)并非如此。

孤立數(shù)據(jù)是問(wèn)題的一部分??蛻?hù)告訴他,當(dāng)他們將數(shù)據(jù)從系統(tǒng)提取到像數(shù)據(jù)湖這樣的公共環(huán)境中后,卻無(wú)法弄清楚這些值的含義。“當(dāng)你將數(shù)據(jù)輸入數(shù)據(jù)湖時(shí),怎么知道數(shù)字3意味著什么?”Heudecker問(wèn)道。

普華永道(PwC)高級(jí)研究員Alan Morrison表示:“由于是在孤島中工作,或者創(chuàng)建的數(shù)據(jù)湖只是數(shù)據(jù)沼澤,所以他們能完成的工作只是冰山一角。”“他們不理解數(shù)據(jù)中的關(guān)系,這些關(guān)系需要挖掘或推斷,以便機(jī)器能夠充分解釋這些數(shù)據(jù)。另外,他們需要?jiǎng)?chuàng)建一個(gè)知識(shí)圖層,以便機(jī)器能夠解釋下面映射的所有實(shí)例數(shù)據(jù)。否則,數(shù)據(jù)湖只能是一個(gè)數(shù)據(jù)沼澤,”

大數(shù)據(jù)問(wèn)題2:不明確的目標(biāo)

大多數(shù)人以為企業(yè)在進(jìn)行大數(shù)據(jù)項(xiàng)目時(shí)會(huì)有明確的目標(biāo),但實(shí)際并不是這樣的。很多公司通常是先啟動(dòng)項(xiàng)目,然后才去想目標(biāo)。

數(shù)據(jù)集成軟件公司Talend的產(chǎn)品營(yíng)銷(xiāo)經(jīng)理Ray Christopher表示,“你必須認(rèn)真審視這個(gè)問(wèn)題。人們認(rèn)為他們可以將結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)連接起來(lái),從而獲得所需的信息。然而這必須提前確定目標(biāo),你想要什么樣的信息?”

企業(yè)應(yīng)用咨詢(xún)公司的首席分析師Joshua Greenbaum表示,困擾大數(shù)據(jù)和數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目的部分原因是指導(dǎo)標(biāo)準(zhǔn)通常是大量數(shù)據(jù)的積累,而不是解決業(yè)務(wù)問(wèn)題。

Greenbaum說(shuō),“如果將大量數(shù)據(jù)匯總在一起,就會(huì)得到數(shù)據(jù)轉(zhuǎn)儲(chǔ),可以稱(chēng)之為衛(wèi)生垃圾填埋場(chǎng)。這不是尋找解決方案的好方法。我一般建議客戶(hù)先決定需要優(yōu)先解決哪些業(yè)務(wù)問(wèn)題,然后查看可用數(shù)據(jù)的質(zhì)量,并在發(fā)現(xiàn)業(yè)務(wù)問(wèn)題后解決數(shù)據(jù)問(wèn)題。”

為什么大多大數(shù)據(jù)項(xiàng)目都失敗了?對(duì)于初學(xué)者來(lái)說(shuō),大數(shù)據(jù)項(xiàng)目領(lǐng)導(dǎo)者都缺乏遠(yuǎn)見(jiàn)。Morrison這樣認(rèn)為。大多數(shù)企業(yè)只考慮數(shù)值數(shù)據(jù)或黑盒子NLP和識(shí)別引擎,并進(jìn)行簡(jiǎn)單的文本挖掘和其他類(lèi)型的模式識(shí)別。

大數(shù)據(jù)問(wèn)題3:技能差距

很多時(shí)候,公司認(rèn)為他們?yōu)閿?shù)據(jù)倉(cāng)庫(kù)建立的內(nèi)部技能將轉(zhuǎn)化為大數(shù)據(jù),而事實(shí)并非如此。對(duì)于初學(xué)者來(lái)說(shuō),數(shù)據(jù)倉(cāng)庫(kù)和大數(shù)據(jù)以完全相反的方式處理數(shù)據(jù):數(shù)據(jù)倉(cāng)庫(kù)在寫(xiě)入時(shí)執(zhí)行模式,這意味著數(shù)據(jù)在進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)之前就會(huì)被處理和組織。

在大數(shù)據(jù)中,積累數(shù)據(jù)并應(yīng)用讀取模式,數(shù)據(jù)在讀取時(shí)進(jìn)行處理。因此,如果數(shù)據(jù)處理從一種方法轉(zhuǎn)向另一種方法,技能和工具應(yīng)該也是如此。

“技能永遠(yuǎn)是一個(gè)挑戰(zhàn)。如果我們30年后談?wù)摯髷?shù)據(jù),仍然會(huì)面臨挑戰(zhàn)。“很多人都依賴(lài)Hadoop。但Spark更好一些,因?yàn)闂8∫哺菀子?xùn)練。”

大數(shù)據(jù)問(wèn)題4:技術(shù)代溝

大數(shù)據(jù)項(xiàng)目經(jīng)常從舊的數(shù)據(jù)豎井中提取數(shù)據(jù),并試圖將它們與新的數(shù)據(jù)源(如傳感器、網(wǎng)絡(luò)流量或社交媒體)合并。這并不完全是企業(yè)的錯(cuò),企業(yè)在大數(shù)據(jù)分析出現(xiàn)之前就收集了這些數(shù)據(jù),但無(wú)論如何,這也是一個(gè)問(wèn)題。

Greenbaum認(rèn)為,企業(yè)缺少的最大技能是如何融合這兩個(gè)數(shù)據(jù)源,讓他們共同解決復(fù)雜問(wèn)題。數(shù)據(jù)孤島可能成為大數(shù)據(jù)項(xiàng)目的障礙,因?yàn)樗鼪](méi)有任何標(biāo)準(zhǔn)。因此,當(dāng)企業(yè)開(kāi)始規(guī)劃時(shí),發(fā)現(xiàn)這些系統(tǒng)尚未以任何方式實(shí)施,所以這些數(shù)據(jù)將被重復(fù)使用。

Talend的Christopher認(rèn)為,對(duì)于不同的架構(gòu)需要以不同的方式進(jìn)行處理。技術(shù)技能和架構(gòu)差異是無(wú)法將當(dāng)前工具用于本地?cái)?shù)據(jù)倉(cāng)庫(kù)并將其與大數(shù)據(jù)項(xiàng)目集成的主要原因。因?yàn)檫@些技術(shù)處理新數(shù)據(jù)的成本太高。所以需要Hadoop和Spark等新的語(yǔ)言。

02四種成功的方式

解決方案1:提前規(guī)劃

雖然是陳詞濫調(diào),但適用于大數(shù)據(jù)項(xiàng)目。成功的公司必然是有結(jié)果的公司,選擇一些小而可實(shí)現(xiàn)的新東西進(jìn)行規(guī)劃和實(shí)現(xiàn)。

Morrison說(shuō):“他們需要首先考慮數(shù)據(jù),并以機(jī)器可讀的方式為企業(yè)建模,以便數(shù)據(jù)服務(wù)于該企業(yè)。”

解決方案2:共同努力

股東往往被排除在大數(shù)據(jù)項(xiàng)目之外。Heudecker說(shuō),如果所有股東合作,他們可以克服許多障礙。加上技術(shù)人員共同努力,并與業(yè)務(wù)部門(mén)合作以提供可行的結(jié)果,這可能有所幫助。

Heudecker指出,在大數(shù)據(jù)方面取得成功的公司大量投資于必需的技能。他認(rèn)為這是數(shù)據(jù)驅(qū)動(dòng)型公司普遍認(rèn)可的,如金融服務(wù)公司、優(yōu)步、Lyft和Netflix。公司的財(cái)富基于擁有可靠、可操作的數(shù)據(jù)。

Christopher認(rèn)為,應(yīng)該讓大數(shù)據(jù)項(xiàng)目成為一項(xiàng)團(tuán)隊(duì)運(yùn)動(dòng),所有人都幫助策劃和收集數(shù)據(jù)并處理它,提高數(shù)據(jù)的完整性。

解決方案3:縮小焦點(diǎn)

人們似乎有一種心態(tài),即大數(shù)據(jù)項(xiàng)目需要非常大的動(dòng)作。但就像你第一次學(xué)習(xí)任何東西一樣,成功的最好方法是從小到小,然后逐漸擴(kuò)大。

“他們應(yīng)該仔細(xì)定義他們?cè)谧鍪裁矗?rdquo;Heudecker說(shuō),“應(yīng)該選擇一個(gè)問(wèn)題域并研究解決它,例如欺詐檢測(cè)、細(xì)分客戶(hù),或者弄清楚千禧一代市場(chǎng)中推出的新產(chǎn)品。”

Christopher說(shuō):“說(shuō)到底,你必須問(wèn)問(wèn)自己想要什么,或者想要數(shù)字化的業(yè)務(wù)流程。不只是把技術(shù)扔到商業(yè)問(wèn)題上,你必須預(yù)先定義它。數(shù)據(jù)湖是必要的,但如果數(shù)據(jù)湖不會(huì)被任何商業(yè)人士使用,你就不會(huì)想要收集數(shù)據(jù)。”

在很多情況下,這也意味著不要讓自己的公司過(guò)度膨脹。Morrison表示,在他研究過(guò)的每一家公司中,只有幾百個(gè)關(guān)鍵概念和關(guān)系是整個(gè)企業(yè)賴(lài)以運(yùn)作的。一旦你理解了這一點(diǎn),你就會(huì)意識(shí)到,所有這些數(shù)以百萬(wàn)計(jì)的差別只是那幾百件重要事情的微小變化。事實(shí)上,你會(huì)發(fā)現(xiàn)許多細(xì)微的變化根本不是變化。它們其實(shí)本質(zhì)上是一樣的東西,雖然有不同的名字、不同的結(jié)構(gòu)、不同的標(biāo)簽。

解決方案4:拋棄傳統(tǒng)

雖然您可能希望使用收集并存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中的那些TB級(jí)數(shù)據(jù),但事實(shí)上您可能更好地服務(wù)于為大數(shù)據(jù)設(shè)計(jì)的存儲(chǔ)系統(tǒng)中新收集的數(shù)據(jù),并且設(shè)計(jì)為未經(jīng)過(guò)處理的數(shù)據(jù)。

要避免因?yàn)槠髽I(yè)擁有一項(xiàng)基礎(chǔ)設(shè)施的許可證而只對(duì)現(xiàn)有的基礎(chǔ)設(shè)施感興趣。通常,新的復(fù)雜問(wèn)題可能需要新的復(fù)雜解決方案。使用企業(yè)以往的就工具并不是正確做法,甚至有可能導(dǎo)致大數(shù)據(jù)項(xiàng)目失敗。

Morrison認(rèn)為,企業(yè)應(yīng)該停止故步自封。他還表示,企業(yè)不能再一味依賴(lài)供應(yīng)商為他們解決復(fù)雜的系統(tǒng)問(wèn)題。“幾十年來(lái),許多人似乎都認(rèn)為任何大數(shù)據(jù)問(wèn)題都是系統(tǒng)性問(wèn)題。但當(dāng)面對(duì)復(fù)雜的系統(tǒng)變化時(shí),企業(yè)必須建立自己的解決方案。

鏈接:https://mp.weixin.qq.com/s/3Z6yuYpx0wOafo7ufoMIzQ

THEEND

最新評(píng)論(評(píng)論僅代表用戶(hù)觀點(diǎn))

更多
暫無(wú)評(píng)論