大數(shù)據(jù)熱是華而不實(shí)嗎?大數(shù)據(jù)和小數(shù)據(jù)有什么本質(zhì)區(qū)別

讀字節(jié)ReadByte
無論是使用批量技術(shù)用Spark將數(shù)據(jù)集和機(jī)器學(xué)習(xí)算法進(jìn)行連接也好,還是用Kafka實(shí)現(xiàn)每天百億數(shù)據(jù)的匯聚分發(fā)也罷,都是為了使得讓更大量的數(shù)據(jù)形成流動(dòng)的價(jià)值,為不同類型的用戶提供獨(dú)具特色的數(shù)據(jù)服務(wù)。

首先提出這樣的問題是比較常見的現(xiàn)象。即看到一種火熱的技術(shù)現(xiàn)象,產(chǎn)生對(duì)事物的一種淺層認(rèn)知后,想獲得一個(gè)比較深刻的認(rèn)識(shí)。

大數(shù)據(jù)具有社會(huì)化,技術(shù)性的重要特點(diǎn)。

從社會(huì)化看

先說這個(gè)“大”,也就是大數(shù)據(jù)最早的定義:速度、類型和容量,所謂的3V。實(shí)際上大數(shù)據(jù)的發(fā)展早已經(jīng)突破了這個(gè)定義。數(shù)據(jù)體現(xiàn)的不是所謂的“大小”,而是規(guī)模。

每個(gè)人的手機(jī),都是一部隨時(shí)產(chǎn)生數(shù)據(jù)的設(shè)備,我們時(shí)刻發(fā)著消息,每次點(diǎn)擊APP,都生產(chǎn)一條事件數(shù)據(jù),無論這個(gè)操作單獨(dú)看起來,有多么無價(jià)值,但它仍然會(huì)被云端記錄,因?yàn)槠渲皇谴髷?shù)據(jù)總體價(jià)值的一個(gè)原子單位;工業(yè)上因?yàn)槲锫?lián)網(wǎng)技術(shù)的實(shí)施,加劇了大規(guī)模數(shù)據(jù)的匯聚,目前工業(yè)上談數(shù)據(jù)匯聚,都是上千個(gè)采集點(diǎn),每秒上百萬的實(shí)時(shí)數(shù)據(jù)該怎么去處理;

人、車的移動(dòng)與地標(biāo)、建筑形成的坐標(biāo)網(wǎng),可以繪制城市的動(dòng)態(tài)畫像,而不是過去靠電話線、TV和人力上報(bào)統(tǒng)計(jì)來完成,這就是智慧城市的大數(shù)據(jù)鮮活力的表現(xiàn)。

我們?cè)僬f數(shù)據(jù)的流動(dòng)性,或者說數(shù)據(jù)的生命周期。數(shù)據(jù)在過去的流向基本都是數(shù)據(jù)墳?zāi)?,也就是有一個(gè)啟動(dòng)點(diǎn),亦會(huì)有一個(gè)終點(diǎn)。

在大數(shù)據(jù)的時(shí)代,數(shù)據(jù)有時(shí)候可能會(huì)在流動(dòng)的中途就消失了,但新形式的數(shù)據(jù)又會(huì)產(chǎn)生,也可能會(huì)在一個(gè)階段后就不在被使用,其流動(dòng)性越來越強(qiáng),可是又提倡了和以前截然相反的存儲(chǔ)方式:數(shù)據(jù)的原始形態(tài)越來越早的被存儲(chǔ),而不是經(jīng)過ETL的加工形成固有設(shè)定的樣子而沉寂下去。

因?yàn)樵皆绲脑紨?shù)據(jù)被存儲(chǔ),就能為數(shù)據(jù)在生命周期內(nèi)的不同階段提供給分析者更全面數(shù)據(jù)特征,利用價(jià)值關(guān)系提取,但終將會(huì)在生命周期結(jié)束時(shí)清理掉,無論是因?yàn)檎摺⒓夹g(shù)存量還是設(shè)計(jì)思想。

社會(huì)化的另一個(gè)問題就是數(shù)據(jù)的多樣性,城市視頻采集,每天需要經(jīng)歷PT級(jí)別的多媒體數(shù)據(jù)需要進(jìn)行清洗;

工業(yè)設(shè)備會(huì)以設(shè)備類型+時(shí)間戳+狀態(tài)值的形式源源不斷的傳遞來時(shí)間序列數(shù)據(jù),需要存儲(chǔ)、回放和監(jiān)測(cè);

社交網(wǎng)絡(luò)吸引著大量的用戶流量,流量的關(guān)鍵媒體就是圖、文、短視頻;

搜索引擎爬蟲每天要一遍接著一遍的對(duì)所有登記注冊(cè)的網(wǎng)站重新抓取更新頁面,計(jì)算頁面在互聯(lián)網(wǎng)上影響力,這一切都是過去在傳統(tǒng)數(shù)據(jù)結(jié)構(gòu)下,用結(jié)構(gòu)化的設(shè)計(jì)思路難以想象的事情。

1.jpeg

最后再說說大數(shù)據(jù)的開放性,這就和“小數(shù)據(jù)”具有了非常明顯的不同,大數(shù)據(jù)講究開放,通過共享的平臺(tái)實(shí)現(xiàn)數(shù)據(jù)的接入,也同樣實(shí)現(xiàn)數(shù)據(jù)的對(duì)外連接。

事實(shí)上,大數(shù)據(jù)的發(fā)展步伐太快,隱私政策和信息法都被甩在了身后,所以才會(huì)出現(xiàn)大家所痛恨的不良商家對(duì)個(gè)人隱私的侵犯。當(dāng)大數(shù)據(jù)的規(guī)模到了臨界點(diǎn)的時(shí)候,尤其是電子商務(wù)平臺(tái)和社交平臺(tái),那么這種腳步就會(huì)放緩,目前看隱私政策法規(guī)已經(jīng)逐步清晰多了。

反觀小數(shù)據(jù),實(shí)際上就是一個(gè)社會(huì)化的一種長(zhǎng)尾的表現(xiàn),

2.png

大數(shù)據(jù)集中在藍(lán)色部分,被少量的大廠、政府機(jī)構(gòu)、公共事業(yè)部門所擁有,那么這些數(shù)據(jù)無論面向社會(huì)的那個(gè)領(lǐng)域,都趨向于數(shù)據(jù)的統(tǒng)一結(jié)構(gòu)化、標(biāo)準(zhǔn)化和共享性,不過社會(huì)大量的企業(yè)、軟件服務(wù)商的信息庫中都存有各式各樣設(shè)計(jì)的數(shù)據(jù)表,就是黃色部分一樣形成長(zhǎng)長(zhǎng)的尾巴。因此小數(shù)據(jù)是趨向于結(jié)構(gòu)設(shè)計(jì)的多樣性,而且因?yàn)椴痪邆涔蚕砑夹g(shù)的投入和動(dòng)力,大量的小數(shù)據(jù)大多數(shù)都是封閉的。

從技術(shù)看

談完了大數(shù)據(jù)的社會(huì)化特點(diǎn),我們?cè)僬f說大數(shù)據(jù)的技術(shù)問題。大數(shù)據(jù)的規(guī)?;瘜?dǎo)致了原先傳統(tǒng)技術(shù)的數(shù)據(jù)處理系統(tǒng)無法實(shí)現(xiàn)正常的操作了,甚至已經(jīng)遠(yuǎn)遠(yuǎn)達(dá)不到向客戶承諾的SLA(服務(wù)級(jí)別協(xié)議)——品質(zhì)、水準(zhǔn)、性能,才會(huì)有大數(shù)據(jù)技術(shù)的出現(xiàn)。

就追溯大數(shù)據(jù)技術(shù)的源頭,談?wù)凣oogle,當(dāng)年Google打遍天下無敵手的Page Rank算法,運(yùn)行在傳統(tǒng)的昂貴的商業(yè)單機(jī)數(shù)據(jù)庫上,結(jié)果可想而知,存儲(chǔ)規(guī)模遠(yuǎn)遠(yuǎn)超過單機(jī)所能承受的極限。Google遵循的是一種簡(jiǎn)單直接的設(shè)計(jì)風(fēng)格,設(shè)計(jì)出了GFS分布式文件系統(tǒng),更讓人大跌眼鏡的是,居然沒有設(shè)計(jì)索引?

難道Google的設(shè)計(jì)師在設(shè)計(jì)索引的時(shí)候睡著了,醒來就忽略了嗎?其實(shí)不然,這就是Google設(shè)計(jì)理念的關(guān)鍵,抓住問題的本質(zhì),目標(biāo)是能在分布式的環(huán)境下更快、更多的存儲(chǔ)原始數(shù)據(jù),不去設(shè)計(jì)索引,就能大大減輕了數(shù)據(jù)存儲(chǔ)的負(fù)擔(dān)。Google的目標(biāo)是對(duì)抓取的頁面分析價(jià)值、影響,然后形成排名,再寫入到頁面查詢索引的數(shù)據(jù)庫。那么這個(gè)分析的過程,可以批量的、順序的、大塊的讀取數(shù)據(jù),然后并行任務(wù)的去提升效率分析處理。

GFS的設(shè)計(jì)方法很有效,簡(jiǎn)單直接,就像二戰(zhàn)蘇軍的t43坦克一樣,沒有德軍虎式精密,但是可以大量廉價(jià)的生產(chǎn),發(fā)揮戰(zhàn)爭(zhēng)中的規(guī)模效應(yīng),互聯(lián)網(wǎng)戰(zhàn)場(chǎng)也一樣,迅速的擴(kuò)大占領(lǐng)區(qū)。

GFS的開源版,就是大名鼎鼎的Hadoop了,看著Hadoop,就跟看見他大哥GFS一個(gè)模子,HDFS可以說把大文件的高效、分塊、順序讀寫發(fā)揮到了極致。

當(dāng)面對(duì)社會(huì)化大數(shù)據(jù)的快速發(fā)展,而設(shè)計(jì)出了的最簡(jiǎn)單、直接、高效的技術(shù)手段去解決之后,在做一些精細(xì)化的發(fā)展,例如:GFS之上就有了BigTable,開源的HDFS之上就是HBase,通過SSTable+LSM樹的數(shù)據(jù)結(jié)構(gòu)建立符合大數(shù)據(jù)寫入和回放的索引機(jī)制,完全不同于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫的B樹索引了!這種索引機(jī)制也是NoSQL的基石。

3.jpeg

這張圖就是大數(shù)據(jù)存儲(chǔ)的譜系,可以看到頂端數(shù)據(jù)存儲(chǔ)部分追溯到了Google的GFS。

Google這是引領(lǐng)了大數(shù)據(jù)時(shí)代的技術(shù),讓我們能更加從容的去應(yīng)對(duì)大數(shù)據(jù)帶來的數(shù)據(jù)系統(tǒng)沖擊,關(guān)鍵還是我們實(shí)實(shí)在在的大數(shù)據(jù)需求,需要在這個(gè)龐大的技術(shù)生態(tài)中尋找到合適的組合方案,這才是大數(shù)據(jù)技術(shù)應(yīng)用的關(guān)鍵。

所以曾經(jīng)言必大數(shù)據(jù)的火熱期早已經(jīng)過去了,無論從客戶方,還是技術(shù)方都在探尋什么才是真正的大數(shù)據(jù),但至少知道掛一個(gè)大屏,展示幾個(gè)統(tǒng)計(jì)圖的那個(gè)所謂的“大數(shù)據(jù)”形式,早已成為過去的笑談。

真正的大數(shù)據(jù)時(shí)代已經(jīng)來臨,而且懂得如何利用技術(shù)去解決大數(shù)據(jù)問題,產(chǎn)生出以前不敢想的數(shù)據(jù)價(jià)值,或者以前難以輕松做到的事情,現(xiàn)在很多都將變?yōu)榭赡堋?/p>

無論是使用批量技術(shù)用Spark將數(shù)據(jù)集和機(jī)器學(xué)習(xí)算法進(jìn)行連接也好,還是用Kafka實(shí)現(xiàn)每天百億數(shù)據(jù)的匯聚分發(fā)也罷,都是為了使得讓更大量的數(shù)據(jù)形成流動(dòng)的價(jià)值,為不同類型的用戶提供獨(dú)具特色的數(shù)據(jù)服務(wù)。

這時(shí)候數(shù)據(jù)的產(chǎn)出過程更像流動(dòng)的血液,社會(huì)的血液,讓我們的生活表現(xiàn)得更生動(dòng)、活躍。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無評(píng)論