什么是大數(shù)據(jù)?

佩里數(shù)據(jù)
大數(shù)據(jù)的提出者是維克托·邁爾-舍恩伯格和肯尼斯·庫(kù)克耶,在全球暢銷著作《大數(shù)據(jù)時(shí)代》中他們談到,大數(shù)據(jù)與傳統(tǒng)的統(tǒng)計(jì)學(xué)最重要的區(qū)別之一就是大數(shù)據(jù)要利用所有的數(shù)據(jù),而不再僅僅依靠一小部分?jǐn)?shù)據(jù)。

大數(shù)據(jù),大在哪里?有多大?多大是大?

關(guān)于“大”的描述,莊子在《逍遙游》中有這樣的表述:

有魚(yú)焉,其廣數(shù)千里,未有知其修者,其名為鯤。有鳥(niǎo)焉,其名為鵬,背若泰山,翼若垂天之云,摶扶搖羊角而上者九萬(wàn)里,絕云氣,負(fù)青天,然后圖南,且適南冥也。

放在大數(shù)據(jù)上,可以理解為:

鯤之大 一鍋燉不下;鵬之大 需要兩個(gè)烤架。

大數(shù)據(jù)的體量大到無(wú)法用單臺(tái)的計(jì)算機(jī)進(jìn)行處理,必須采用分布式架構(gòu),也就是多臺(tái)機(jī)器聯(lián)合起來(lái)進(jìn)行計(jì)算(一鍋燉不下)。它的特色在于需要對(duì)海量數(shù)據(jù)進(jìn)行分布式數(shù)據(jù)挖掘(需要兩個(gè)烤架)。這也就決定了大數(shù)據(jù)必然與云計(jì)算緊密相連,因?yàn)閱闻_(tái)計(jì)算機(jī)無(wú)法處理,它必須依托云計(jì)算的分布式處理、分布式數(shù)據(jù)庫(kù)和云存儲(chǔ)、虛擬化技術(shù)。

大數(shù)據(jù)能有多大?舉個(gè)栗子

中國(guó)的"天眼"是目前世界上最大單口徑射電望遠(yuǎn)鏡(簡(jiǎn)稱FAST),其在數(shù)據(jù)處理上選擇與阿里云合作。天眼產(chǎn)生的原始數(shù)據(jù)高達(dá)38GB/秒,折算下來(lái)一天的數(shù)據(jù)存儲(chǔ)量高達(dá)3283TB,按照現(xiàn)在市場(chǎng)上主流電腦硬盤(pán)520G的配置,總共需要6566臺(tái)電腦。

隨著大數(shù)據(jù)時(shí)代的到來(lái),人們可能會(huì)產(chǎn)生一個(gè)疑問(wèn),大數(shù)據(jù)分析與傳統(tǒng)的數(shù)據(jù)分析有什么區(qū)別?

區(qū)別1:大數(shù)據(jù)的別稱:全數(shù)據(jù)

大數(shù)據(jù)的提出者是維克托·邁爾-舍恩伯格和肯尼斯·庫(kù)克耶,在全球暢銷著作《大數(shù)據(jù)時(shí)代》中他們談到,大數(shù)據(jù)與傳統(tǒng)的統(tǒng)計(jì)學(xué)最重要的區(qū)別之一就是大數(shù)據(jù)要利用所有的數(shù)據(jù),而不再僅僅依靠一小部分?jǐn)?shù)據(jù)。

統(tǒng)計(jì)學(xué)的核心是抽樣調(diào)查,用少部分?jǐn)?shù)據(jù)的特征來(lái)推測(cè)整體的特征,采樣的隨機(jī)性在很大程度上決定了分析的精確性。而大數(shù)據(jù)是將所有的數(shù)據(jù)整體納入進(jìn)來(lái),對(duì)整體進(jìn)行分析。所以大數(shù)據(jù)又叫 “全數(shù)據(jù)”。

在日常的工作中,我們拿到一個(gè)數(shù)據(jù)樣本,可能最多不會(huì)超過(guò)10000條數(shù)據(jù),在體量上不能稱其為大數(shù)據(jù),但是可以運(yùn)用大數(shù)據(jù)的方法和思維方式:對(duì)數(shù)據(jù)的整體進(jìn)行分析。

區(qū)別2:大數(shù)據(jù)可以包容錯(cuò)誤數(shù)據(jù)

對(duì)“小數(shù)據(jù)”而言,最基本、最重要的要求就是減少錯(cuò)誤,保證質(zhì)量。因?yàn)槭占臄?shù)據(jù)比較少,所以必須確保記錄下來(lái)的數(shù)據(jù)盡量精確。而大數(shù)據(jù)是以犧牲數(shù)據(jù)的精確性為代價(jià)獲取更多的數(shù)據(jù)量,放松了容錯(cuò)的標(biāo)準(zhǔn)。

例如在統(tǒng)計(jì)個(gè)人時(shí),包含身高、體重、年齡、性別、血型、生日、籍貫等字段,其中一個(gè)人的數(shù)據(jù)中體重一項(xiàng)出現(xiàn)了明顯錯(cuò)誤,或者是空白漏填。這條記錄仍然可以保留在數(shù)據(jù)庫(kù)中,將整體的平均體重當(dāng)作這個(gè)人的體重?cái)?shù)據(jù)。這樣做明顯不夠精確,但是隨著數(shù)據(jù)體量的增大,不精確性會(huì)被逐漸稀釋,直至對(duì)整體幾乎不造成影響。

“小數(shù)據(jù)”是避免錯(cuò)誤,大數(shù)據(jù)是以體量來(lái)稀釋錯(cuò)誤。不糾結(jié)某個(gè)點(diǎn)的對(duì)錯(cuò),而是注重整條線、整個(gè)體的建構(gòu)。

由于大數(shù)據(jù)對(duì)錯(cuò)誤數(shù)據(jù)的包容性,所以大數(shù)據(jù)通常會(huì)用概率來(lái)說(shuō)話,而不是追求100%的確鑿無(wú)疑?!洞髷?shù)據(jù)時(shí)代》中指出,社會(huì)要習(xí)慣這樣的概率思維可能需要很長(zhǎng)時(shí)間。然而,直男癌可能具有得天獨(dú)厚的優(yōu)勢(shì)。在“直女癌”的眼中,直男的衣品永遠(yuǎn)只有黑、白、灰三個(gè)顏色。只有直男才會(huì)懂得,灰色可以有很多種。

區(qū)別3:大數(shù)據(jù)更追求相關(guān)關(guān)系

在傳統(tǒng)的分析當(dāng)中,我們往往喜歡追求一個(gè)事件發(fā)生的原因,挖出背后的因果關(guān)系。追求準(zhǔn)確的因果關(guān)系是很奢侈的一件事,運(yùn)用大數(shù)據(jù)能夠找到相關(guān)關(guān)系就足夠創(chuàng)造出價(jià)值。知道“是什么”就夠了,沒(méi)必要知道“為什么”。

相關(guān)關(guān)系的核心是量化兩個(gè)數(shù)據(jù)值之間的數(shù)理關(guān)系。相關(guān)關(guān)系強(qiáng)是指當(dāng)一個(gè)數(shù)據(jù)值增加時(shí),另一個(gè)數(shù)據(jù)值很有可能也會(huì)隨之增加。相反,相關(guān)關(guān)系弱就意味著當(dāng)一個(gè)數(shù)據(jù)值增加時(shí),另一個(gè)數(shù)據(jù)值幾乎不會(huì)發(fā)生變化。相關(guān)關(guān)系通過(guò)識(shí)別有用的關(guān)聯(lián)物來(lái)幫助分析一個(gè)現(xiàn)象,而不是通過(guò)揭示其內(nèi)部的運(yùn)作機(jī)制。

因果關(guān)系在很多情境下很重要,但是想要揭示事件內(nèi)部的運(yùn)作機(jī)制來(lái)找到準(zhǔn)確的因果關(guān)系是非常困難的。因果錯(cuò)覺(jué)大概是人類最容易出現(xiàn)的錯(cuò)覺(jué)。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無(wú)評(píng)論