何為大數(shù)據(jù)技術(shù)?大數(shù)據(jù)技術(shù)發(fā)展歷程

加米谷大數(shù)據(jù)張衡
從定義來(lái)說(shuō),大數(shù)據(jù)技術(shù)是指從各種各樣類(lèi)型的巨量數(shù)據(jù)中,快速獲得有價(jià)值信息的技術(shù)。在行業(yè)當(dāng)中的大數(shù)據(jù)研發(fā)者們,就是致力于將大數(shù)據(jù)技術(shù)應(yīng)用到相關(guān)領(lǐng)域,從巨量數(shù)據(jù)從中獲取有價(jià)值的信息。

大數(shù)據(jù)發(fā)展到今天,通常來(lái)說(shuō)有兩層含義,海量的數(shù)據(jù)集合以及對(duì)海量數(shù)據(jù)集合進(jìn)行處理的大數(shù)據(jù)技術(shù)。海量的數(shù)據(jù)集合,這個(gè)非常好理解,就是不斷累積起來(lái)的數(shù)據(jù)資源,而大數(shù)據(jù)技術(shù)又是指什么呢?何為大數(shù)據(jù)技術(shù),今天我們來(lái)對(duì)大數(shù)據(jù)技術(shù)發(fā)展歷程做個(gè)簡(jiǎn)單的介紹。

從定義來(lái)說(shuō),大數(shù)據(jù)技術(shù)是指從各種各樣類(lèi)型的巨量數(shù)據(jù)中,快速獲得有價(jià)值信息的技術(shù)。在行業(yè)當(dāng)中的大數(shù)據(jù)研發(fā)者們,就是致力于將大數(shù)據(jù)技術(shù)應(yīng)用到相關(guān)領(lǐng)域,從巨量數(shù)據(jù)從中獲取有價(jià)值的信息。

我們對(duì)大數(shù)據(jù)技術(shù)的認(rèn)知,通常包括采集數(shù)據(jù)的工具、平臺(tái)和數(shù)據(jù)分析系統(tǒng)等。

最早的第一代大數(shù)據(jù)技術(shù)框架,是Doug Cutting參考谷歌在2003年發(fā)表的Google File System論文,建立了Hadoop開(kāi)源項(xiàng)目,并于2006年貢獻(xiàn)給Apache基金會(huì),用來(lái)構(gòu)建大規(guī)模搜索引擎和解決大規(guī)模的數(shù)據(jù)存儲(chǔ)和離線計(jì)算的難題。

首先誕生的是分布式文件系統(tǒng)HDFS和分布式計(jì)算框架MapReduce。隨后在2007年,F(xiàn)acebook開(kāi)發(fā)了Hive,可以使用類(lèi)SQL語(yǔ)言查詢存放在HDFS上的數(shù)據(jù),PowerSet公司開(kāi)發(fā)了分布式NoSQL數(shù)據(jù)庫(kù)HBase。

從2006到2009年這個(gè)階段,以MapReduce計(jì)算框架為代表,大數(shù)據(jù)技術(shù)在大型互聯(lián)網(wǎng)企業(yè)被廣泛應(yīng)用于大規(guī)模結(jié)構(gòu)化數(shù)據(jù)的批處理,具體的應(yīng)用場(chǎng)景是做日志分析和用戶行為分析等。這個(gè)階段我們稱之為大數(shù)據(jù)的1.0時(shí)代。

大數(shù)據(jù)進(jìn)入2.0時(shí)代的標(biāo)志,是Spark核心計(jì)算引擎的出現(xiàn)。

由于MapReduce在要求短時(shí)間響應(yīng)的交互式分析場(chǎng)景下表現(xiàn)不好,以Spark和Flink為代表的新計(jì)算引擎出現(xiàn)并廣泛使用。這個(gè)階段有三個(gè)重要變化:

一是大數(shù)據(jù)業(yè)務(wù)更多轉(zhuǎn)為結(jié)構(gòu)化數(shù)據(jù)處理等價(jià)值密度更高的計(jì)算,所有的大數(shù)據(jù)公司開(kāi)始在Hadoop之上打造SQL引擎或分布數(shù)據(jù)庫(kù)。2012年開(kāi)始到隨后兩年中出現(xiàn)20多個(gè)基于Hadoop的SQL引擎,包括Impala、Spark SQL等,以及星環(huán)的Inceptor,以解決結(jié)構(gòu)化數(shù)據(jù)問(wèn)題;

二是實(shí)時(shí)數(shù)據(jù)處理方面,大量的實(shí)時(shí)數(shù)據(jù)需要及時(shí)處理,到2015年,F(xiàn)link、Beam、Spark Streaming等開(kāi)源技術(shù)涌現(xiàn),而商業(yè)化的流計(jì)算引擎如星環(huán)Slipstream的發(fā)展也如火如荼,相比開(kāi)源的流引擎能夠提供更多的產(chǎn)品能力,包括數(shù)據(jù)不丟不重、安全、SQL引擎等能力;

此外,非結(jié)構(gòu)化的處理技術(shù)隨著數(shù)據(jù)科學(xué)技術(shù)的發(fā)展而興起,非結(jié)構(gòu)化文檔數(shù)據(jù)處理、圖分析技術(shù)也逐漸興起。

隨著企業(yè)的數(shù)據(jù)量越來(lái)越大,數(shù)據(jù)業(yè)務(wù)的多樣性和復(fù)雜性增加,在數(shù)據(jù)存儲(chǔ)、計(jì)算和數(shù)據(jù)業(yè)務(wù)打通方面的挑戰(zhàn)也越來(lái)越大。

關(guān)于何為大數(shù)據(jù)技術(shù),大數(shù)據(jù)技術(shù)發(fā)展歷程,以上就為大家做了一個(gè)簡(jiǎn)單的介紹了。大數(shù)據(jù)技術(shù)的發(fā)展,是隨著大數(shù)據(jù)的發(fā)展在不斷更新迭代的,作為技術(shù)開(kāi)發(fā)者,保持學(xué)習(xí),跟上最新技術(shù)趨勢(shì),是基本的素養(yǎng)。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無(wú)評(píng)論