大數(shù)據(jù)技術(shù)的五大發(fā)展趨勢

恒生電子服務(wù)中心
張良友
在傳統(tǒng)集群系統(tǒng)中,計算和存儲是緊密耦合的,以Hadoop為例,在傳統(tǒng)Hadoop的使用中,存儲與計算密不可分,而隨著業(yè)務(wù)的發(fā)展,常常會為了擴(kuò)存儲而帶來額外的計算擴(kuò)容,這其實就是一種浪費。同理,只為了提升計算能力,也會帶來一段時期的存儲浪費,將計算和存儲分離,可以更好地應(yīng)對單方面的不足。

英國牛津大學(xué)教授維克托·邁爾-舍恩伯格在其所撰寫的《大數(shù)據(jù)時代》中表述,大數(shù)據(jù)時代是“已經(jīng)發(fā)生的未來”,而在這個已經(jīng)發(fā)生的未來里,沒有旁觀者。

作為時代發(fā)生的必然產(chǎn)物,大數(shù)據(jù)正加速滲透至我們的日常生活,正完成對各傳統(tǒng)領(lǐng)域的顛覆。本文從大數(shù)據(jù)時代的特點出發(fā),為讀者介紹目前的大數(shù)據(jù)技術(shù)的發(fā)展趨勢以及大數(shù)據(jù)的生態(tài)體系。

大數(shù)據(jù)時代的特點和市場規(guī)模

大數(shù)據(jù)時代兩個特點。第一,大數(shù)據(jù)技術(shù)以開源為主,迄今為止,尚未形成絕對技術(shù)壟斷,即便是IBM、甲骨文等行業(yè)巨擘,也同樣是集成了開源技術(shù)和該公司已有產(chǎn)品而已。開源技術(shù)對任何一個國家都是開放的,中國公司同樣可以分享開源的蛋糕,但是需要以更加開放的心態(tài)、更加開明的思想正確地對待開源社區(qū)。第二,中國的人口和經(jīng)濟(jì)規(guī)模決定了中國的數(shù)據(jù)資產(chǎn)規(guī)模冠于全球。

我國數(shù)據(jù)產(chǎn)生能力巨大,大數(shù)據(jù)資源極為豐富。國際數(shù)據(jù)公司(IDC)的監(jiān)測數(shù)據(jù)顯示,2018年全球大數(shù)據(jù)儲量規(guī)模達(dá)到33ZB,而我國數(shù)據(jù)儲量占到全球數(shù)據(jù)總量的23%。2019年我國大數(shù)據(jù)產(chǎn)業(yè)規(guī)模約為8500億元,較2018年增長37.8%,預(yù)計2020年將達(dá)到10100億元。其中金融行業(yè)占比約占20%。

2345截圖20200908083720.png

圖1:大數(shù)據(jù)市場預(yù)測

筆者認(rèn)為,大數(shù)據(jù)正超越信息技術(shù),使人們重新思考公司的戰(zhàn)略和組織結(jié)構(gòu),重新審視產(chǎn)業(yè)變遷的驅(qū)動因素,重新審視政府治理水平,甚至重新界定國家競爭的主戰(zhàn)場。

大數(shù)據(jù)技術(shù)發(fā)展趨勢

隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展,其各個技術(shù)環(huán)節(jié)呈現(xiàn)出新的發(fā)展趨勢和挑戰(zhàn)。根據(jù)Gartner最新的分析可以看出,主要有五大技術(shù)趨勢。

01、存儲計算分離

在傳統(tǒng)集群系統(tǒng)中,計算和存儲是緊密耦合的,以Hadoop為例,在傳統(tǒng)Hadoop的使用中,存儲與計算密不可分,而隨著業(yè)務(wù)的發(fā)展,常常會為了擴(kuò)存儲而帶來額外的計算擴(kuò)容,這其實就是一種浪費。同理,只為了提升計算能力,也會帶來一段時期的存儲浪費,將計算和存儲分離,可以更好地應(yīng)對單方面的不足。

筆者認(rèn)為,存儲計算分離是一種分層架構(gòu)思想,即將存儲能力和計算能力分開,各自服務(wù)化,通過高速網(wǎng)絡(luò)連接。以AWS的大護(hù)具架構(gòu)為例,底層統(tǒng)一采用S3存儲,存儲層上架設(shè)各種計算引擎比如HIVE、Spark、Flink等。

02、實時計算及實時數(shù)倉

實時計算一般針對海量數(shù)據(jù)進(jìn)行的,要求為秒級。實時計算主要分為數(shù)據(jù)的實時入庫、數(shù)據(jù)的實時計算兩部分。

接下來,筆者將介紹實時計算的主要應(yīng)用場景。

第一個場景是數(shù)據(jù)源實時、不間斷,要求用戶的響應(yīng)時間也是實時的。比如對于大型網(wǎng)站的流式數(shù)據(jù):網(wǎng)站的訪問PV/UV、用戶訪問了什么內(nèi)容、搜索了什么內(nèi)容等,實時的數(shù)據(jù)計算和分析可以動態(tài)實時地刷新用戶訪問數(shù)據(jù),展示網(wǎng)站實時流量的變化情況,分析每天各小時的流量和用戶分布情況。

另一個場景是數(shù)據(jù)量大且無法或沒必要預(yù)算,但要求對用戶的響應(yīng)時間是實時的。比如說:昨天來自每個省份不同性別的訪問量分布,昨天來自每個省份不同性別不同年齡不同職業(yè)不同名族的訪問量分布。

03、人工智能推動數(shù)據(jù)智能應(yīng)用

相比于傳統(tǒng)機(jī)器學(xué)習(xí)算法,深度學(xué)習(xí)提出了一種讓計算機(jī)自動學(xué)習(xí)產(chǎn)生特征的方法,并將特征學(xué)習(xí)融入建立模型的過程中,從而減少了人為設(shè)計特征引發(fā)的不完備。深度學(xué)習(xí)借助深層次神經(jīng)網(wǎng)絡(luò)模型,能夠更加智能地提取數(shù)據(jù)不同層次的特征,對數(shù)據(jù)進(jìn)行更加準(zhǔn)確、有效的表達(dá)。而且訓(xùn)練樣本數(shù)量越大,深度學(xué)習(xí)算法相對傳統(tǒng)機(jī)器學(xué)習(xí)算法就越有優(yōu)勢。

2345截圖20200908083720.png

圖3:大數(shù)據(jù)與人工智能交叉

目前,深度學(xué)習(xí)已經(jīng)深入多個領(lǐng)域,并在圖像分類、語音識別、問答系統(tǒng)等應(yīng)用中獲得了重大突破,取得了成功的商業(yè)應(yīng)用。隨著越來越多的行業(yè)和領(lǐng)域逐步完善數(shù)據(jù)的采集和存儲,深度學(xué)習(xí)的應(yīng)用會更加廣泛。由于大數(shù)據(jù)應(yīng)用的復(fù)雜性,人工智能和大數(shù)據(jù)的融合將是一個持續(xù)的常態(tài)。

04、技術(shù)趨勢,湖倉一體化

9月18日,2020云棲大會上,阿里云正式推出大數(shù)據(jù)平臺的下一代架構(gòu)——“湖倉一體”,打通數(shù)據(jù)倉庫和數(shù)據(jù)湖兩套體系,讓數(shù)據(jù)和計算在湖與倉之間自由流動,從而構(gòu)建一個完整的、有機(jī)的、大數(shù)據(jù)技術(shù)生態(tài)體系。為企業(yè)提供兼具數(shù)據(jù)湖的靈活性和數(shù)據(jù)倉庫的成長性的新一代大數(shù)據(jù)平臺,降低企業(yè)構(gòu)建大數(shù)據(jù)平臺的整體成本。

2345截圖20200908083720.png

圖4:大數(shù)據(jù)存在的三種形態(tài)

在數(shù)據(jù)湖架構(gòu)上建立數(shù)倉的嘗試并不成功,這表明數(shù)倉和數(shù)據(jù)湖有本質(zhì)的區(qū)別,在數(shù)據(jù)湖體系上很難建成完善的數(shù)倉。數(shù)據(jù)湖與數(shù)據(jù)倉庫兩者很難直接合并成一套系統(tǒng),基于融合兩者的思路進(jìn)行探索,阿里云提出下一代的大數(shù)據(jù)技術(shù)演進(jìn)方向:湖倉一體,即打通數(shù)據(jù)倉庫和數(shù)據(jù)湖兩套體系,讓數(shù)據(jù)和計算在湖和倉之間自由流動,從而構(gòu)建一個完整的有機(jī)的大數(shù)據(jù)技術(shù)生態(tài)體系。

2345截圖20200908083720.png

圖5:數(shù)據(jù)倉庫與數(shù)據(jù)湖的區(qū)別

在阿里云的構(gòu)想中,湖倉議題值得期待。湖和倉的數(shù)據(jù)/元數(shù)據(jù)無縫打通,且不需要用戶人工干預(yù);湖和倉有統(tǒng)一的開發(fā)體驗,存儲在不同系統(tǒng)的數(shù)據(jù),可以通過一個統(tǒng)一的開發(fā)/管理平臺操作;數(shù)據(jù)湖與數(shù)據(jù)倉庫的數(shù)據(jù),系統(tǒng)負(fù)責(zé)自動caching/moving,系統(tǒng)可以根據(jù)自動的規(guī)則決定哪些數(shù)據(jù)放在數(shù)倉,哪些保留在數(shù)據(jù)湖,進(jìn)而形成一體化。

05、大數(shù)據(jù)平臺融合云計算

云計算與大數(shù)據(jù)的發(fā)展路線必將交接、碰撞,而這已經(jīng)成為現(xiàn)實。為什么大家開始對大數(shù)據(jù)諱莫如深呢?大數(shù)據(jù)給人留下的印象:花錢多,靈活度低,令人頭疼的運營管理等等。好在近年來,Modern Data Warehouse這個概念火了起來,利用云計算的殼解釋了現(xiàn)代大數(shù)據(jù)存在的合理性。而隨著企業(yè)日新月異的數(shù)據(jù)需求和技術(shù)的進(jìn)步,更新的架構(gòu)層出不窮。

以DaaS為例,其既是Function-as-a-Service(FaaS)的一種,也是SaaS的自然延伸,最終目的都是盡可能遠(yuǎn)離IaaS以及服務(wù)本身的運維,把資源最大限度地解放出來進(jìn)行業(yè)務(wù)功能的開發(fā),是目前大數(shù)據(jù)領(lǐng)域最接近這種serverless概念的產(chǎn)品,也許它會成為云時代最好的大數(shù)據(jù)平臺。

大數(shù)據(jù)龐大生態(tài)體系

整個大數(shù)據(jù)技術(shù)家族十分龐大,從數(shù)據(jù)生產(chǎn)、數(shù)據(jù)交換、數(shù)據(jù)存儲、數(shù)據(jù)工程、數(shù)據(jù)科學(xué)計算、數(shù)據(jù)應(yīng)用到數(shù)據(jù)消費整個工程體系中涉及到30多個技術(shù)組件。筆者將會重點介紹其中關(guān)鍵的幾個:

Sqoop:Sqoop是一款開源的工具,主要用于在Hadoop、Hive與傳統(tǒng)的數(shù)據(jù)庫(MySql)間進(jìn)行數(shù)據(jù)的傳遞,可以將一個關(guān)系型數(shù)據(jù)庫(例如:MySQL,Oracle等)中的數(shù)據(jù)導(dǎo)進(jìn)到Hadoop的HDFS中,也可以將HDFS的數(shù)據(jù)導(dǎo)進(jìn)到關(guān)系型數(shù)據(jù)庫中。

Flume:Flume是Cloudera提供的一個高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng),F(xiàn)lume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);同時,F(xiàn)lume提供對數(shù)據(jù)進(jìn)行簡單處理,并寫到各種數(shù)據(jù)接受方(可定制)的能力。

Kafka:Kafka是一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng)。

Spark:Spark是當(dāng)前最流行的開源大數(shù)據(jù)內(nèi)存計算框架??梢曰贖adoop上存儲的大數(shù)據(jù)進(jìn)行計算。

Hbase:HBase是一個分布式的、面向列的開源數(shù)據(jù)庫。HBase不同于一般的關(guān)系數(shù)據(jù)庫,它是一個適合于非結(jié)構(gòu)化數(shù)據(jù)存儲的數(shù)據(jù)庫。

Hive:Hive是基于Hadoop的一個數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供簡單的SQL查詢功能,可以將SQL語句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運行。其優(yōu)點是學(xué)習(xí)成本低,可以通過類SQL語句快速實現(xiàn)簡單的MapReduce統(tǒng)計,不必開發(fā)專門的MapReduce應(yīng)用,十分適合數(shù)據(jù)倉庫的統(tǒng)計分析。

ZooKeeper:Zookeeper是Google的Chubby一個開源的實現(xiàn)。它是一個針對大型分布式系統(tǒng)的可靠協(xié)調(diào)系統(tǒng),提供的功能包括:配置維護(hù)、名字服務(wù)、分布式同步、組服務(wù)等。ZooKeeper的目標(biāo)就是封裝好復(fù)雜易出錯的關(guān)鍵服務(wù),將簡單易用的接口和性能高效、功能穩(wěn)定的系統(tǒng)提供給用戶。

Apache Flink是為分布式、高性能、隨時可用以及準(zhǔn)確的流處理應(yīng)用程序打造的開源流處理框架

Yarn(分布式資源管理器),YARN是下一代MapReduce,即MRv2,是在第一代MapReduce基礎(chǔ)上演變而來的,主要是為了解決原始Hadoop擴(kuò)展性較差,不支持多計算框架而提出的。

Yarn是下一代Hadoop計算平臺,Yarn是一個通用的運行時框架,用戶可以編寫自己的計算框架,在該運行環(huán)境中運行。

2345截圖20200908083720.png

圖6:大數(shù)據(jù)技術(shù)生態(tài)

另外除了上述強(qiáng)大的開源家族支撐以外,還有眾多商業(yè)文化的公司和組織也在提供技術(shù)、產(chǎn)品和服務(wù),圍繞整個大數(shù)據(jù)的生態(tài)體系當(dāng)中。比如有老牌的Oracle、IBM、HP、Teradata,也有興欣的Cloudera、星環(huán)、阿里、華為、snowflake等。可謂是眾星捧月,琳瑯滿目。

總之,大數(shù)據(jù)技術(shù)的興起正完成對各傳統(tǒng)領(lǐng)域的顛覆。全球范圍內(nèi),運用大數(shù)據(jù)推動經(jīng)濟(jì)發(fā)展、完善社會治理、提升政府服務(wù)和監(jiān)管能力正成為趨勢。各國已相繼制定實施大數(shù)據(jù)戰(zhàn)略性文件,大力推動大數(shù)據(jù)發(fā)展和應(yīng)用。從全球大數(shù)據(jù)發(fā)展的趨勢來看,大數(shù)據(jù)產(chǎn)業(yè)推動社會生產(chǎn)要素的網(wǎng)絡(luò)化共享、集約化整合、協(xié)作開發(fā)和高效利用,改變了傳統(tǒng)的生產(chǎn)方式和經(jīng)濟(jì)運行機(jī)制,可顯著提升經(jīng)濟(jì)運行水平和效率。

中國是數(shù)據(jù)生產(chǎn)大國。目前,中國互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)用戶規(guī)模居全球第一,擁有豐富的數(shù)據(jù)資源和應(yīng)用市場優(yōu)勢。筆者認(rèn)為,如果能在大數(shù)據(jù)管理和分析技術(shù)的研發(fā)與應(yīng)用方面取得突破,可持續(xù)推動創(chuàng)新企業(yè)和創(chuàng)新應(yīng)用的高速成長。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論