如何理解數(shù)據(jù)湖?建好數(shù)據(jù)湖?這篇文章很有用

企業(yè)數(shù)字化的轉(zhuǎn)型必然產(chǎn)生大量數(shù)據(jù),如何有效存儲、治理和利用這些結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)促進(jìn)企業(yè)業(yè)務(wù)發(fā)展是所有企業(yè)面臨的共同挑戰(zhàn)。為解決這些挑戰(zhàn),業(yè)界提出了數(shù)據(jù)湖的新型數(shù)據(jù)架構(gòu)。金融企業(yè)有很強(qiáng)烈的訴求搭建自己的數(shù)據(jù)湖。

企業(yè)數(shù)字化的轉(zhuǎn)型必然產(chǎn)生大量數(shù)據(jù),如何有效存儲、治理和利用這些結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)促進(jìn)企業(yè)業(yè)務(wù)發(fā)展是所有企業(yè)面臨的共同挑戰(zhàn)。為解決這些挑戰(zhàn),業(yè)界提出了數(shù)據(jù)湖的新型數(shù)據(jù)架構(gòu)。金融企業(yè)有很強(qiáng)烈的訴求搭建自己的數(shù)據(jù)湖。

但很多人對數(shù)據(jù)倉庫、數(shù)據(jù)湖、數(shù)據(jù)中臺等基本概念的認(rèn)識依然有模糊,圍繞為什么建、怎么建、項目過程中注意事項等幾方面也有很多問題。日前twt社區(qū)組織線上交流對此進(jìn)行了熱烈討論。以下由專家 xclu_csdc(資深架構(gòu)師)對活動中的分享內(nèi)容進(jìn)行了系統(tǒng)梳理,供大家參考。

一、基本概念

1 、如何理解“數(shù)據(jù)湖”的概念?這與“數(shù)據(jù)倉庫”“數(shù)據(jù)中臺”“大數(shù)據(jù)平臺”都是些什么關(guān)系?

@劉懷行 河南凱姆敦克 售前技術(shù)支持 :

數(shù)據(jù)湖的概念可以這樣理解,數(shù)據(jù)湖是將結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù),統(tǒng)一放在一個數(shù)據(jù)池里,大數(shù)據(jù)平臺提供數(shù)據(jù)服務(wù),大數(shù)據(jù)分析軟件會根據(jù)數(shù)據(jù)使用頻率分級存儲,底層采用 SSD 固態(tài)硬盤來提供 10% 的熱數(shù)據(jù)計算和利用,使用 SATA 硬盤,提供 10-20% 的溫數(shù)據(jù)相當(dāng)于近 1-2 年重復(fù)使用的數(shù)據(jù),采用磁帶或藍(lán)光光盤等形式提供 80% 的近線 + 離線數(shù)據(jù),采用分級存儲可滿足數(shù)據(jù)的全生命周期管理的需求和法律法規(guī)、檔案相關(guān)的規(guī)定和要求。

@山東膻羊肉 ASIA 售前技術(shù)支持:

以下基于aws咨詢。

根據(jù)要求,典型的組織將需要數(shù)據(jù)倉庫和數(shù)據(jù)湖,因為它們可滿足不同的需求和使用案例。數(shù)據(jù)倉庫是一個優(yōu)化的數(shù)據(jù)庫,用于分析來自事務(wù)系統(tǒng)和業(yè)務(wù)線應(yīng)用程序的關(guān)系數(shù)據(jù)。事先定義數(shù)據(jù)結(jié)構(gòu)和 Schema 以優(yōu)化快速 SQL 查詢,其中結(jié)果通常用于操作報告和分析。數(shù)據(jù)經(jīng)過了清理、豐富和轉(zhuǎn)換,因此可以充當(dāng)用戶可信任的“單一信息源”。

數(shù)據(jù)湖有所不同,因為它存儲來自業(yè)務(wù)線應(yīng)用程序的關(guān)系數(shù)據(jù),以及來自移動應(yīng)用程序、 IoT 設(shè)備和社交媒體的非關(guān)系數(shù)據(jù)。捕獲數(shù)據(jù)時,未定義數(shù)據(jù)結(jié)構(gòu)或 Schema 。這意味著您可以存儲所有數(shù)據(jù),而不需要精心設(shè)計也無需知道將來您可能需要哪些問題的答案。您可以對數(shù)據(jù)使用不同類型的分析(如 SQL 查詢、大數(shù)據(jù)分析、全文搜索、實時分析和機(jī)器學(xué)習(xí))來獲得見解。

隨著使用數(shù)據(jù)倉庫的組織看到數(shù)據(jù)湖的優(yōu)勢,他們正在改進(jìn)其倉庫以包括數(shù)據(jù)湖,并啟用各種查詢功能、數(shù)據(jù)科學(xué)使用案例和用于發(fā)現(xiàn)新信息模型的高級功能。Gartner 將此演變稱為“分析型數(shù)據(jù)管理解決方案”或“ DMSA ”。

2、數(shù)據(jù)湖與大數(shù)據(jù)平臺的區(qū)別?

目前使用較多的是基于 hadoop 的大數(shù)據(jù)平臺。主流 lamdba , kappa 架構(gòu)與數(shù)據(jù)湖相比在需求、技術(shù)、業(yè)務(wù)領(lǐng)域有什么區(qū)別?什么情況下需要將大數(shù)據(jù)平臺改造為數(shù)據(jù)湖?

@xclu_csdc 軟件開發(fā)工程師:

個人認(rèn)為數(shù)據(jù)湖和大數(shù)據(jù)平臺并沒有本質(zhì)的區(qū)別,僅是概念上的不同,都是為解決企業(yè)面臨的海量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)存儲、治理和使用等問題,所使用的技術(shù)棧也基本類似。上述提到的 lamdba 和 kappa 架構(gòu)是具體的一種實時數(shù)據(jù)處理技術(shù),范圍更小,是數(shù)據(jù)湖中的一個子集。個人認(rèn)為不需要關(guān)注過于關(guān)注概念,更應(yīng)該關(guān)注企業(yè)的業(yè)務(wù)場景,使用大數(shù)據(jù)平臺或數(shù)據(jù)湖等等概念均可以,只要解決了業(yè)務(wù)問題即可。

3 、傳統(tǒng)數(shù)據(jù)倉庫與數(shù)據(jù)中臺有什么差異點?

@zhuqibs Mcd 軟件開發(fā)工程師:

兩者的側(cè)重點完全不一樣

( 1 )傳統(tǒng)的數(shù)據(jù)倉庫,做的是數(shù)據(jù)的聚集,將幾個數(shù)據(jù)孤島的數(shù)據(jù)匯總起來,做一定維度上的聚集和提煉;

( 2 )數(shù)據(jù)中臺,其實是做數(shù)據(jù)的標(biāo)準(zhǔn)化,也就是做數(shù)據(jù)治理、數(shù)據(jù)管控,使得數(shù)據(jù)資產(chǎn)化,可以供各個業(yè)務(wù)所使用。

所以,數(shù)據(jù)中臺的概念是包含數(shù)據(jù)倉庫的,可以理解為數(shù)據(jù)倉庫升級。要遷移,不是容易的事,做數(shù)據(jù)中臺,你必須理解業(yè)務(wù),不然你怎么治理,你怎么補(bǔ)全缺失的數(shù)據(jù),你又怎么清洗數(shù)據(jù)。從某種意義上說,數(shù)據(jù)中臺提供的是數(shù)據(jù)的“產(chǎn)品”,是企業(yè)各業(yè)務(wù)環(huán)節(jié)可以使用的數(shù)據(jù),接近于數(shù)據(jù)湖的概念。

@youki2008 廣東溢達(dá) 系統(tǒng)架構(gòu)師:

數(shù)據(jù)中臺和數(shù)據(jù)倉庫的區(qū)別核心在于理念的不同,數(shù)據(jù)倉庫更多的是站在 IT 技術(shù)的角度,而數(shù)據(jù)中臺是站在 DT 的交付,更多是服務(wù)于業(yè)務(wù)的視角,一開始就強(qiáng)調(diào)業(yè)務(wù)引領(lǐng)。

@某金融企業(yè) 技術(shù)經(jīng)理:

( 1 )數(shù)倉主要是數(shù)據(jù)聚集,數(shù)據(jù)中臺主要是在數(shù)據(jù)集上增加相關(guān)數(shù)據(jù)處理,快速應(yīng)對業(yè)務(wù)需要

( 2 )我認(rèn)為這中間可以先不用做遷移,保留 T0 層數(shù)據(jù)

@zftang0809 合肥華宇隨身軟件 軟件開發(fā)工程師:

數(shù)據(jù)來源和建立數(shù)倉的目標(biāo)以及數(shù)據(jù)應(yīng)用的方向不同。

首先,從數(shù)據(jù)來源來說 ,數(shù)據(jù)中臺的數(shù)據(jù)來源期望是全域數(shù)據(jù)包括業(yè)務(wù)數(shù)據(jù)庫,日志數(shù)據(jù),埋點數(shù)據(jù),爬蟲數(shù)據(jù),外部數(shù)據(jù)等。

數(shù)據(jù)庫,日志數(shù)據(jù),埋點數(shù)據(jù),爬蟲數(shù)據(jù),外部數(shù)據(jù)等。數(shù)據(jù)的來源可以是結(jié)構(gòu)化數(shù)據(jù)或者非結(jié)構(gòu)化的數(shù)據(jù)。而傳統(tǒng)數(shù)倉的數(shù)據(jù)來源主要是業(yè)務(wù)數(shù)據(jù)庫,數(shù)據(jù)格式也是以結(jié)構(gòu)化數(shù)據(jù)為主。

其次,建立數(shù)據(jù)中臺的目標(biāo) 是為了融合整個企業(yè)的全部數(shù)據(jù),打通數(shù)據(jù)之間的隔閡,消除數(shù)據(jù)標(biāo)準(zhǔn)和口徑不一致的問題。數(shù)據(jù)中臺通常會對來自多方面的的基礎(chǔ)數(shù)據(jù)進(jìn)行清洗,按照主題域概念建立多個以事物為主的主題域比如用戶主題域,商品主題域,渠道主題域,門店主題域等等。數(shù)據(jù)中臺遵循三個 one 的概念:One Data, One ID, One Service , 就是說數(shù)據(jù)中臺不僅僅是匯聚企業(yè)各種數(shù)據(jù),而且讓這些數(shù)據(jù)遵循相同的標(biāo)準(zhǔn)和口徑,對事物的標(biāo)識能統(tǒng)一或者相互關(guān)聯(lián),并且提供統(tǒng)一的數(shù)據(jù)服務(wù)接口。就像做菜一樣,按照標(biāo)準(zhǔn)化的菜名,先把所有可能用到的材料都準(zhǔn)備好。而傳統(tǒng)的數(shù)倉主要用來做 BI 的報表,目的性很單一,只抽取和清洗該相關(guān)分析報表用到基礎(chǔ)數(shù)據(jù),新增一張報表,就要從底層到上層再做一次。

然后,在數(shù)據(jù)應(yīng)用方面 ,建立在數(shù)據(jù)中臺上的數(shù)據(jù)應(yīng)用 不僅僅只是面向于 BI 報表,更多面向營銷推薦,用戶畫像, AI 決策分析,風(fēng)險評估等 。而且這些應(yīng)用的特點是比較輕,容易快速開發(fā)出來,因為重要的數(shù)據(jù)分析工作在數(shù)據(jù)中臺已經(jīng)完成并且沉淀,之前工作成果都能被多個應(yīng)用共享。

4 、能否通俗地講下什么是結(jié)構(gòu)化數(shù)據(jù),什么是非結(jié)構(gòu)化數(shù)據(jù)?這與是否是關(guān)系型數(shù)據(jù)庫有關(guān)系嗎?

@youki2008 廣東溢達(dá) 系統(tǒng)架構(gòu)師:

結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)是大數(shù)據(jù)的兩種類型,這兩者之間并不存在真正的沖突。客戶如何選擇不是基于數(shù)據(jù)結(jié)構(gòu),而是基于使用它們的應(yīng)用程序:關(guān)系數(shù)據(jù)庫用于結(jié)構(gòu)化數(shù)據(jù),大多數(shù)其他類型的應(yīng)用程序用于非結(jié)構(gòu)化數(shù)據(jù)。

結(jié)構(gòu)化數(shù)據(jù)也稱作百行數(shù)據(jù),是由二維表結(jié)構(gòu)來邏輯表達(dá)和實現(xiàn)的數(shù)據(jù),嚴(yán)格地遵循數(shù)據(jù)格式與長度規(guī)范,主要通過關(guān)系型數(shù)據(jù)庫進(jìn)行存儲和管理。

與結(jié)構(gòu)化數(shù)據(jù)相對的是不適于由數(shù)據(jù)庫二維表來表現(xiàn)的非結(jié)構(gòu)化數(shù)據(jù),包括所有格式的辦公文檔、 XML 、 HTML 、各類報表、圖片和音頻、視頻信息等。

@塵世隨緣 上海某互聯(lián)網(wǎng)金融公司 技術(shù)總監(jiān):

曾經(jīng)講大數(shù)據(jù)課的時候給大伙舉過一個例子:

拿破侖的航海日志,只有人能看的懂,叫非結(jié)構(gòu)化數(shù)據(jù),后續(xù)的科學(xué)家把航海日志經(jīng)過加工、處理,變成機(jī)器可讀,這叫結(jié)構(gòu)化數(shù)據(jù)。

@geeksc okstor 存儲架構(gòu)師:

簡單的來說,結(jié)構(gòu)化數(shù)據(jù)之間有很強(qiáng)的關(guān)聯(lián)性,像學(xué)籍信息,姓名、性別、年齡、戶籍、專業(yè)、畢業(yè)院校等等;非結(jié)構(gòu)化數(shù)據(jù),大多是指 office 文件、圖片、音視頻等文件數(shù)據(jù),之間沒有或者有很少的關(guān)聯(lián)性。而關(guān)系型數(shù)據(jù)庫在實際環(huán)境中,基本上可以視為存儲或管理的都是結(jié)構(gòu)化數(shù)據(jù)。

二、為什么建?

5、相比數(shù)據(jù)倉庫和傳統(tǒng)數(shù)據(jù)庫,數(shù)據(jù)湖有什么優(yōu)勢?

@xclu_csdc 軟件開發(fā)工程師:

主要是能處理、存儲非結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)。

@zftang0809 合肥華宇隨身軟件 軟件開發(fā)工程師:

成本低、靈活、可擴(kuò)展性、多種存儲格式。

6、數(shù)據(jù)湖目前有什么局限性?

@xclu_csdc 軟件開發(fā)工程師:

建議關(guān)注具體的業(yè)務(wù)場景和業(yè)務(wù)問題和實際技術(shù)解決方案,對技術(shù)概念不必過多關(guān)注。

@zftang0809 合肥華宇隨身軟件 軟件開發(fā)工程師:

從定義上看,數(shù)據(jù)湖可以接收任何數(shù)據(jù),不受監(jiān)督或管理。沒有描述性的元數(shù)據(jù),和維護(hù)它的機(jī)制,數(shù)據(jù)湖會轉(zhuǎn)變成數(shù)據(jù)沼澤。如果沒有元數(shù)據(jù),所有對數(shù)據(jù)的后續(xù)使用都意味著從零開始對數(shù)據(jù)進(jìn)行分析。

7 、在金融行業(yè)中,數(shù)據(jù)湖一般可應(yīng)用于哪些場景,在這些場景中其具有哪些優(yōu)勢?

@李靜 XSKY 軟件架構(gòu)設(shè)計師:

常規(guī)理解數(shù)據(jù)湖的就是一個海量空間,可以包容所有數(shù)據(jù)和應(yīng)用,提供所需的所有接口,按需分配,自動精簡配置。

首先適合的是私有云平臺,現(xiàn)階段金融行業(yè)虛擬化的普及率很高,除了一些重載數(shù)據(jù)庫,大部分應(yīng)用都適合上虛擬化,所有私有云肯定是適合的應(yīng)用。第二是無紙化辦公,針對現(xiàn)階段雙錄系統(tǒng)的數(shù)據(jù)越來越多,文件數(shù)量也非常大,金融客戶逐步都在搭建非結(jié)構(gòu)化數(shù)據(jù)湖。第三大數(shù)據(jù)應(yīng)用,大數(shù)據(jù)現(xiàn)階段都在推廣存算分離,可以做好隔離和彈性擴(kuò)展,便于容災(zāi)等一系列優(yōu)勢。第四開發(fā)測試,開發(fā)測試區(qū)域應(yīng)用種類越來越多, vmware 、 openstack 、 docker 等多種平臺需求,對后端數(shù)據(jù)湖也提出了要求。

@xclu_csdc 軟件開發(fā)工程師:

目前數(shù)據(jù)湖一般作為大數(shù)據(jù)平臺的一個組成部分建設(shè)??捎糜跇I(yè)務(wù)辦理中產(chǎn)生的存儲圖片、掃描件、視頻等非結(jié)構(gòu)化數(shù)據(jù),也可以作為低成本的歷史數(shù)據(jù)存儲平臺,存儲交易明細(xì)、流水等歷史數(shù)據(jù)。

@yuandonglau 銀行 總經(jīng)理助理:

目前一般有兩種具體做法:一種是作為非結(jié)構(gòu)化體系的承載平臺,管理企業(yè)圖片、語音等文件,并為上層查詢和分析提供服務(wù),基本上是數(shù)倉的補(bǔ)充。另外一種是作為整個 lambda 架構(gòu)落地的邏輯概念,將倉庫也囊括其中,整體提供流和批的數(shù)據(jù) pipeline 邏輯服務(wù)。

三、如何建?

8 、數(shù)據(jù)湖的架構(gòu)體系是怎樣的?

@zftang0809 合肥華宇隨身軟件 軟件開發(fā)工程師:

一般可分為數(shù)據(jù)采集 -- 數(shù)據(jù)存儲 -- 數(shù)據(jù)計算 -- 數(shù)據(jù)應(yīng)用等功能。

9 、目前主流的開源和商用數(shù)據(jù)湖解決方案?

@xclu_csdc 軟件開發(fā)工程師:

對于傳統(tǒng)行業(yè),尤其是金融行業(yè)的企業(yè),不建議使用開源解決方案,其并不滿足《信息系統(tǒng)等級保護(hù)》等監(jiān)管機(jī)構(gòu)的要求,建議由廠商提供相應(yīng)解決方案,如華為、星環(huán)、阿里等。這些商用方案都有很多成功案例,技術(shù)上差距不大,不好簡單比較,主要看具體業(yè)務(wù)場景和技術(shù)人員的熟悉程度、廠商支持力度、商務(wù)價格等多種因素。

@zftang0809 合肥華宇隨身軟件 軟件開發(fā)工程師:

開源數(shù)據(jù)湖方案選型:Hudi 、 Delta 、 Iceberg 。

10 、數(shù)據(jù)湖如何搭建?大致有哪些步驟?

@yuandonglau 銀行 總經(jīng)理助理:

公有云上有非常成熟的方案,比如 aws 提供的 S3 、 EMR 、 Redshift , Athena 等組件,可以直接無縫組裝成 lambda 架構(gòu)落地方案。如果私有化設(shè)計相對比較麻煩,開源社區(qū)沒有一體化方案,基本上需要 hadoop 、 spark 、對象存儲、 flink 、數(shù)據(jù)聯(lián)邦一系列技術(shù)體系組裝成企業(yè)級的解決方案。

四、建設(shè)過程中注意事項

11 、數(shù)據(jù)湖在構(gòu)建實施的過程中會遇到哪些坑呢?

@xclu_csdc 軟件開發(fā)工程師:

我所經(jīng)歷過的,業(yè)務(wù)場景不明確、組織架構(gòu)不合理、人員能力不足、領(lǐng)導(dǎo)不夠重視、業(yè)務(wù)部門不配合、合作廠商不給力,很多問題并不是技術(shù)問題。

12 、怎么避免數(shù)據(jù)湖變成數(shù)據(jù)沼澤?

@zftang0809 合肥華宇隨身軟件 軟件開發(fā)工程師:

數(shù)據(jù)湖建設(shè)不成功,數(shù)據(jù)歸集、治理、應(yīng)用有問題,自然就成了沼澤。

13 、建設(shè)數(shù)據(jù)湖后有哪些挑戰(zhàn)?

@xclu_csdc 軟件開發(fā)工程師:

建議立項時業(yè)務(wù)場景一定要明確,解決了面臨的業(yè)務(wù)問題項目就基本成功。挑戰(zhàn)會有很多,數(shù)據(jù)安全、數(shù)據(jù)治理、團(tuán)隊建設(shè)等,但最重要的是要解決企業(yè)發(fā)展中面臨的業(yè)務(wù)問題,切實幫助業(yè)務(wù)部門提升業(yè)績、提升管理運(yùn)營效率。

@zftang0809 合肥華宇隨身軟件 軟件開發(fā)工程師:

主要要考慮元數(shù)據(jù)管理問題,包括數(shù)據(jù)治理和數(shù)據(jù)質(zhì)量之間缺乏協(xié)調(diào)、數(shù)據(jù)治理和數(shù)據(jù)安全之間缺乏協(xié)調(diào)、使用同一個數(shù)據(jù)湖的業(yè)務(wù)部門之間可能產(chǎn)生沖突等問題。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論