數(shù)據入湖的方式和應用場景

對于需要進行復雜數(shù)據清理和轉換且數(shù)據量較大的場景,批量集成是首選。通常,調度作業(yè)每小時或每天執(zhí)行,主要包含ETL、ELT和FTP等工具。批量集成不適合低數(shù)據延遲和高靈活性的場景。

本文來自微信公眾號“ruby的數(shù)據漫談”,作者/ruby。

隨著湖倉一體技術架構的興起,湖倉一體可以結合數(shù)據湖和數(shù)據倉庫的優(yōu)勢,將會成為數(shù)據庫行業(yè)的未來趨勢,但是由于湖倉一體可以完成數(shù)據的統(tǒng)一存儲和加工計算,可以為企業(yè)提供面向應用的統(tǒng)一供給,但是由于很多企業(yè)已經有數(shù)據倉庫和數(shù)據庫系統(tǒng),湖倉一體技術架構無法解決架構升級帶來的數(shù)據遷移的巨大成本,且部分數(shù)據倉庫系統(tǒng)仍然可以發(fā)揮作用,因此,湖倉一體必須支持多種數(shù)據入湖的方式,兼顧成本和功能的作用。

01

數(shù)據入湖的方式

數(shù)據入湖的方式有多種,以下是一些常見的方式:

1.批量導入:將數(shù)據從現(xiàn)有的數(shù)據源中以批處理的方式導入數(shù)據湖中,可以使用ETL(Extract,Transform,Load)工具或編寫腳本來完成。

應用場景:對于需要進行復雜數(shù)據清理和轉換且數(shù)據量較大的場景,批量集成是首選。通常,調度作業(yè)每小時或每天執(zhí)行,主要包含ETL、ELT和FTP等工具。批量集成不適合低數(shù)據延遲和高靈活性的場景。

2.實時流式導入:將數(shù)據以流的方式持續(xù)導入數(shù)據湖中,可以利用流處理引擎如Kafka、Flume、Spark Streaming等來實現(xiàn)。

應用場景:主要關注流數(shù)據的采集和處理,滿足數(shù)據實時集成需求,處理每秒數(shù)萬甚至數(shù)十萬個事件流,有時甚至數(shù)以百萬計的事件流。流集成不適合需要復雜數(shù)據清理和轉換的場景。

3.數(shù)據復制:將數(shù)據從現(xiàn)有的數(shù)據庫或數(shù)據倉庫中復制到數(shù)據湖,可以使用復制工具或者數(shù)據湖服務來完成。使用基于日志的CDC捕獲數(shù)據變更,實時獲取數(shù)據。

應用場景:數(shù)據復制同步不適合處理各種數(shù)據結構以及需要清理和轉換復雜數(shù)據的場景。

4.API接入:通過數(shù)據湖平臺提供的API接口將數(shù)據直接導入數(shù)據湖中。

應用場景:通常通過API捕獲或提取數(shù)據,適用于處理不同數(shù)據結構以及需要高可靠性和復雜轉換的場景。尤其對于許多遺留系統(tǒng)、ERP和SaaS來說,消息集成是唯一的選擇。消息集成不適合處理大量數(shù)據的場景。

5.數(shù)據虛擬化:數(shù)據入湖中的數(shù)據虛擬化是指在數(shù)據湖中使用虛擬化技術,將數(shù)據源的數(shù)據映射到數(shù)據湖中,而不需要復制或移動實際的數(shù)據。數(shù)據虛擬化通過創(chuàng)建虛擬視圖來實現(xiàn),它們是對實際數(shù)據源的查詢和訪問,但并不實際復制或移動數(shù)據。虛擬化技術提供了一個統(tǒng)一的數(shù)據訪問接口,將不同數(shù)據源的數(shù)據視為一體,屏蔽了數(shù)據源背后的細節(jié),使得用戶可以方便地查詢和分析數(shù)據。數(shù)據虛擬化產品的架構一般有兩種實現(xiàn)方式,聯(lián)邦查詢和實時鏡像。

其中數(shù)據虛擬化是不需要將數(shù)據復制到數(shù)據湖中,而是提供一個數(shù)據共享訪問層實現(xiàn)數(shù)據的訪問。這樣避免了大量的數(shù)據復制工作,實時鏡像還是有部分存儲成本。

02

數(shù)據入湖方式的對比

不同入湖方式的實時性和對源系統(tǒng)的性能要求不同,以下是對照表:

1.png

03

非結構化數(shù)據入湖特殊說明

非結構化數(shù)據包括無格式的文本、各類格式的文檔、圖像、音頻、視頻等多樣異構的格式文件。那么非結構化數(shù)據入湖在以上的5種入湖方式上需要進行特殊說明:

一、非結構化數(shù)據的元數(shù)據包含基本信息和內容增強類,具體可以參考都柏林核心元數(shù)據標準。非結構化數(shù)據的元數(shù)據包含基本信息主要包含名稱、格式、存儲大小、Owner、存儲位置、創(chuàng)建時間、修改時間等基本特征。而增強內容特征主要包含標簽、相似性檢索、相似性連接等。

二、而非結構化數(shù)據入湖則可以包含元數(shù)據入湖和原始文件入湖兩種類型,原始文件如何入湖可以參見以上的4種入湖方式,而元數(shù)據入湖主要包含3種類型:

1、基本特征元數(shù)據入湖:主要通過從源端集成的文檔本身的基本信息入湖。入湖的過程中,數(shù)據內容仍存儲在源系統(tǒng),數(shù)據湖中僅存儲非結構化數(shù)據的基本特征元數(shù)據。

2、文件解析內容入湖:對數(shù)據源的文件內容進行文本解析、拆分后入湖。入湖的過程中,原始文件仍存儲在源系統(tǒng),數(shù)據湖中僅存儲解析后的內容增強元數(shù)據。

3、文件關系入湖:根據知識圖譜等應用案例在源端提取的文件上下文關系入湖。入湖的過程中,原始文件仍存儲在源系統(tǒng),數(shù)據湖中僅存儲文件的關系等內容增強元數(shù)據。

其中1是非結構化數(shù)據的基本信息,2和3是非結構化數(shù)據的增強內容特征,而這三種方式的原始數(shù)據依然存儲在原始的存儲系統(tǒng)中。

總結一下,通過數(shù)據虛擬化和非結構化數(shù)據的基本信息和內容增強內容入湖的方式可以減少湖倉一體新的技術架構建設過程中造成大量的數(shù)據遷移的成本。也可以實現(xiàn)湖倉一體的數(shù)據統(tǒng)一管理和處理。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論