亚洲欧美日韩精品久久无广告,亚洲综合欧美日韩,亚1州区2区3区4区产品图片

數(shù)據入湖的方式和應用場景

2023-08-15 11:54

ruby的數(shù)據漫談

ruby

對于需要進行復雜數(shù)據清理和轉換且數(shù)據量較大的場景，批量集成是首選。通常，調度作業(yè)每小時或每天執(zhí)行，主要包含ETL、ELT和FTP等工具。批量集成不適合低數(shù)據延遲和高靈活性的場景。

本文來自微信公眾號“ruby的數(shù)據漫談”，作者/ruby。

隨著湖倉一體技術架構的興起，湖倉一體可以結合數(shù)據湖和數(shù)據倉庫的優(yōu)勢，將會成為數(shù)據庫行業(yè)的未來趨勢，但是由于湖倉一體可以完成數(shù)據的統(tǒng)一存儲和加工計算，可以為企業(yè)提供面向應用的統(tǒng)一供給，但是由于很多企業(yè)已經有數(shù)據倉庫和數(shù)據庫系統(tǒng)，湖倉一體技術架構無法解決架構升級帶來的數(shù)據遷移的巨大成本，且部分數(shù)據倉庫系統(tǒng)仍然可以發(fā)揮作用，因此，湖倉一體必須支持多種數(shù)據入湖的方式，兼顧成本和功能的作用。

數(shù)據入湖的方式

數(shù)據入湖的方式有多種，以下是一些常見的方式：

1.批量導入：將數(shù)據從現(xiàn)有的數(shù)據源中以批處理的方式導入數(shù)據湖中，可以使用ETL（Extract,Transform,Load）工具或編寫腳本來完成。

應用場景：對于需要進行復雜數(shù)據清理和轉換且數(shù)據量較大的場景，批量集成是首選。通常，調度作業(yè)每小時或每天執(zhí)行，主要包含ETL、ELT和FTP等工具。批量集成不適合低數(shù)據延遲和高靈活性的場景。

2.實時流式導入：將數(shù)據以流的方式持續(xù)導入數(shù)據湖中，可以利用流處理引擎如Kafka、Flume、Spark Streaming等來實現(xiàn)。

應用場景：主要關注流數(shù)據的采集和處理，滿足數(shù)據實時集成需求，處理每秒數(shù)萬甚至數(shù)十萬個事件流，有時甚至數(shù)以百萬計的事件流。流集成不適合需要復雜數(shù)據清理和轉換的場景。

3.數(shù)據復制：將數(shù)據從現(xiàn)有的數(shù)據庫或數(shù)據倉庫中復制到數(shù)據湖，可以使用復制工具或者數(shù)據湖服務來完成。使用基于日志的CDC捕獲數(shù)據變更，實時獲取數(shù)據。

應用場景：數(shù)據復制同步不適合處理各種數(shù)據結構以及需要清理和轉換復雜數(shù)據的場景。

4.API接入：通過數(shù)據湖平臺提供的API接口將數(shù)據直接導入數(shù)據湖中。

應用場景：通常通過API捕獲或提取數(shù)據，適用于處理不同數(shù)據結構以及需要高可靠性和復雜轉換的場景。尤其對于許多遺留系統(tǒng)、ERP和SaaS來說，消息集成是唯一的選擇。消息集成不適合處理大量數(shù)據的場景。

5.數(shù)據虛擬化：數(shù)據入湖中的數(shù)據虛擬化是指在數(shù)據湖中使用虛擬化技術，將數(shù)據源的數(shù)據映射到數(shù)據湖中，而不需要復制或移動實際的數(shù)據。數(shù)據虛擬化通過創(chuàng)建虛擬視圖來實現(xiàn)，它們是對實際數(shù)據源的查詢和訪問，但并不實際復制或移動數(shù)據。虛擬化技術提供了一個統(tǒng)一的數(shù)據訪問接口，將不同數(shù)據源的數(shù)據視為一體，屏蔽了數(shù)據源背后的細節(jié)，使得用戶可以方便地查詢和分析數(shù)據。數(shù)據虛擬化產品的架構一般有兩種實現(xiàn)方式，聯(lián)邦查詢和實時鏡像。

其中數(shù)據虛擬化是不需要將數(shù)據復制到數(shù)據湖中，而是提供一個數(shù)據共享訪問層實現(xiàn)數(shù)據的訪問。這樣避免了大量的數(shù)據復制工作，實時鏡像還是有部分存儲成本。

數(shù)據入湖方式的對比

不同入湖方式的實時性和對源系統(tǒng)的性能要求不同，以下是對照表：

非結構化數(shù)據入湖特殊說明

非結構化數(shù)據包括無格式的文本、各類格式的文檔、圖像、音頻、視頻等多樣異構的格式文件。那么非結構化數(shù)據入湖在以上的5種入湖方式上需要進行特殊說明：

一、非結構化數(shù)據的元數(shù)據包含基本信息和內容增強類，具體可以參考都柏林核心元數(shù)據標準。非結構化數(shù)據的元數(shù)據包含基本信息主要包含名稱、格式、存儲大小、Owner、存儲位置、創(chuàng)建時間、修改時間等基本特征。而增強內容特征主要包含標簽、相似性檢索、相似性連接等。

二、而非結構化數(shù)據入湖則可以包含元數(shù)據入湖和原始文件入湖兩種類型，原始文件如何入湖可以參見以上的4種入湖方式，而元數(shù)據入湖主要包含3種類型：

1、基本特征元數(shù)據入湖：主要通過從源端集成的文檔本身的基本信息入湖。入湖的過程中，數(shù)據內容仍存儲在源系統(tǒng)，數(shù)據湖中僅存儲非結構化數(shù)據的基本特征元數(shù)據。

2、文件解析內容入湖：對數(shù)據源的文件內容進行文本解析、拆分后入湖。入湖的過程中，原始文件仍存儲在源系統(tǒng)，數(shù)據湖中僅存儲解析后的內容增強元數(shù)據。

3、文件關系入湖：根據知識圖譜等應用案例在源端提取的文件上下文關系入湖。入湖的過程中，原始文件仍存儲在源系統(tǒng)，數(shù)據湖中僅存儲文件的關系等內容增強元數(shù)據。

其中1是非結構化數(shù)據的基本信息，2和3是非結構化數(shù)據的增強內容特征，而這三種方式的原始數(shù)據依然存儲在原始的存儲系統(tǒng)中。

總結一下，通過數(shù)據虛擬化和非結構化數(shù)據的基本信息和內容增強內容入湖的方式可以減少湖倉一體新的技術架構建設過程中造成大量的數(shù)據遷移的成本。也可以實現(xiàn)湖倉一體的數(shù)據統(tǒng)一管理和處理。

THEEND

免責聲明：凡注明為其它來源的信息均轉自其它平臺，由網友自主投稿和發(fā)布、編輯整理上傳，對此類作品本站僅提供交流平臺，不為其版權負責。本網站對有關資料所引致的錯誤、不確或遺漏，概不負任何法律責任。若有來源標注錯誤或侵犯了您的合法權益，請作者持權屬證明與本站聯(lián)系，我們將及時更正、刪除，謝謝。聯(lián)系郵箱：xiali@infoobs.com

本月熱門

云計算的江湖，風云再起

10月8日
揭秘，IOTE國際物聯(lián)網展2025年巡展預告!

10月8日
防勒索病毒攻擊關鍵措施

10月8日
匯聚行業(yè)精英，探討前沿技術第十九屆汽車涂裝工藝技術研討會即將啟幕!

10月8日
網博會革新升級：“區(qū)域頻道”精準選型引領，引領智能制造新風潮

10月8日
萬億賽道!AI算力趨勢發(fā)展深度分析 2024

10月9日

精選文章

熱點資訊

國家發(fā)改委:完善政府誠信履約機制優(yōu)化民營經濟發(fā)展環(huán)境

數(shù)據入湖的方式和應用場景

2024 信息化觀察網

長按掃描二維碼閱讀原文

數(shù)據入湖的方式和應用場景

最新評論（評論僅代表用戶觀點）

解碼制造企業(yè)的智慧引擎：物料主數(shù)據管理

云存儲應急演練體系建立及場景設計

中國氣象局強化全球天氣監(jiān)測預報服務

到2026年，邊緣數(shù)據中心市場將超過3000億美元

本月熱門

云計算的江湖，風云再起

揭秘，IOTE國際物聯(lián)網展2025年巡展預告!

防勒索病毒攻擊關鍵措施

匯聚行業(yè)精英，探討前沿技術第十九屆汽車涂裝工藝技術研討會即將啟幕!

網博會革新升級：“區(qū)域頻道”精準選型引領，引領智能制造新風潮

萬億賽道!AI算力趨勢發(fā)展深度分析 2024

精選文章

“法人國際電子護照”——CFCA支持簽發(fā)LEI數(shù)字證書

重磅首發(fā)!“2022-2023大數(shù)據創(chuàng)新成果榜”揭曉

杰成合力科技榮獲“2022業(yè)務流程管理信息化領航企業(yè)”

“2022（第六屆）中國行業(yè)數(shù)字化年度風云榜”評選榜單揭曉

2023年信創(chuàng)“大比武”金融業(yè)務創(chuàng)新應用賽道總決賽賽程預告

市委統(tǒng)戰(zhàn)部領導一行赴武漢大數(shù)據公司調研數(shù)據要素市場化發(fā)展及實踐成果

熱點資訊

共筑數(shù)字未來|深度解析數(shù)字化轉型與建設的戰(zhàn)略指南

數(shù)據要素X政策寶：引領企業(yè)和政策數(shù)據服務的新浪潮

政策寶|構筑企業(yè)與政策間的高效數(shù)據通道，跑出惠企助企加速度

政策智能匹配與業(yè)務線索：企業(yè)騰飛的雙重動力引擎!

鼎好DH3煥新顏，美的樓宇科技助力中關村地標綠色新生

國家發(fā)改委:完善政府誠信履約機制優(yōu)化民營經濟發(fā)展環(huán)境

微短?。洪L、短視頻的新生意

數(shù)據入湖的方式和應用場景

最新評論（評論僅代表用戶觀點）

欄目推薦

解碼制造企業(yè)的智慧引擎：物料主數(shù)據管理

云存儲應急演練體系建立及場景設計

中國氣象局強化全球天氣監(jiān)測預報服務

到2026年，邊緣數(shù)據中心市場將超過3000億美元

本月熱門

精選文章

熱點資訊

國家發(fā)改委:完善政府誠信履約機制 優(yōu)化民營經濟發(fā)展環(huán)境

微短?。洪L、短視頻的新生意

到2026年，邊緣數(shù)據中心市場將超過3000億美元

國家發(fā)改委:完善政府誠信履約機制優(yōu)化民營經濟發(fā)展環(huán)境

微短?。洪L、短視頻的新生意