大數(shù)據(jù)概念解析之數(shù)據(jù)倉庫簡介

加米谷大數(shù)據(jù)張老師
數(shù)據(jù)倉庫,有一個被廣泛接受的定義:數(shù)據(jù)倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrated)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策(Decision Making Support)。

在大數(shù)據(jù)系統(tǒng)平臺當中,數(shù)據(jù)存儲、數(shù)據(jù)庫、數(shù)據(jù)倉庫是非常重要的概念,共同支持大數(shù)據(jù)存儲的實際需求。在大數(shù)據(jù)處理當中,大數(shù)據(jù)存儲這個環(huán)節(jié),數(shù)據(jù)倉庫技術起到重要的作用。今天我們來對數(shù)據(jù)倉庫做一個簡單的介紹。

什么是數(shù)據(jù)倉庫?

數(shù)據(jù)倉庫,有一個被廣泛接受的定義:數(shù)據(jù)倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrated)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策(Decision Making Support)。

具體來說,數(shù)據(jù)倉庫就是一個數(shù)據(jù)集合,它通常具備以下特性:

數(shù)據(jù)倉庫是面向主題構建的,每個主題就是一個可直接用于分析的主體;

數(shù)據(jù)倉庫的數(shù)據(jù)都是集成的,它的數(shù)據(jù)來源很豐富,為了分析方便,對多種數(shù)據(jù)做了集成;

數(shù)據(jù)倉庫的數(shù)據(jù)是相對穩(wěn)定的,不會出現(xiàn)短時間內頻繁更新數(shù)據(jù)倉庫中數(shù)據(jù)的情況;

數(shù)據(jù)倉庫的數(shù)據(jù)都是已經發(fā)生的歷史事實,且保留時間較長,因此如果拉長時間線,是可以看到數(shù)據(jù)的歷史變化情況的;

數(shù)據(jù)倉庫的目標就是支撐分析工作,用于管理決策,使得企業(yè)獲得更好的發(fā)展。

在企業(yè)的實際業(yè)務場景當中,數(shù)據(jù)倉庫的核心應用場景就是數(shù)據(jù)分析。數(shù)據(jù)倉庫就是面向分析構建的,數(shù)據(jù)倉庫的存在就是為了更加高效方便地支撐數(shù)據(jù)分析。

數(shù)據(jù)倉庫的優(yōu)勢是什么?

1、完全面向分析構建。

數(shù)據(jù)倉庫的目標就是為了更高效方便地做數(shù)據(jù)分析,因此數(shù)據(jù)倉庫整個數(shù)據(jù)的組織結構也是完全根據(jù)分析需要設計的。它是由多個面向特定方向的分析主題組成的,這樣可以使得分析任務變得簡單,數(shù)據(jù)更容易獲取,最大化地發(fā)揮數(shù)據(jù)的效用。

2、可以處理大數(shù)據(jù)量場景。

數(shù)據(jù)倉庫不需要太在意響應性能,因為它通常是用來供分析使用的,不會直接用于與用戶交互的場景。因此,可以存儲大量的歷史事實數(shù)據(jù),完成跨度較大的歷史趨勢變化的分析。

3、集成多種數(shù)據(jù)。

數(shù)據(jù)倉庫中的數(shù)據(jù),是將企業(yè)中分散的、不統(tǒng)一的數(shù)據(jù),經過ETL集成到一起。這樣,可以提升數(shù)據(jù)的豐富性,多種數(shù)據(jù)的融合,能夠連接出新的可能性,發(fā)揮出更大的作用,分析出單個數(shù)據(jù)集無法得出的結論。

Hadoop生態(tài)下的數(shù)據(jù)倉庫Hive

進入大數(shù)據(jù)時代之后,基于Hadoop基礎架構,Hive作為分布式數(shù)據(jù)倉庫被大家熟知。

Hive構建于Apache Hadoop之上,滿足企業(yè)實際場景下的數(shù)據(jù)需求:

通過SQL輕松訪問數(shù)據(jù)的工具,從而實現(xiàn)數(shù)據(jù)倉庫任務,如提取/轉換/加載(ETL),報告和數(shù)據(jù)分析;

訪問直接存儲在Hadoop HDFS或其他數(shù)據(jù)存儲系統(tǒng)(如Apache HBase)中的文件;

通過Apache Tez,Apache Spark或MapReduce執(zhí)行查詢;

通過Hive LLAP,Apache YARN和Apache Slider進行亞秒級查詢檢索。

今天的大數(shù)據(jù)概念解析,數(shù)據(jù)倉庫入門,以上就為大家做了簡單的介紹了。數(shù)據(jù)倉庫作為支持大數(shù)據(jù)分析處理的重要一環(huán),也是大數(shù)據(jù)系統(tǒng)架構當中的重要組成部分,從基礎入門到逐步深入,需要不斷加深理解和掌握。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論