大數(shù)據(jù)網(wǎng)管運營數(shù)據(jù)存儲模式研究

在數(shù)據(jù)存儲過程中,按照數(shù)據(jù)價值和生命周期管理原則(熱數(shù)據(jù)對存儲性能要求高,隨著數(shù)據(jù)生命周期的變化,數(shù)據(jù)價值降低,逐漸向一般性能存儲遷移,其中數(shù)據(jù)價值的參考項包括時效性、訪問頻率、價值密度、業(yè)務(wù)意義等),可以將不同數(shù)據(jù)分類存儲,制定不同的存儲方式及存儲周期。

隨著近兩年通信流量業(yè)務(wù)開展得如火如荼,更多的用戶上網(wǎng)行為的數(shù)據(jù)分析需求猛增,而處理這類數(shù)據(jù)需要大量的寫入處理,而且字段不固定,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫已無法滿足需求,急需多節(jié)點的分布式大數(shù)據(jù)集群來解決數(shù)據(jù)處理及存儲問題。

本研究構(gòu)建了一套大數(shù)據(jù)采集、存儲體系,將系統(tǒng)分為采集層、ODS、DW、DM等四層,分別完成海量數(shù)據(jù)的采集、匯總、處理、生成價值數(shù)據(jù)過程中的不同環(huán)節(jié)。其中,采集層負責原始數(shù)據(jù)的采集,ODS層負責統(tǒng)一不同系統(tǒng)間的業(yè)務(wù)內(nèi)容,對部分海量數(shù)據(jù)的非結(jié)構(gòu)化數(shù)據(jù)進行轉(zhuǎn)換。DW層是以空間換時間的一層,要形成大量的基礎(chǔ)Cube,基礎(chǔ)常用業(yè)務(wù)粒度的數(shù)據(jù)。實現(xiàn)統(tǒng)一的KPI過程,是ODS層指標轉(zhuǎn)換的基礎(chǔ)。DM層主要是面向業(yè)務(wù)的組合,面向分析的Cube變換,面向挖掘的數(shù)據(jù)變換。

數(shù)據(jù)分類存儲

在數(shù)據(jù)存儲過程中,按照數(shù)據(jù)價值和生命周期管理原則(熱數(shù)據(jù)對存儲性能要求高,隨著數(shù)據(jù)生命周期的變化,數(shù)據(jù)價值降低,逐漸向一般性能存儲遷移,其中數(shù)據(jù)價值的參考項包括時效性、訪問頻率、價值密度、業(yè)務(wù)意義等),可以將不同數(shù)據(jù)分類存儲,制定不同的存儲方式及存儲周期。

對于采集層的原始數(shù)據(jù),將采集層的數(shù)據(jù)加載到基礎(chǔ)數(shù)據(jù)緩存,為數(shù)據(jù)整合提供緩存,其中大數(shù)據(jù)1~3天,傳統(tǒng)數(shù)據(jù)7天。對于ODS層數(shù)據(jù),通過內(nèi)存庫關(guān)聯(lián)與整合,ETL為ODM提供完整、準確的數(shù)據(jù)。該層存儲周期:大數(shù)據(jù)3個月,傳統(tǒng)數(shù)據(jù)1年。對于DW層數(shù)據(jù),通過基于數(shù)據(jù)模型的并行計算域數(shù)據(jù)庫計算,提供多用途的輕度匯總,該層數(shù)據(jù)類型主要為按維度、事實組織的數(shù)據(jù),存儲周期為3年。

數(shù)據(jù)處理及存儲過程采用了分布式架構(gòu),其中有兩項關(guān)鍵技術(shù)—HDFS和MapReduce,應(yīng)用這兩項技術(shù)能給系統(tǒng)帶來如下技術(shù)優(yōu)勢。

Hadoop分布式文件系統(tǒng)適合運行在通用硬件(x86服務(wù)器)上的分布式文件系統(tǒng),HDFS對外開放文件命名空間并允許用戶數(shù)據(jù)以文件形式存儲;MapReduce能自動將一個作業(yè)(Job)待處理的大數(shù)據(jù)劃分為很多個數(shù)據(jù)塊,每個數(shù)據(jù)塊對應(yīng)于一個計算任務(wù)(Task),并自動調(diào)度計算節(jié)點來處理相應(yīng)的數(shù)據(jù)塊。作業(yè)和任務(wù)調(diào)度功能主要負責分配和調(diào)度計算節(jié)點(Map節(jié)點或Reduce節(jié)點),同時負責監(jiān)控這些節(jié)點的執(zhí)行狀態(tài),并負責Map節(jié)點執(zhí)行的同步控制。

具體應(yīng)用案例

通過該系統(tǒng)的推進落地,吉林省完成了省內(nèi)大數(shù)據(jù)處理平臺—數(shù)據(jù)共享平臺的建設(shè),該系統(tǒng)日均處理數(shù)據(jù)超過10T左右,并為吉林省內(nèi)多個上層應(yīng)用提供了數(shù)據(jù)支撐,比如互聯(lián)網(wǎng)端到端系統(tǒng)能以四大類關(guān)鍵業(yè)務(wù)(網(wǎng)頁瀏覽類、視頻類、即時通信類、應(yīng)用下載類)進行端到端質(zhì)量分析,通過五元五階分析定位方法,能夠定位質(zhì)差業(yè)務(wù)SP、質(zhì)差小區(qū)、質(zhì)差核心網(wǎng)網(wǎng)元、質(zhì)差終端等,并找出業(yè)務(wù)問題原因;CSFB業(yè)務(wù)質(zhì)量分析系統(tǒng)能實現(xiàn)全流程質(zhì)量概況分析、全流程質(zhì)差網(wǎng)元問題定位分析;客戶滿意度畫像從覆蓋質(zhì)量、網(wǎng)絡(luò)感知等網(wǎng)絡(luò)指標判斷用戶滿意度,做到在被投訴之前發(fā)現(xiàn)問題。

這些應(yīng)用在吉林省內(nèi)日常的網(wǎng)絡(luò)問題分析、優(yōu)化,業(yè)務(wù)預(yù)測、發(fā)展支撐等方面發(fā)揮著有力的數(shù)據(jù)支撐作用。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論