湖南水文大數(shù)據(jù)綜合庫(kù)及大數(shù)據(jù)平臺(tái)建設(shè)

信息化觀察網(wǎng)
北京艾力泰爾信息技術(shù)股份有限公司
基于融合的水文數(shù)據(jù)資源,搭建水文大數(shù)據(jù)平臺(tái),實(shí)現(xiàn)水文數(shù)據(jù)從源庫(kù)(原業(yè)務(wù)庫(kù))到綜合庫(kù)(新建設(shè)的水文大數(shù)據(jù)綜合庫(kù))處理過(guò)程的實(shí)時(shí)監(jiān)控,水文大數(shù)據(jù)平臺(tái)運(yùn)行情況監(jiān)控,水文綜合庫(kù)的數(shù)據(jù)資源可視化展示,數(shù)據(jù)分析產(chǎn)品的自由配置。

摘要:針對(duì)目前水文數(shù)據(jù)庫(kù)獨(dú)立建設(shè),分散存儲(chǔ),形成數(shù)據(jù)孤島的現(xiàn)狀,將分散于各水文業(yè)務(wù)系統(tǒng)的數(shù)據(jù)資源根據(jù)水文業(yè)務(wù)需求,按照同類(lèi)型整合,不同類(lèi)型融合的原則,進(jìn)行統(tǒng)一清洗、整理和匯總,最終形成全局一致、協(xié)調(diào)統(tǒng)一的數(shù)據(jù)資源池。由于水文數(shù)據(jù)更新頻率高,存儲(chǔ)序列長(zhǎng),分析形式多樣,傳統(tǒng)數(shù)據(jù)庫(kù)難以兼顧大規(guī)模存儲(chǔ)和快速檢索分析的需要。本次采用大數(shù)據(jù)存儲(chǔ)引擎,兼顧隨機(jī)讀寫(xiě),批量分析的應(yīng)用需求。基于融合的水文數(shù)據(jù)資源,搭建水文大數(shù)據(jù)平臺(tái),實(shí)現(xiàn)水文數(shù)據(jù)從源庫(kù)(原業(yè)務(wù)庫(kù))到綜合庫(kù)(新建設(shè)的水文大數(shù)據(jù)綜合庫(kù))處理過(guò)程的實(shí)時(shí)監(jiān)控,水文大數(shù)據(jù)平臺(tái)運(yùn)行情況監(jiān)控,水文綜合庫(kù)的數(shù)據(jù)資源可視化展示,數(shù)據(jù)分析產(chǎn)品的自由配置。

1.png

1項(xiàng)目背景

1.1水文數(shù)據(jù)特點(diǎn)

水文數(shù)據(jù)是指水文的實(shí)測(cè)資料,即通過(guò)水文測(cè)驗(yàn)所收集的各種水文要素的原始記錄,廣義的水文數(shù)據(jù)還應(yīng)包括水文年鑒、水文統(tǒng)計(jì)值、水文圖集及水文調(diào)查資料等。僅水利行業(yè)與水文數(shù)據(jù)相關(guān)的數(shù)據(jù)庫(kù)就包括了實(shí)時(shí)雨水情數(shù)據(jù)庫(kù)、基礎(chǔ)水文數(shù)據(jù)庫(kù)和水質(zhì)數(shù)據(jù)庫(kù),幾乎覆蓋了水文部門(mén)的主要業(yè)務(wù)數(shù)據(jù)。水文數(shù)據(jù)因其特性具有總量大、種類(lèi)多、增速快和價(jià)值高的特點(diǎn):

(1)數(shù)據(jù)總量大:水文數(shù)據(jù)為一系列的時(shí)間序列數(shù)據(jù),且覆蓋全國(guó)各大流域及行政區(qū)劃的大、中、小河流流經(jīng)的區(qū)域,以測(cè)站為單位進(jìn)行數(shù)據(jù)采集,具有海量數(shù)據(jù)的特性。

(2)數(shù)據(jù)種類(lèi)多:目前有實(shí)時(shí)雨水情數(shù)據(jù)庫(kù)、基礎(chǔ)水文數(shù)據(jù)庫(kù)和水質(zhì)數(shù)據(jù)庫(kù)三類(lèi)數(shù)據(jù)庫(kù)覆蓋了水文部門(mén)的主要業(yè)務(wù)數(shù)據(jù)。其中實(shí)時(shí)雨水情數(shù)據(jù)包含存儲(chǔ)降水、蒸發(fā)、河道、水庫(kù)、閘壩、泵站、潮汐、沙情、冰情、地下水、墑情、特殊水情、水文預(yù)報(bào)等13大類(lèi)數(shù)據(jù);基礎(chǔ)水文數(shù)據(jù)包括降水、蒸發(fā)及蒸發(fā)輔助項(xiàng)目、水位、流量(水量)、泥沙、水溫、冰凌、潮汐、測(cè)站屬性以及其他等十類(lèi)數(shù)據(jù);水質(zhì)數(shù)據(jù)庫(kù)包括了大氣降水、地表水以及地下水等各類(lèi)水體中的水質(zhì)監(jiān)測(cè)信息。除此之外水文大數(shù)據(jù)還應(yīng)包含地理信息數(shù)據(jù)、遙感數(shù)據(jù)和社會(huì)經(jīng)濟(jì)指標(biāo)等多源異構(gòu)數(shù)據(jù),具有數(shù)據(jù)種類(lèi)多的特性。

(3)數(shù)據(jù)增速快:全國(guó)分布在7大流域、31個(gè)省和125個(gè)水情分中心的基本測(cè)站已達(dá)到數(shù)萬(wàn),實(shí)時(shí)水文信息,非汛期每天至少更新1次,汛期每天更新4~8次,部分站點(diǎn)甚至每半小時(shí)更新一次,數(shù)據(jù)更新頻率高,僅每天更新的水情數(shù)據(jù)可達(dá)到數(shù)十萬(wàn)條。

(4)數(shù)據(jù)價(jià)值高:水文數(shù)據(jù)作為水文行業(yè)資源性產(chǎn)品,其價(jià)值是隱藏而非顯性的,隨著水文數(shù)據(jù)規(guī)模的擴(kuò)增,通過(guò)數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn),其潛在價(jià)值將會(huì)越來(lái)越大;水文學(xué)科是地學(xué)的一個(gè)重要分支,水文數(shù)據(jù)是研究區(qū)域或全球水循環(huán)過(guò)程的重要基礎(chǔ),因此其數(shù)據(jù)的完整性和代表性在水文科學(xué)研究中具有重要意義。

1.2主要問(wèn)題

水文數(shù)據(jù)具有海量大數(shù)據(jù)特征,與之相對(duì)的是數(shù)據(jù)現(xiàn)狀的復(fù)雜性,主要體現(xiàn)在以下幾點(diǎn):

(1)數(shù)據(jù)定義缺失,數(shù)據(jù)項(xiàng)缺失;數(shù)據(jù)屬性不完整;

(2)數(shù)據(jù)在多個(gè)系統(tǒng)中重復(fù)采集,重復(fù)存儲(chǔ);

(3)數(shù)據(jù)無(wú)法關(guān)聯(lián)、共享,數(shù)據(jù)整合困難;系統(tǒng)林立,數(shù)據(jù)來(lái)源于多個(gè)部門(mén);

(4)數(shù)據(jù)時(shí)效性差,使用者無(wú)法及時(shí)獲取所需信息;

(5)數(shù)據(jù)使用不方便,方法繁瑣,手工報(bào)表多;

(6)數(shù)據(jù)質(zhì)量差,數(shù)據(jù)不完整,數(shù)據(jù)不一致。

數(shù)據(jù)存儲(chǔ)形式上,目前水文數(shù)據(jù)主要是以表格的形式存儲(chǔ)于諸如Oracle、SQL Server等關(guān)系型數(shù)據(jù)庫(kù)中。水文測(cè)站的更新頻率非常高,幾乎每小時(shí)都有實(shí)時(shí)數(shù)據(jù)更新,產(chǎn)生數(shù)據(jù)表過(guò)大,檢索速度慢,甚至超過(guò)數(shù)據(jù)庫(kù)容量上限等問(wèn)題。常用的解決手段有兩種:一是將歷史數(shù)據(jù)單獨(dú)存儲(chǔ)備份,但產(chǎn)生檢索困難的問(wèn)題;二是將中間數(shù)據(jù)舍棄,僅保留測(cè)站日數(shù)據(jù),但又有歷史水文信息缺失的問(wèn)題。這樣一來(lái)對(duì)水文數(shù)據(jù)后續(xù)的分析和應(yīng)用產(chǎn)生了重大影響。

隨著水利信息化建設(shè)的逐步深化,各項(xiàng)業(yè)務(wù)應(yīng)用的逐步開(kāi)展,數(shù)據(jù)資源融合不足的矛盾表現(xiàn)得也越來(lái)越突出。一方面是防汛抗旱、水資源管理、農(nóng)村水利、水利工程建設(shè)管理等多個(gè)業(yè)務(wù)信息系統(tǒng)的建設(shè),急需水利基礎(chǔ)數(shù)據(jù)、空間數(shù)據(jù)、遙感數(shù)據(jù)等共享數(shù)據(jù)資源的支持;另一方面,水利普查成果數(shù)據(jù)的應(yīng)用不甚理想,沒(méi)有圍繞數(shù)據(jù)中心、業(yè)務(wù)系統(tǒng)的需要和特點(diǎn)充分利用。

當(dāng)前水文業(yè)務(wù)數(shù)據(jù)使用過(guò)程中,存在多部門(mén)建設(shè)的業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫(kù)之間缺乏有機(jī)的關(guān)聯(lián),不同業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)質(zhì)量不一致等問(wèn)題,不利于水文數(shù)據(jù)核心價(jià)值的進(jìn)一步挖掘。為了解決上述數(shù)據(jù)問(wèn)題,根據(jù)湖南水文現(xiàn)代化規(guī)劃,十四五期間全面構(gòu)建新型智慧水文信息服務(wù)平臺(tái)。主要建設(shè)內(nèi)容包括水文業(yè)務(wù)數(shù)據(jù)中心平臺(tái),應(yīng)用支撐平臺(tái)、水文業(yè)務(wù)服務(wù)平臺(tái)、水文事務(wù)服務(wù)平臺(tái)、安全管理平臺(tái)五個(gè)平臺(tái)。為了順利啟動(dòng)十四五中水文現(xiàn)代化建設(shè)工作,湖南省計(jì)劃先行完成水文業(yè)務(wù)數(shù)據(jù)中心平臺(tái)核心功能的建設(shè)。

2解決方案

構(gòu)建水文水資源綜合庫(kù);整合現(xiàn)有數(shù)據(jù)資源,實(shí)現(xiàn)數(shù)據(jù)的整合和融合。同時(shí)引入大數(shù)據(jù)存儲(chǔ)引擎,應(yīng)對(duì)水文數(shù)據(jù)更新頻率高,存儲(chǔ)序列長(zhǎng)的存儲(chǔ)、分析需要。整合實(shí)時(shí)雨水情數(shù)據(jù)庫(kù)、洪水預(yù)報(bào)成果庫(kù)、水質(zhì)評(píng)價(jià)數(shù)據(jù)庫(kù)、國(guó)控水資源數(shù)據(jù)庫(kù)等多個(gè)業(yè)務(wù)數(shù)據(jù)庫(kù),形成湖南省水文水資源綜合數(shù)據(jù)庫(kù)。

綜合庫(kù)數(shù)據(jù)模型設(shè)計(jì),主要采用有國(guó)家、行業(yè)標(biāo)準(zhǔn)的沿用最新標(biāo)準(zhǔn)進(jìn)行設(shè)計(jì),沒(méi)有行業(yè)標(biāo)準(zhǔn)的業(yè)務(wù)數(shù)據(jù)庫(kù),在充分參考現(xiàn)有數(shù)據(jù)庫(kù)結(jié)構(gòu)的基礎(chǔ)上,參考實(shí)時(shí)雨水情國(guó)家標(biāo)準(zhǔn)庫(kù)設(shè)計(jì)理念開(kāi)展設(shè)計(jì)。

開(kāi)展數(shù)據(jù)的收集與處理;開(kāi)展數(shù)據(jù)的收集與處理,對(duì)數(shù)據(jù)進(jìn)行抽取、清洗,保證數(shù)據(jù)順利整合到綜合庫(kù)里,并實(shí)現(xiàn)一數(shù)一源。

水文大數(shù)據(jù)平臺(tái)核心系統(tǒng)建設(shè);建設(shè)自動(dòng)同步子系統(tǒng)、分布式存儲(chǔ)系統(tǒng)、大數(shù)據(jù)平臺(tái)管理系統(tǒng)、大數(shù)據(jù)運(yùn)行監(jiān)控系統(tǒng)、數(shù)據(jù)加工與處理系統(tǒng)、數(shù)據(jù)資源服務(wù)管理系統(tǒng)、數(shù)據(jù)集市典型分析服務(wù)功能。實(shí)現(xiàn)數(shù)據(jù)抽取、數(shù)據(jù)清洗、數(shù)據(jù)整合、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)加工、數(shù)據(jù)分析全過(guò)程的可視化監(jiān)視。

數(shù)據(jù)集市典型產(chǎn)品;建設(shè)基于綜合庫(kù)的應(yīng)用成果可視化配置平臺(tái),基于融合的數(shù)據(jù),根據(jù)業(yè)務(wù)需求配置前臺(tái)產(chǎn)品展示,實(shí)現(xiàn)多樣化的產(chǎn)品分析。

3應(yīng)用效果

建設(shè)成果主要包括:水文大數(shù)據(jù)綜合庫(kù),水文大數(shù)據(jù)監(jiān)控大屏,數(shù)據(jù)資源目錄展示平臺(tái),水文大數(shù)據(jù)平臺(tái),可視化展示平臺(tái)幾部分。

3.1湖南水文大數(shù)據(jù)綜合庫(kù)

根據(jù)水文數(shù)據(jù)存儲(chǔ)及分析需求,既要面對(duì)隨機(jī)讀寫(xiě),又要進(jìn)行批量分析,采用kudu大數(shù)據(jù)存儲(chǔ)引擎。將分散于各水文業(yè)務(wù)系統(tǒng)的數(shù)據(jù)資源根據(jù)水文業(yè)務(wù)需求,按照同類(lèi)型整合,不同類(lèi)型融合的原則,進(jìn)行統(tǒng)一清洗、整理和匯總,最終形成全局一致、協(xié)調(diào)統(tǒng)一的數(shù)據(jù)資源池。根據(jù)水文行業(yè)規(guī)則,將數(shù)據(jù)資源劃分為基礎(chǔ)、業(yè)務(wù)、監(jiān)測(cè)、多媒體、空間信息和元數(shù)據(jù)等6大信息分類(lèi),分別對(duì)應(yīng)綜合庫(kù)中的基礎(chǔ)庫(kù)、業(yè)務(wù)庫(kù)、監(jiān)測(cè)庫(kù)、多媒體庫(kù)、空間庫(kù)和元數(shù)據(jù)庫(kù),共整合數(shù)據(jù)表1883張。

3.2湖南水文綜合數(shù)據(jù)庫(kù)監(jiān)視大屏

實(shí)時(shí)監(jiān)控源數(shù)據(jù)庫(kù)(同步的源頭數(shù)據(jù))、綜合數(shù)據(jù)庫(kù)(將要同步到大數(shù)據(jù)環(huán)境中的綜合庫(kù))、產(chǎn)品數(shù)據(jù)庫(kù)(基于綜合數(shù)據(jù)庫(kù)加工成的產(chǎn)品成果數(shù)據(jù))的運(yùn)行狀態(tài)及數(shù)據(jù)處理情況,實(shí)時(shí)記錄同步過(guò)程中產(chǎn)生的異常,進(jìn)行大數(shù)據(jù)平臺(tái)用戶的日常訪問(wèn)量統(tǒng)計(jì)更新。做到大數(shù)據(jù)平臺(tái)運(yùn)行情況“一屏總覽”。

3.3水文大數(shù)據(jù)云平臺(tái)

3.3.1大數(shù)據(jù)平臺(tái)管理系統(tǒng)

本系統(tǒng)是一個(gè)擁有系統(tǒng)集群自動(dòng)化安裝、中心化管理、系統(tǒng)集群監(jiān)控、報(bào)警功能于一體的平臺(tái)管理系統(tǒng)。系統(tǒng)集群管理涵蓋了水文業(yè)務(wù)數(shù)據(jù)中心所涉及到的分布式文件存儲(chǔ)組件、數(shù)據(jù)流處理組件等十幾類(lèi)功能組件。

3.3.2數(shù)據(jù)自動(dòng)同步系統(tǒng)

針對(duì)業(yè)務(wù)表的增量數(shù)據(jù),在數(shù)據(jù)自動(dòng)同步系統(tǒng)中開(kāi)展自動(dòng)抽取任務(wù)創(chuàng)建工作,能夠?qū)崟r(shí)監(jiān)控各業(yè)務(wù)系統(tǒng)每張表的數(shù)據(jù)變化情況,自動(dòng)觸發(fā)增量數(shù)據(jù)的抽取同步任務(wù)。

3.3.3分布式存儲(chǔ)系統(tǒng)

構(gòu)建起10余類(lèi)業(yè)務(wù)數(shù)據(jù)的分布式非結(jié)構(gòu)化型存儲(chǔ)系統(tǒng)??蓪?duì)大規(guī)模數(shù)據(jù)集提供可靠的存儲(chǔ)功能,并對(duì)應(yīng)用程序提供高帶寬的輸入輸出數(shù)據(jù)流。多臺(tái)服務(wù)器均可直接參與到數(shù)據(jù)存儲(chǔ)和應(yīng)用程序任務(wù)執(zhí)行。通過(guò)多服務(wù)器,分布式的存儲(chǔ)和計(jì)算,計(jì)算資源的規(guī)模能夠按照需要增長(zhǎng),保障水文業(yè)務(wù)數(shù)據(jù)中心持續(xù)穩(wěn)定發(fā)展。

3.3.4數(shù)據(jù)加工與處理系統(tǒng)

針對(duì)現(xiàn)有業(yè)務(wù)數(shù)據(jù)庫(kù)通過(guò)同類(lèi)型整合、不同類(lèi)型融合的加工與處理方式構(gòu)建起10余類(lèi)水文業(yè)務(wù)數(shù)據(jù)產(chǎn)品服務(wù),形成數(shù)據(jù)集市。支持?jǐn)?shù)據(jù)的流式處理、批處理等處理形式。

3.4數(shù)據(jù)資源服務(wù)管理系統(tǒng)

本系統(tǒng)可以提供數(shù)據(jù)庫(kù)連接的管理、元數(shù)據(jù)管理、數(shù)據(jù)資源目錄管理、數(shù)據(jù)資源共享管理等功能。

數(shù)據(jù)庫(kù)連接的管理:可以實(shí)現(xiàn)對(duì)Oracle、Mysql、Sql server登錄的連接管理、便于整個(gè)水文業(yè)務(wù)數(shù)據(jù)中心各子系統(tǒng)便捷使用。

元數(shù)據(jù)管理:可以查閱水文業(yè)務(wù)數(shù)據(jù)中心元數(shù)據(jù)信息,并提供對(duì)表信息、字段信息、字段枚舉值配置功能、針對(duì)每一張均可預(yù)覽庫(kù)表數(shù)據(jù)。

數(shù)據(jù)資源目錄管理:可以查閱水文業(yè)務(wù)數(shù)據(jù)中心數(shù)據(jù)資源目錄信息,并提供數(shù)據(jù)資源目錄的增加、修改、刪除功能。

數(shù)據(jù)資源共享管理:通過(guò)可視化的人工配置方式可以靈活的提供單張表、聯(lián)合表的數(shù)據(jù)共享接口創(chuàng)建與授權(quán)。

3.5數(shù)據(jù)集市典型產(chǎn)品

通過(guò)動(dòng)態(tài)可視化配置的方式獲取數(shù)據(jù)配置產(chǎn)品;可配置出表格、圖表等各種展示形式;提供過(guò)濾、分組匯總、新增列、字段設(shè)置、排序、左右合并、上下合并、行列轉(zhuǎn)化、自循環(huán)列、數(shù)據(jù)類(lèi)型轉(zhuǎn)化等數(shù)據(jù)分析方法。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無(wú)評(píng)論