數(shù)據(jù)治理對運維數(shù)據(jù)體系的思考與啟發(fā) | 運維進(jìn)階

在運維數(shù)字化工作空間中,運維利用各種代理,將人與機器、軟件系統(tǒng)連接在一起,通過線上化的運維流程或規(guī)程將參與者的運維協(xié)同形成連接,再基于“組織、流程、平臺”能力組裝連接成為運維場景,構(gòu)成了運維的數(shù)字化工作空間。

前言

今天,領(lǐng)先的數(shù)字原生企業(yè)不斷用數(shù)字化手段顛覆傳統(tǒng)行業(yè),傳統(tǒng)行業(yè)內(nèi)領(lǐng)先的企業(yè)也在積極擁抱數(shù)字化,國家也適時的將“數(shù)據(jù)”列為生產(chǎn)要素參與分配,推動了以數(shù)據(jù)為關(guān)鍵要素的數(shù)字經(jīng)濟進(jìn)入了新時代。站在企業(yè)內(nèi)運營后臺的運維部門,運維屬于數(shù)據(jù)密集型工作,團隊的價值創(chuàng)造都是在運維數(shù)字化工作空間中運作。

在運維數(shù)字化工作空間中,運維利用各種代理,將人與機器、軟件系統(tǒng)連接在一起,通過線上化的運維流程或規(guī)程將參與者的運維協(xié)同形成連接,再基于“組織、流程、平臺”能力組裝連接成為運維場景,構(gòu)成了運維的數(shù)字化工作空間。今天,如果運維失去了對運維數(shù)據(jù)的控制,運維連續(xù)性保障將失控,更談不上提升IT服務(wù)質(zhì)量、加快IT交付速度、輔助提升客戶體驗的價值創(chuàng)造。運維數(shù)字化空間與滴滴的出行數(shù)字化空間類似,滴滴用手機定位這個超級傳感器,將乘客、司機、汽車三個參與者做了一次連接,通過數(shù)字地圖將出發(fā)點,目的地、路況、路線圖與參與者又做了一次連接,再通過實時的打車、坐車、評價、信用等運營模式做了連接,形成一個出行的數(shù)字化空間。

雖然我們正在運維的數(shù)字化工作空間中協(xié)同運作,但我們需要正視的是我們對運維數(shù)據(jù)的認(rèn)識及應(yīng)用還處于皮毛,雖有理念但缺乏必要的、可執(zhí)行的方法。隨著運維數(shù)據(jù)平臺的建設(shè),將極有可能出現(xiàn)當(dāng)前大數(shù)據(jù)領(lǐng)域出現(xiàn)的數(shù)據(jù)孤島、數(shù)據(jù)不可用、數(shù)據(jù)質(zhì)量不高、融合應(yīng)用難、有數(shù)據(jù)不會用等諸多問題。上述問題,在當(dāng)前運維領(lǐng)域資源投入不足顯得尤其重要。如何借鑒大數(shù)據(jù)領(lǐng)域數(shù)據(jù)治理的經(jīng)驗,反思運維數(shù)據(jù)平臺建設(shè)應(yīng)該關(guān)注的問題,減少不必要的坑,做好運維數(shù)據(jù)治理,讓運維數(shù)據(jù)更好用,用得更好,完善運維數(shù)字化工作空間,是本文的目的。

1數(shù)據(jù)治理背景

從1997年“大數(shù)據(jù)”概念從NASA武器研究中心第一次提出,到2001年gartner提出大數(shù)據(jù)模型,到2004年google推出的大數(shù)據(jù)技術(shù)論文,到接下來大數(shù)據(jù)、人工智能、云計算等技術(shù)的廣泛應(yīng)用,再到今天數(shù)字時代,企業(yè)已逐漸了解數(shù)據(jù)所蘊含的價值,對數(shù)據(jù)的重視程度越來越高,投入大量資源進(jìn)行大數(shù)據(jù)研發(fā)與應(yīng)用。但我們必須承認(rèn),國內(nèi)很多金融企業(yè)在大數(shù)據(jù)技術(shù)應(yīng)用前并不是很重視數(shù)據(jù)治理,出現(xiàn)像投入大量資源建設(shè)大數(shù)據(jù)平臺,但用的時候又發(fā)現(xiàn)報表不準(zhǔn)、數(shù)據(jù)質(zhì)量不高,導(dǎo)致項目沒有達(dá)到預(yù)期效果的普遍性問題。上述問題促進(jìn)企業(yè)反思,發(fā)現(xiàn)在數(shù)據(jù)從采集、存儲、計算、使用過程中,少了數(shù)據(jù)管理的步驟,即數(shù)據(jù)治理缺失。今天,數(shù)據(jù)治理已經(jīng)被企業(yè)廣泛認(rèn)可為必要的基礎(chǔ)性工作,以下整理一下數(shù)據(jù)治理所要解決的痛點:

首先,信息孤島,有數(shù)不能用。數(shù)據(jù)孤島可能存在掌握數(shù)據(jù)的人主觀上不愿意共享,也有客觀上擔(dān)心數(shù)據(jù)共享存在敏感性問題,或數(shù)據(jù)與數(shù)據(jù)關(guān)聯(lián)性不夠?qū)е虏荒苡行нB接。

第二,數(shù)據(jù)質(zhì)量不高,有數(shù)不好用。沒有統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)導(dǎo)致數(shù)據(jù)難以集成和統(tǒng)一,沒有質(zhì)量控制導(dǎo)致海量數(shù)據(jù)因質(zhì)量過低而難以被利用,沒有能有效管理整個大數(shù)據(jù)平臺的管理流程。

第三,數(shù)據(jù)不可知,有數(shù)不會用。不知道數(shù)據(jù)平臺中有哪些數(shù)據(jù),也不知道這些數(shù)據(jù)和業(yè)務(wù)的關(guān)系是什么,不知道平臺中有沒有能解決自己所面臨業(yè)務(wù)問題的關(guān)鍵數(shù)據(jù)。

第四,數(shù)據(jù)服務(wù)不夠,有數(shù)據(jù)不可取。用戶即使知道自己業(yè)務(wù)所需要的是哪些數(shù)據(jù),也不能便捷自助地拿到數(shù)據(jù),相反,獲取數(shù)據(jù)需要很長的開發(fā)過程,導(dǎo)致業(yè)務(wù)分析的需求難以被快速滿足,而在數(shù)字時代,業(yè)務(wù)追求的是針對某個業(yè)務(wù)問題的快速分析。

在運維領(lǐng)域,運維數(shù)據(jù)分布在大量的機器、軟件、“監(jiān)管控析”工具軟件上,除了上面大數(shù)據(jù)領(lǐng)域提到的信息孤島、質(zhì)量不高、數(shù)據(jù)不可知、數(shù)據(jù)服務(wù)不夠的痛點外,運維數(shù)據(jù)還有以下突出痛點:

-資源投入不夠:從組織定位看,運維屬于企業(yè)后臺中的后臺部門,所做的事甚至都很難讓IT條線的產(chǎn)品、項目、開發(fā)明白“系統(tǒng)架構(gòu)越來越復(fù)雜、迭代頻率越來越高、外部環(huán)境嚴(yán)峻等等需要持續(xù)性的運維投入”,更不要說讓IT條線以外部門理解你在做的事,在運維的資源投入通常是不夠的。所以,運維數(shù)據(jù)體系建設(shè)要強調(diào)投入產(chǎn)出比,在有限的資源投入下,收獲更多數(shù)據(jù)價值。

-數(shù)據(jù)標(biāo)準(zhǔn)化比例低:運維數(shù)據(jù)主要包括監(jiān)控、日志、性能、配置、流程、應(yīng)用運行數(shù)據(jù)。除了統(tǒng)一監(jiān)控報警、配置、機器日志、ITIL里的幾大流程的數(shù)據(jù)格式是相關(guān)標(biāo)準(zhǔn),其它數(shù)據(jù)存在格式眾多、非結(jié)構(gòu)化、實時性要求高、海量數(shù)據(jù)、采集方式復(fù)雜等特點,可以說運維源數(shù)據(jù)天生就是非標(biāo)準(zhǔn)的,要在“資源投入不夠”的背景下,采用業(yè)務(wù)大數(shù)據(jù)的運作模式比較困難。

-缺乏成熟的方法:雖然行業(yè)也提出了ITOA、dataOps、AIOps的運維數(shù)據(jù)分析應(yīng)用的思路,但是卻缺少一些成熟、全面的數(shù)據(jù)建模、分析、應(yīng)用的方法,主流的運維數(shù)據(jù)方案目前主要圍繞監(jiān)控、應(yīng)急領(lǐng)域探索。

-缺乏人才:如“資源投入不夠”這點提到的背景,因為投入不足,很難吸引到足夠人才投入到運維數(shù)據(jù)分析領(lǐng)域。

通俗一點來說,就是運維數(shù)據(jù)分析要借鑒當(dāng)前傳統(tǒng)大數(shù)據(jù)領(lǐng)域的數(shù)據(jù)治理的經(jīng)驗,提高投入產(chǎn)出比,少走彎路,少跳坑。

2運維數(shù)據(jù)治理定位

以終為始,先分析運維數(shù)據(jù)應(yīng)用場景。在《數(shù)智萬物下,重新思考運維價值》中,我總結(jié)過“增強業(yè)務(wù)連續(xù)性保障、提升軟件交付效率、提高IT服務(wù)質(zhì)量、輔助提升客戶體驗”四個運維價值創(chuàng)造的舉措,其中與運維數(shù)據(jù)息息相關(guān)的舉措大概有如下內(nèi)容:

以“連接網(wǎng)絡(luò)+數(shù)據(jù)驅(qū)動”重塑“監(jiān)管控析”運維平臺化能力,全面提升業(yè)務(wù)連續(xù)保障能力(加強連續(xù)性保障)。

以主動的運行數(shù)據(jù)分析,挖掘系統(tǒng)架構(gòu)及應(yīng)用系統(tǒng)的潛在運行風(fēng)險,反向推進(jìn)應(yīng)用架構(gòu)的健壯性提升(加強連續(xù)性保障)。

利用運行數(shù)據(jù)運營分析,快速交付線上系統(tǒng)、產(chǎn)品、運營活動的運營實時分析看板,輔助業(yè)務(wù)決策(提升軟件交付效率)。

建立系統(tǒng)退出機制,數(shù)據(jù)驅(qū)動釋放IT資源(提升軟件交付效率)。

增加客戶行為數(shù)據(jù)的收集與分析,為產(chǎn)品設(shè)計的決策提供輔助數(shù)據(jù)(輔助提升客戶體驗)。

加強業(yè)務(wù)系統(tǒng)的性能管理,推動優(yōu)化系統(tǒng)響應(yīng)效率,提升客戶體驗(輔助提升客戶體驗)。

模擬客戶行為操作監(jiān)控,提前發(fā)現(xiàn)并解決潛在問題(輔助提升客戶體驗)。

建立評價IT服務(wù)質(zhì)量的管理模型,以數(shù)據(jù)驅(qū)動IT運營效能提升(提高IT服務(wù)質(zhì)量)。

建立統(tǒng)一的IT服務(wù)目錄,開放面向性能、運營、客戶體驗等方向的數(shù)據(jù)分析能力(提高IT服務(wù)質(zhì)量)。

要達(dá)成上述數(shù)據(jù)應(yīng)用場景,我們需要用好監(jiān)控、日志、性能、配置、流程、應(yīng)用運行6類數(shù)據(jù),場景與數(shù)據(jù)的關(guān)系如下:

360截圖16450626515344.png

-監(jiān)控數(shù)據(jù):監(jiān)控事件報警數(shù)據(jù)、監(jiān)控性能/KPI指標(biāo)數(shù)據(jù)兩類,特點是實時、代理、海量、時序為主。

-日志數(shù)據(jù):機器運行日志、系統(tǒng)日志、應(yīng)用日志,特點是海量、實時、非結(jié)構(gòu)化、格式不統(tǒng)一、有業(yè)務(wù)相關(guān)數(shù)據(jù)。

-性能數(shù)據(jù):APM、NPM、BPM,或應(yīng)用主動上報的性能數(shù)據(jù),特點是海量、實時、貼近業(yè)務(wù)與用戶體驗、鏈路關(guān)系、格式不統(tǒng)一。

-配置數(shù)據(jù):圍繞CMDB的配置CI、關(guān)系、架構(gòu)數(shù)據(jù),特點是CMDB方案較成熟,關(guān)系與架構(gòu)數(shù)據(jù)復(fù)雜但自發(fā)現(xiàn)能力困難。

-流程數(shù)據(jù):圍繞ITSM,以及其他運維場景工具(監(jiān)管控析、安全、CMP等)記錄的數(shù)據(jù),特點是關(guān)鍵流程基于ITSM、實時性不夠、大量瑣碎工作來源于各類工具。

-應(yīng)用運行數(shù)據(jù):記錄在業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫中的系統(tǒng)運行數(shù)據(jù),特點是與系統(tǒng)相關(guān)、貼近業(yè)務(wù)與用戶體驗、依賴研發(fā)支持、格式不統(tǒng)一。

在文章《他山之石之運維數(shù)據(jù)》中,我舉例過當(dāng)前常見的運維數(shù)據(jù)平臺項目有以下三種方式:

基于特定場景的數(shù)據(jù)分析應(yīng)用:這種方案以運維痛點為切入點,針對特定的場景選擇特定的數(shù)據(jù),在解決方案上強調(diào)數(shù)據(jù)質(zhì)量與算法。

“監(jiān)管控析”分別管理數(shù)據(jù),在上面建立一層匯集層。比如監(jiān)控負(fù)責(zé)存儲監(jiān)控性能與事件數(shù)據(jù),日志平臺負(fù)責(zé)存儲日志數(shù)據(jù),CMDB存儲配置數(shù)據(jù),ITSM存儲流程數(shù)據(jù)等。這種方式,通常是先有工具的功能使用,再有運維數(shù)據(jù)分析需求。

統(tǒng)一的運維大數(shù)據(jù)平臺。這種思路通常拿一套大數(shù)據(jù)架構(gòu),日志用ELK或ELG,實時數(shù)據(jù)分析用fink,監(jiān)控數(shù)據(jù)放influxDB等時序數(shù)據(jù)庫,消費中間件用KAFKA……

可以看出,上面三種方式構(gòu)建的運維數(shù)據(jù)體系主要包括:“技術(shù)平臺+應(yīng)用場景”兩個部分組成,其中技術(shù)平臺指支撐運維海量數(shù)據(jù)的“采、存、算、管、用”的技術(shù)架構(gòu),算法也屬于技術(shù)平臺的一部分;應(yīng)用場景指數(shù)據(jù)的“用”,包括:面向人使用的可視化、低代碼/服務(wù)化的開發(fā)工具,以及面向系統(tǒng)使用的數(shù)據(jù)服務(wù)API、感知或決策類的可視化、驅(qū)動自動化。鑒于運維數(shù)據(jù)有著來源多、標(biāo)準(zhǔn)化、實時、海量、非結(jié)構(gòu)化、格式不統(tǒng)一等特點,僅從“技術(shù)平臺+應(yīng)用場景”兩個角度看運維數(shù)據(jù)平臺,很容易將運維數(shù)據(jù)相關(guān)項目建成一個個數(shù)據(jù)孤島式的數(shù)據(jù)應(yīng)用場景,無法發(fā)揮數(shù)據(jù)價值。需要在“技術(shù)平臺+應(yīng)用場景”的基礎(chǔ)中,加上“運維數(shù)據(jù)治理”,三者關(guān)系相輔相成,缺少技術(shù)平臺則失去基礎(chǔ),缺少應(yīng)用場景則失去價值,缺少運維數(shù)據(jù)治理則不具備擴展性。

360截圖16450626515344.png

基于“技術(shù)平臺、應(yīng)用場景、數(shù)據(jù)治理”三個部件構(gòu)成的運維數(shù)據(jù)體系的關(guān)系可以考慮有以下架構(gòu)圖,右下是針對技術(shù)平臺提供的“采存算管用”的技術(shù)解決方案,右上是針對數(shù)據(jù)應(yīng)用場景,左邊是運維數(shù)據(jù)治理。

360截圖16450626515344.png

總結(jié)下,運維數(shù)據(jù)治理是運維數(shù)據(jù)體系三大關(guān)鍵之一,運維數(shù)據(jù)治理要借鑒傳統(tǒng)大數(shù)據(jù)領(lǐng)域數(shù)據(jù)治理的成熟方法,結(jié)合運維領(lǐng)域特點打造運維數(shù)據(jù)治理方法,以獲得高質(zhì)量、完整、互聯(lián)的數(shù)據(jù),構(gòu)建持續(xù)優(yōu)化型的數(shù)據(jù)生命周期管理,讓運維數(shù)據(jù)更好用,用得更好,以完善運維數(shù)字化工作空間。

3運維數(shù)據(jù)治理主要內(nèi)容

大數(shù)據(jù)領(lǐng)域的數(shù)據(jù)治理主要包括元數(shù)據(jù)、主數(shù)據(jù)、數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)模型、數(shù)據(jù)安全、數(shù)據(jù)生命周期7部分內(nèi)容,以下結(jié)合運維領(lǐng)域特點,談一下我對運維數(shù)據(jù)治理的內(nèi)容。

360截圖16450626515344.png

1)元數(shù)據(jù)管理

因為后面還會提到主數(shù)據(jù)、交易數(shù)據(jù),講元數(shù)據(jù)前我覺得有必要介紹一下三者區(qū)別:

-交易數(shù)據(jù):描述具體的事件或行為,通常是某個時間發(fā)生的行為,比如運維里的端終性能、客戶行為、監(jiān)控KPI指標(biāo)、監(jiān)控報警、日志等數(shù)據(jù)。

-主數(shù)據(jù):具有穩(wěn)定、可共享、權(quán)威、關(guān)系等特征的數(shù)據(jù),比如主機、架構(gòu)、拓?fù)潢P(guān)系、人員關(guān)系、流程、域名等數(shù)據(jù)。

-元數(shù)據(jù):元數(shù)據(jù)是指描述數(shù)據(jù)的數(shù)據(jù),是指從信息資源中抽取出來說明數(shù)據(jù)特征、內(nèi)容的結(jié)構(gòu)化的數(shù)據(jù),用于組織、描述、檢索、保存、管理。

運維數(shù)據(jù)的應(yīng)用中,我們通常對不同數(shù)據(jù)采用不同的技術(shù)方案,比如日志放在ES,監(jiān)控KPI指標(biāo)數(shù)據(jù)與工具選型有關(guān),這種源端數(shù)據(jù)分散的現(xiàn)狀導(dǎo)致我們的運維數(shù)據(jù)指標(biāo)的分析口徑不清晰,出現(xiàn)數(shù)據(jù)問題很難追遡。元數(shù)據(jù)這種對于數(shù)據(jù)的描述、來源、口徑等管理,有助于我們管理動態(tài)、分散在各處的數(shù)據(jù),形成數(shù)據(jù)服務(wù)目錄體系,就類似于圖書館圖書的檢索信息、數(shù)字地圖中一個道路的位置信息,運維領(lǐng)域源端的日志解析規(guī)則、監(jiān)控報警字段描述、監(jiān)控KPI時序數(shù)據(jù)描述等,也屬于運維元數(shù)據(jù)。

2)主數(shù)據(jù)管理

主數(shù)據(jù)在信通院發(fā)布的《主數(shù)據(jù)管理實踐白皮書1.0》中的定義是:“指滿足跨部門業(yè)務(wù)協(xié)同需要的、反應(yīng)核心業(yè)務(wù)實體狀態(tài)屬性的組織機構(gòu)的基礎(chǔ)信息。主數(shù)據(jù)相對交易數(shù)據(jù)而言,屬性相對穩(wěn)定,準(zhǔn)確度要求更高,唯一識別。”主數(shù)據(jù)管理是指一整套用于生成和維護主數(shù)據(jù)的規(guī)范、技術(shù)和方案,以保證主數(shù)據(jù)的完整性、一致性和準(zhǔn)確性。主數(shù)據(jù)與交易數(shù)據(jù)不同,主數(shù)據(jù)的內(nèi)容具有穩(wěn)定、可共享、權(quán)威幾個特征??偨Y(jié)一下運維主數(shù)據(jù)的主要數(shù)據(jù):

與機器相關(guān)的:環(huán)控、機房、網(wǎng)絡(luò)、服務(wù)器、存儲等。

與軟件相關(guān)的:系統(tǒng)軟件、數(shù)據(jù)庫、中間件、應(yīng)用系統(tǒng)、DNS等。

與關(guān)系相關(guān)的:部署架構(gòu)、邏輯架構(gòu)、調(diào)用鏈路、上下游關(guān)系等。

與人相關(guān)的:運維內(nèi)(運維操作、SRE、運維開發(fā)、流程經(jīng)理等)、IT部(開發(fā)、產(chǎn)品、測試等)、IT外的業(yè)務(wù)人員、客服、客戶等。

與流程相關(guān)的:與ITIL相關(guān)的變更、事件、問題、配置等,以及團隊內(nèi)協(xié)同規(guī)程等。

與規(guī)則相關(guān)的:監(jiān)控策略、性能管理、容量管理等。

3)數(shù)據(jù)標(biāo)準(zhǔn)管理

數(shù)據(jù)標(biāo)準(zhǔn)是為了規(guī)范對數(shù)據(jù)的統(tǒng)一理解,促進(jìn)數(shù)據(jù)共享,增強跨團隊協(xié)作中對數(shù)據(jù)定義與使用的一致性,降低溝通成本。數(shù)據(jù)標(biāo)準(zhǔn)通常包括組織架構(gòu)、標(biāo)準(zhǔn)制度、管控流程、技術(shù)體系四個方向,應(yīng)用統(tǒng)一的數(shù)據(jù)定義、數(shù)據(jù)分類、編碼規(guī)范,以及數(shù)據(jù)字典等。在運維領(lǐng)域數(shù)據(jù)標(biāo)準(zhǔn)可以考慮如下:

-組織架構(gòu):確定運維元數(shù)據(jù)、主數(shù)據(jù)、交易數(shù)據(jù)涉及的管理決策、數(shù)據(jù)業(yè)主、運營、質(zhì)量、消費等團隊或崗位角色,以及所涉及的責(zé)權(quán)利。

-標(biāo)準(zhǔn)制度:圍繞源端數(shù)據(jù)制定分類、格式、編碼等規(guī)范,制定日志、報警、性能指標(biāo)等數(shù)據(jù)標(biāo)準(zhǔn),這里的標(biāo)準(zhǔn)應(yīng)該與技術(shù)規(guī)范區(qū)別開。

-管控流程:要對運維數(shù)據(jù)管理的供應(yīng)、變更、申請、共享、質(zhì)量、運營等流程進(jìn)行規(guī)范化、線上化。

-技術(shù)體系:綜合考慮平臺架構(gòu)、接口規(guī)范、應(yīng)用場景等,圍繞運維數(shù)據(jù)的“采存算管用”建立運維數(shù)據(jù)平臺。

4)數(shù)據(jù)質(zhì)量管理

數(shù)據(jù)質(zhì)量管理是指針對數(shù)據(jù)從計劃、獲取、存儲、共享、維護、應(yīng)用、消亡生命周期的每個階段里可能引發(fā)的數(shù)據(jù)質(zhì)量問題,進(jìn)行識別、度量、監(jiān)控、預(yù)警等管理活動,并通過改善和提高組織的管理水平提高數(shù)據(jù)質(zhì)量。相比其它數(shù)據(jù),運維數(shù)據(jù)有如下特點:海量的非結(jié)構(gòu)化數(shù)據(jù)、秒級以內(nèi)的實時數(shù)據(jù)、源端數(shù)據(jù)標(biāo)準(zhǔn)化程度低、應(yīng)用場景對實時性要求高、資源投入低、缺乏經(jīng)驗指導(dǎo)。所以,運維數(shù)據(jù)質(zhì)量管理,應(yīng)該聚焦在有限資源的背景下,圍繞實時、在線、準(zhǔn)確、完整、有效、規(guī)范等關(guān)鍵字推進(jìn)。

5)數(shù)據(jù)模型管理

數(shù)據(jù)建模是基于對業(yè)務(wù)數(shù)據(jù)的理解和數(shù)據(jù)分析的需要,將各類數(shù)據(jù)進(jìn)行整合和關(guān)聯(lián),使得數(shù)據(jù)可以最終以可視化的方式呈現(xiàn),讓使用者能夠快速地、高效地獲取到數(shù)據(jù)中有價值的信息,從而做出準(zhǔn)確有效的決策。運維數(shù)據(jù)的模型管理方面,一是要借鑒傳統(tǒng)業(yè)務(wù)大數(shù)據(jù)的指標(biāo)數(shù)據(jù)模型設(shè)計方法,畢竟大數(shù)據(jù)的數(shù)據(jù)模型已經(jīng)在很多實時的反欺詐,非實時的海量數(shù)據(jù)分析等領(lǐng)域成熟運用多年;二要結(jié)合運維數(shù)據(jù)消費場景實時、準(zhǔn)確等特征,利用流式計算方式區(qū)分源端原始數(shù)據(jù),旁路后的加工數(shù)據(jù),根據(jù)規(guī)則生成的指標(biāo)數(shù)據(jù)等方式,設(shè)計運維實時數(shù)據(jù)模型;

6)數(shù)據(jù)安全管理

數(shù)據(jù)安全管理是實現(xiàn)數(shù)據(jù)安全策略和流程的制訂,數(shù)據(jù)安全管理需要遵循國家、行業(yè)的安全政策法規(guī),比如網(wǎng)絡(luò)安全法,等級保護,個人隱私安全等要求。另外,數(shù)據(jù)治理將依賴數(shù)據(jù)來源、內(nèi)容、用途進(jìn)行分類,所以數(shù)據(jù)安全管理還要求對數(shù)據(jù)內(nèi)容敏感程度、影響等進(jìn)行分級分類。運維數(shù)據(jù)都是生產(chǎn)數(shù)據(jù),生產(chǎn)數(shù)據(jù)的安全管理,要從技術(shù)、管理兩個角度對環(huán)境、研發(fā)、測試、運營、消費進(jìn)行全流程的安全管理。

7)數(shù)據(jù)生命周期管理

與軟件生命周期(SDLC)管理類似,數(shù)據(jù)也有生命周期,通常是指數(shù)據(jù)從產(chǎn)生、采集、存儲、整合、分析、消費/應(yīng)用、歸檔、銷毀等過程的數(shù)據(jù)管理。數(shù)據(jù)價值決定著數(shù)據(jù)全生命周期過程的管理方式,數(shù)據(jù)價值可能會隨著時間的變化而遞減,影響著采集粒度、時效性、存儲方式、分析應(yīng)用、場景消費等。數(shù)據(jù)生命周期管理對于運維是比較好理解,以存儲方式為例,在運維過程中為了保障系統(tǒng)穩(wěn)定性,提升系統(tǒng)性能,我們會對關(guān)系型數(shù)據(jù)進(jìn)行分庫設(shè)計,對日志數(shù)據(jù)進(jìn)行在線、近線、離線的數(shù)據(jù)存儲方式。對運維數(shù)據(jù)生命周期各個階段的特點采取不同的管理方法和控制手段,能從數(shù)據(jù)中挖掘出更多有效的數(shù)據(jù)價值。

4以場景驅(qū)動運維數(shù)據(jù)治理

從上一節(jié)可以看出,數(shù)據(jù)治理是一個復(fù)雜的工程性工作,每一部分內(nèi)容范圍很大,涉及大量資源投入,如果要全面鋪開做運維數(shù)據(jù)治理,資源無法保障。所以,我認(rèn)為運維數(shù)據(jù)治理要直擊實際問題,以應(yīng)用場景為驅(qū)動,選擇必要的治理內(nèi)容,有側(cè)重、有步驟的推行運維數(shù)據(jù)治理。本節(jié)從運維指標(biāo)體系角度,談?wù)勎覍\維指標(biāo)體系建設(shè)過程中的數(shù)據(jù)治理內(nèi)容。

先簡單聊一下運維指標(biāo)體系的背景。運維指標(biāo)體系的建設(shè)主要基于運維研發(fā)效能、運維數(shù)據(jù)自助服務(wù)、運維平臺擴展性的痛點提出的解決方案。希望通過建立運維指標(biāo)體系,能夠不斷沉淀可復(fù)用、可共享、可組裝的數(shù)據(jù)指標(biāo),并基于標(biāo)準(zhǔn)化的指標(biāo)建立自助式、低代碼的數(shù)據(jù)應(yīng)用工具,最終達(dá)到提升運維數(shù)據(jù)研發(fā)需求的交付速度,提升端到端的研發(fā)效能。而在指標(biāo)研發(fā)過程中,很容易出現(xiàn)同一個指標(biāo)重復(fù)建模、開發(fā),不僅導(dǎo)致工作量成倍增加,指標(biāo)溝通成本過高,還帶來一致性問題,需要引入數(shù)據(jù)治理的元數(shù)據(jù)、主數(shù)據(jù)、標(biāo)準(zhǔn)的內(nèi)容。

元數(shù)據(jù)定義運維指標(biāo)。舉個例子,針對特定業(yè)務(wù)的實時運行看板是我們比較常見的運維數(shù)據(jù)研發(fā)需求,這類看板通常涉及多個系統(tǒng)的數(shù)據(jù)開發(fā),理論上前期開發(fā)的數(shù)據(jù)指標(biāo)可以為后面的需求提供基礎(chǔ),但由于數(shù)據(jù)指標(biāo)的處理邏輯寫在代碼上,指標(biāo)定義不清導(dǎo)致實際的復(fù)用性很低。運維數(shù)據(jù)指標(biāo)的元數(shù)據(jù)描述了指標(biāo)是什么,如何生成,統(tǒng)計口徑是什么,數(shù)據(jù)相關(guān)方是誰等基本信息,可以說元數(shù)據(jù)定義了運維指標(biāo)。可以考慮分:基本信息、統(tǒng)計信息、口徑信息、管理信息。

-基本信息:比如定義指標(biāo)分類(硬件指標(biāo),軟件性能,業(yè)務(wù)運營、交易等),指標(biāo)編號(唯一識別編號),指標(biāo)屬性信息(中文名稱、英文名稱、指標(biāo)描述等)等。

-統(tǒng)計信息:指標(biāo)維度(按機房、機架、主機、系統(tǒng)、渠道、功能號、相關(guān)干系人或部門等),統(tǒng)計周期(采集、計算、消費使用的周期),數(shù)據(jù)格式(數(shù)據(jù)類型,長度要求等)等。

-口徑信息:指標(biāo)類型(基礎(chǔ)指標(biāo)、組合指標(biāo))、數(shù)據(jù)來源(統(tǒng)一日志系統(tǒng)、集中監(jiān)控系統(tǒng)、統(tǒng)一監(jiān)控事件工具等)、數(shù)據(jù)產(chǎn)生方式(手填報、系統(tǒng)加工等)、數(shù)據(jù)加工口徑等。

-管理信息:數(shù)據(jù)業(yè)主,數(shù)據(jù)供應(yīng)方、維護時間與人員等。

主數(shù)據(jù)管理指標(biāo)維度。在上面的元數(shù)據(jù)管理中提到指標(biāo)維度,舉個例子,在業(yè)務(wù)連續(xù)保障管理中的“互聯(lián)網(wǎng)交易量”指標(biāo),我們遇到從多個不同維度去統(tǒng)計分析交易量指標(biāo),比如:系統(tǒng)、站點、終端類型、終端版本、功能號、機構(gòu)等,這些維度在互聯(lián)網(wǎng)相關(guān)的其他運營、性能指標(biāo)中同樣也會用到。上述的維度信息在指標(biāo)體系中尤其重要,具有穩(wěn)定、可共享、權(quán)威、連接性等特征,適合作為運維主數(shù)據(jù)管理。在運維領(lǐng)域中,CMDB配置是運維“監(jiān)管控析”運維平臺體系要實現(xiàn)互聯(lián)互通的核心數(shù)據(jù),在眾多運維場景中都將被共享使用。傳統(tǒng)CMDB已經(jīng)實現(xiàn)了操作系統(tǒng)、主機、計算資源、存儲資源、網(wǎng)絡(luò)、機房等信息的配置管理,應(yīng)用CMDB則從主機進(jìn)一步向主機上的應(yīng)用系統(tǒng)、模塊、軟件、上下游關(guān)系、終端、應(yīng)用配置、環(huán)境配置等擴展。通過CMDB持續(xù)建設(shè)將各維度的配置數(shù)據(jù)、關(guān)系數(shù)據(jù)、架構(gòu)數(shù)據(jù)都由CMDB統(tǒng)一管理,CMDB具備演進(jìn)為主數(shù)據(jù)庫的條件。

數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范指標(biāo)源數(shù)據(jù)。運維指標(biāo)的生產(chǎn)流程通常包括:采集原始數(shù)據(jù),根據(jù)模型規(guī)則引擎加工數(shù)據(jù),寫入指標(biāo)流水,指標(biāo)消費應(yīng)用。其中“根據(jù)模型規(guī)則引擎加工數(shù)據(jù)”是一個工作量大、瑣碎的步驟,要減少加工步驟的返工,保證數(shù)據(jù)加工過程穩(wěn)定,并生成正確的指標(biāo)流水?dāng)?shù)據(jù),需要確保采集的原始數(shù)據(jù)的類型、長度、周期等信息可靠。另一邊,運維指標(biāo)數(shù)據(jù)來源于數(shù)據(jù)監(jiān)控、日志、性能、配置、流程、應(yīng)用運行6類數(shù)據(jù),每一類數(shù)據(jù)的源端很多。以監(jiān)控體系為例,監(jiān)控包括了多個層次,多個監(jiān)控工具共同運作,需要規(guī)范各個監(jiān)控工具生成的性能KPI指標(biāo)、報警數(shù)據(jù)的標(biāo)準(zhǔn)化。所以,利用數(shù)據(jù)治理中的數(shù)據(jù)標(biāo)準(zhǔn)的制定,有助于規(guī)范數(shù)據(jù)平臺建設(shè)時對數(shù)據(jù)的統(tǒng)一理解,規(guī)范指標(biāo)源數(shù)據(jù)的標(biāo)準(zhǔn)化,減少數(shù)據(jù)出錯,增強數(shù)據(jù)定義與使用的一致性,降低溝通成本。

關(guān)于運維指標(biāo)體系與數(shù)據(jù)質(zhì)量(如何推進(jìn)運維指標(biāo)的實時、在線、準(zhǔn)確、完整、有效、規(guī)范)、數(shù)據(jù)模型(如何線上化指標(biāo)模型設(shè)計,映射到實體)、數(shù)據(jù)安全(如何有效控制指標(biāo)在研發(fā)、運營、消費時的安全)、數(shù)據(jù)生命周期(如何針對性制定指標(biāo)數(shù)據(jù)的存儲、時效性)的其它思路,后續(xù)實踐后再進(jìn)一步分析。

以“運維數(shù)據(jù)更好用,用得更好”持續(xù)提升運維數(shù)據(jù)治理成效。前面提到,運維數(shù)據(jù)治理的最終目標(biāo)是讓運維數(shù)據(jù)更好用,用得更好,前者與數(shù)據(jù)質(zhì)量相關(guān),后者與數(shù)據(jù)應(yīng)用場景有關(guān)。我個人覺得可以從量化與具象化兩種方式評價,量化即線上指標(biāo)化,比如CMDB數(shù)據(jù)異常次數(shù)、CMDB接口調(diào)用次數(shù)、交易指標(biāo)消費次數(shù)、具體系統(tǒng)的平均軟件發(fā)布時間等指標(biāo)化數(shù)據(jù);具象化則是從數(shù)據(jù)價值交付鏈路中斷情況、用戶體驗評價等角度評價。在組織與機制上,要建立配套的運維數(shù)據(jù)治理的運營角色,主動從數(shù)據(jù)質(zhì)量與數(shù)據(jù)應(yīng)用場景上挖掘流程機制、技術(shù)能力、工具平臺、場景消費等環(huán)節(jié)的不足,制定優(yōu)化措施,跟進(jìn)措施的執(zhí)行落地,形成“數(shù)據(jù)洞察、輔助決策、跟蹤執(zhí)行”的閉環(huán),持續(xù)提升運維數(shù)據(jù)治理成效。

這里再重復(fù)本節(jié)點的主要觀點:運維數(shù)據(jù)治理要直擊實際問題,以應(yīng)用場景為驅(qū)動,選擇必要的治理內(nèi)容,有側(cè)重、有步驟的推行運維數(shù)據(jù)治理,而非大張旗鼓的搞運維數(shù)據(jù)治理項目。當(dāng)然,如果你所在的運維團隊有人、有錢,忽略此觀點。

5運維數(shù)據(jù)治理步驟

數(shù)據(jù)治理是一個長期過程,在運維數(shù)據(jù)體系建設(shè)過程中要有一個持續(xù)演進(jìn)的運維數(shù)據(jù)治理步驟。以下整理三個步驟:摸家底、建標(biāo)準(zhǔn)、促消費,拋磚引玉,歡迎大家指正。

第一階段:摸家底,落地數(shù)據(jù)資產(chǎn)。在企業(yè)數(shù)字化轉(zhuǎn)型下的大背景,圍繞“增強業(yè)務(wù)連續(xù)性保障、提升軟件交付效率、提高IT服務(wù)質(zhì)量、輔助提升客戶體驗”四個方向,構(gòu)思要實現(xiàn)什么運維數(shù)字化場景。再基于場景,梳理運維數(shù)據(jù)分析涉及監(jiān)控、日志、性能、配置、流程、應(yīng)用運行6類數(shù)據(jù)存儲在哪里,工具或平臺架構(gòu)、數(shù)據(jù)結(jié)構(gòu),數(shù)據(jù)實時性,數(shù)據(jù)完整性,數(shù)據(jù)正確性,數(shù)據(jù)標(biāo)準(zhǔn)化程度等方案。同時,建立統(tǒng)一的數(shù)據(jù)“采、存、算、用”的基本能力,能夠?qū)崟r整合、加工運維源端數(shù)據(jù),形成運維元數(shù)據(jù)資產(chǎn)管理能力,具備基于已有數(shù)據(jù)資產(chǎn)快速交付多維度數(shù)據(jù)視圖的需求。

第二階段:建標(biāo)準(zhǔn),提供一站式的管控能力。結(jié)合第一階段的成果,建立數(shù)據(jù)管控的組織、流程、機制、標(biāo)準(zhǔn)、安全體系能力,建立一站式的運維數(shù)據(jù)平臺,從運維數(shù)據(jù)應(yīng)用場景角度梳理企業(yè)數(shù)據(jù)質(zhì)量問題,建立數(shù)據(jù)運營職能崗位、制定數(shù)據(jù)標(biāo)準(zhǔn)及配套的流程?;谶\維數(shù)據(jù)標(biāo)準(zhǔn),結(jié)合運維數(shù)據(jù)項目推動運維數(shù)據(jù)治理模塊的建設(shè),比如:以運維指標(biāo)體系場景驅(qū)動落地數(shù)據(jù)資產(chǎn)管理模塊/系統(tǒng),以CMDB配置數(shù)據(jù)為基礎(chǔ)落地主數(shù)據(jù)庫。

第三階段:促消費,以數(shù)據(jù)消費反向提升數(shù)據(jù)治理能力。首先,提供自助式服務(wù)能力,以用戶為中心,加強運維數(shù)據(jù)運營效能,為用戶提供直接獲取數(shù)據(jù)的能力,直接為用戶提供價值,向用戶提供數(shù)據(jù)服務(wù)化能力,使用戶能夠自助的獲取和使用數(shù)據(jù)。其次,提供人機協(xié)同應(yīng)用能力,將數(shù)據(jù)沉淀為知識,形成運維知識圖譜,結(jié)合ITOA、dataOps、AIOps等理念,將機器優(yōu)勢與運維專家經(jīng)驗相結(jié)合,形成數(shù)據(jù)洞察/預(yù)測、決策/自動化、執(zhí)行/任務(wù)的閉環(huán)。利用豐富的數(shù)據(jù)消費場景,反向發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題,來持續(xù)加強數(shù)據(jù)治理水平。

總結(jié)

他山之石,可以攻玉。借鑒大數(shù)據(jù)領(lǐng)域成熟的數(shù)據(jù)治理方法,將有助于運維團隊提前認(rèn)識到運維數(shù)據(jù)建設(shè)過程將面臨的痛點,減少不必要的坑,并提前布局相關(guān)措施提升運維數(shù)據(jù)項目的成功,讓運維數(shù)據(jù)更好用,用得更好。相信隨著運維數(shù)字化工作空間的不斷建設(shè),掌握在線的基礎(chǔ)、運行、體驗數(shù)據(jù)的運維團隊將發(fā)揮更大的作用。

原題:數(shù)據(jù)治理對運維數(shù)據(jù)體系的思考與啟發(fā)

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論