遠(yuǎn)離宕機(jī)?存儲(chǔ)自動(dòng)運(yùn)維了解一下

略懂的小咖
隨著全球數(shù)據(jù)規(guī)模的爆炸性增長,企業(yè)數(shù)據(jù)中心的故障中,存儲(chǔ)設(shè)備相關(guān)故障已經(jīng)占到70%以上。以某國際互聯(lián)網(wǎng)社交企業(yè)為例,每天需要修復(fù)數(shù)據(jù)高達(dá)24TB,每天修復(fù)帶來的跨機(jī)架流量高達(dá)180TB。技術(shù)和新應(yīng)用的層出不窮,也帶來運(yùn)維復(fù)雜化的副作用。

美國太平洋時(shí)間12月14日凌晨3點(diǎn)47分左右,YouTube、Google云端硬盤,Gmail,Google Meet,Google文檔,Google搜索,Google Play,Google Home,Google Maps停服,這是谷歌近半年內(nèi)第三次出現(xiàn)大規(guī)模宕機(jī)事件。

經(jīng)過近50分鐘的緊急處理,相關(guān)服務(wù)在當(dāng)?shù)貢r(shí)間凌晨4點(diǎn)32分恢復(fù)正常,并向受到該問題影響的所有用戶表示歉意。

至于這次宕機(jī)的原因,來自谷歌官方的表述是“internal storage quota issue”。在谷歌后續(xù)的一份初步調(diào)查報(bào)告中,提到導(dǎo)致宕機(jī)的原因?yàn)?ldquo;我們的自動(dòng)配額管理系統(tǒng)出現(xiàn)了問題,降低了谷歌中央身份管理系統(tǒng)的容量,導(dǎo)致其在全球范圍內(nèi)返回錯(cuò)誤。因此,我們無法驗(yàn)證用戶請(qǐng)求是否經(jīng)過認(rèn)證,并向用戶提供錯(cuò)誤。”

那么,這個(gè)“自動(dòng)配額管理”是什么意思呢?

存儲(chǔ)專家解釋道,數(shù)據(jù)在存儲(chǔ)盤中的存放,并不是“既來之,則安之”,而是需要規(guī)劃一個(gè)存儲(chǔ)池,被劃在這個(gè)池中的數(shù)據(jù)只能在對(duì)應(yīng)的空間中存放。池子有多大,就是通過上面的“配額”來管理的。

這次導(dǎo)致谷歌宕機(jī)的“自動(dòng)配額管理系統(tǒng)出現(xiàn)了問題”,就好比我們?nèi)プ疖?,先要有一張票,才能上車。但是現(xiàn)在售票員在工作時(shí)間劃水跑了,大家沒有買到票,結(jié)果人在站外著急瞪眼,車在站里空空如也。

111.png

想要徹底避免類似問題,就需要我們的運(yùn)維工作不僅僅監(jiān)控磁盤是否寫滿并報(bào)警,還要做出資源池級(jí)別的容量監(jiān)控,以便更進(jìn)一步做出提前預(yù)測(cè),避免自動(dòng)額度管理系統(tǒng)“罷工”。華為AI運(yùn)維提供面向池級(jí)、盤級(jí)、系統(tǒng)級(jí)的容量閾值監(jiān)控、容量預(yù)測(cè)告警,同時(shí),華為也提供自動(dòng)資源發(fā)放管理的能力。

近期,科技巨頭公司、證券公司頻頻故障癱瘓,影響小則波及一個(gè)區(qū)域,大則波及全球。IT基礎(chǔ)設(shè)施層面的高可靠構(gòu)筑誠然是前提,是“金剛鉆”,但問題往往出現(xiàn)在運(yùn)維階段,“手藝”怎么樣,才是決定“瓷器活”能否做成的決定性因素。

有著深厚先進(jìn)技術(shù)積累的科技、金融領(lǐng)域企業(yè)尚且在運(yùn)維上頻頻觸礁,其他領(lǐng)域的風(fēng)險(xiǎn)和困境可想而知。

調(diào)查數(shù)據(jù)顯示,隨著全球數(shù)據(jù)規(guī)模的爆炸性增長,企業(yè)數(shù)據(jù)中心的故障中,存儲(chǔ)設(shè)備相關(guān)故障已經(jīng)占到70%以上。以某國際互聯(lián)網(wǎng)社交企業(yè)為例,每天需要修復(fù)數(shù)據(jù)高達(dá)24TB,每天修復(fù)帶來的跨機(jī)架流量高達(dá)180TB。技術(shù)和新應(yīng)用的層出不窮,也帶來運(yùn)維復(fù)雜化的副作用。

傳統(tǒng)的運(yùn)維高度依賴人的經(jīng)驗(yàn)和精力,運(yùn)維人員的一天就是從虛機(jī)、存儲(chǔ),再到數(shù)據(jù)、網(wǎng)絡(luò),更像一名企業(yè)的救火隊(duì)員。在全球產(chǎn)業(yè)邁進(jìn)數(shù)字化、智能化的背景下,如何使能統(tǒng)一的AI運(yùn)維,扭轉(zhuǎn)傳統(tǒng)“人拉肩抗”的局面,從而實(shí)現(xiàn)支持企業(yè)業(yè)務(wù)平穩(wěn)運(yùn)行,業(yè)務(wù)戰(zhàn)略突破的目標(biāo),已經(jīng)逐漸成為全球行業(yè)頭部企業(yè)的共同訴求:

01

首先,運(yùn)維系統(tǒng)從一個(gè)追求穩(wěn)態(tài)的系統(tǒng),走向追求穩(wěn)態(tài)+敏態(tài)的系統(tǒng)。這就意味著,運(yùn)維系統(tǒng)不僅要追求7*24小時(shí)的穩(wěn)健運(yùn)行,還要追求對(duì)業(yè)務(wù)的敏捷使能。

02

其次,運(yùn)維已經(jīng)不僅僅只是一個(gè)支撐系統(tǒng),更多的是要與業(yè)務(wù)融合,成為一個(gè)生產(chǎn)系統(tǒng),給業(yè)務(wù)帶來新的價(jià)值;

03

最后,運(yùn)維的流程將慢慢地從“以人為中心”向“面向自動(dòng)化的業(yè)務(wù)流程重構(gòu)”,最終走向“自動(dòng)駕駛”的IT運(yùn)維系統(tǒng)。

在數(shù)據(jù)基礎(chǔ)設(shè)施運(yùn)維層面,運(yùn)維的自動(dòng)化水平是數(shù)字化轉(zhuǎn)型的核心體現(xiàn)之一。特別是面向核心系統(tǒng)或新興業(yè)務(wù),運(yùn)維將更多地參與到生產(chǎn)系統(tǒng)中去,運(yùn)維與業(yè)務(wù)的結(jié)合會(huì)越來越緊密。

只有讓更多的運(yùn)維人員從繁雜的例行工作解放出來,才能投入到更加有創(chuàng)新性的工作中去。華為存儲(chǔ)基于智能運(yùn)維平臺(tái)DME逐步構(gòu)建面向智能運(yùn)維的AI能力,圍繞客戶關(guān)心的設(shè)備異常、容量預(yù)警等關(guān)鍵場景為客戶業(yè)務(wù)的正常運(yùn)行保駕護(hù)航。

具體來看看華為智能存儲(chǔ)運(yùn)維有哪些“法寶”?

設(shè)備側(cè)+云端容量預(yù)測(cè)

假設(shè)客戶能夠提前預(yù)知陣列或存儲(chǔ)池,甚至更細(xì)粒度對(duì)象的容量變化趨勢(shì),那么,由于容量配額不足所導(dǎo)致的服務(wù)宕機(jī)情況則會(huì)大大減少。華為提供“云上+本地”聯(lián)動(dòng)的運(yùn)維能力,基于時(shí)序預(yù)測(cè)等關(guān)鍵技術(shù),能夠向客戶提供未來最長365天的容量趨勢(shì)預(yù)測(cè),并能夠提前預(yù)警80%配額,提醒用戶提前擴(kuò)容。

提前14天風(fēng)險(xiǎn)盤預(yù)測(cè)

如今,通過華為存儲(chǔ)的異常檢測(cè)模型服務(wù),可以提前14天預(yù)測(cè)到硬盤故障。華為硬盤異常檢測(cè)模型服務(wù)基于S.M.A.R.T.(Self-Monitoring Analysis and Reporting Technology)技術(shù),每日采集數(shù)據(jù)中心硬盤數(shù)據(jù)(硬盤ID、SN、硬盤非安全斷電次數(shù)、通電時(shí)長),從歷史數(shù)據(jù)中識(shí)別硬盤不同屬性的突變模式對(duì)當(dāng)前狀態(tài)進(jìn)行預(yù)測(cè),結(jié)合用戶反饋數(shù)據(jù),定期執(zhí)行模型自優(yōu)化,持續(xù)提升預(yù)測(cè)精度。為DC硬盤提供主動(dòng)運(yùn)維。

截止目前,華為硬盤異常檢測(cè)模型已經(jīng)服務(wù)于200+企業(yè)DC,幫助客戶提前14天識(shí)別硬盤故障或風(fēng)險(xiǎn),預(yù)測(cè)的誤報(bào)率低于0.1%。

存儲(chǔ)性能異常預(yù)測(cè)管理

基于時(shí)間序列預(yù)測(cè)等關(guān)鍵技術(shù)的性能預(yù)測(cè)特性,以及基于閾值觸發(fā)的性能潮汐預(yù)警,能夠讓客戶預(yù)知設(shè)備關(guān)鍵性能指標(biāo)變化趨勢(shì)。時(shí)延、IOPS、塊帶寬盡在掌握,以提早發(fā)現(xiàn)設(shè)備性能瓶頸點(diǎn),輔助客戶盡早規(guī)避可能發(fā)生的異常。

傳統(tǒng)的專家經(jīng)驗(yàn)規(guī)則或靜態(tài)閾值預(yù)警,無法覆蓋大多數(shù)性能異常場景,且可能存在誤報(bào)漏報(bào)的情況。華為提供基于機(jī)器學(xué)習(xí)的關(guān)鍵性能KPI異常檢測(cè)及根因定界特性,無監(jiān)督自學(xué)習(xí)的異常檢測(cè)模型能夠?qū)崟r(shí)檢測(cè)設(shè)備時(shí)延是否異常,現(xiàn)網(wǎng)數(shù)據(jù)測(cè)試驗(yàn)證,異常檢測(cè)準(zhǔn)確率近90%;存儲(chǔ)設(shè)備內(nèi)置基于多集成樹算法融合模型,外加皮爾遜相關(guān)性關(guān)聯(lián)分析算法,實(shí)現(xiàn)異常根因的定界分析。

華為智能存儲(chǔ)引擎DME基于“云-中心-設(shè)備”三層AI架構(gòu),攜手客戶在智能運(yùn)維的自動(dòng)駕駛之路上不斷創(chuàng)新,持續(xù)擴(kuò)大自動(dòng)化的邊界。從被動(dòng)運(yùn)維走向主動(dòng)運(yùn)維,持續(xù)降低運(yùn)維門檻及成本,實(shí)時(shí)確保客戶業(yè)務(wù)體驗(yàn)最優(yōu)。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無評(píng)論