在云計算時代的浪潮下,運維的未來會何去何從?

艾特程序員
艾特程序員
具體來說,云上運維主要面臨著以下挑戰(zhàn):首先,運維排查問題的難度增加了。由于云上“黑盒子”的存在,當(dāng)故障突然發(fā)生時,運維人員往往只能看到服務(wù)出現(xiàn)異常了,很難快速判定問題出在哪里,從而耽誤了故障恢復(fù)時間。

2020年Q1,公有云IaaS市場同比增長53%。越來越多的企業(yè),開始把自己線下的數(shù)據(jù)中心和機房搬遷上公有云。而一旦企業(yè)放棄了自建的IT基礎(chǔ)設(shè)施,甚至把員工的辦公電腦都搬到了云上,由公有云廠商提供服務(wù),那么企業(yè)是否還需要這么多運維人員呢?在云時代的浪潮下,運維的未來會何去何從?下面和千鋒廣州小編一起來看看吧。

云時代的運維是怎么樣的?

既然上云勢不可擋,我們何不順勢而為,看看云上運維是什么樣子的?

首先,云上運維和傳統(tǒng)的運維,操作的目標(biāo)是不一樣的。傳統(tǒng)的運維人員,需要能夠熟練的手動操作來自眾多廠家的計算、網(wǎng)絡(luò)、存儲等硬件設(shè)備,而云上的運維人員完全接觸不到物理設(shè)備,取而代之的是云上的虛擬資源,例如云服務(wù)器,云盤,虛擬交換機等。云廠商將對資源的操作全部抽象成了軟件定義的API接口,并用統(tǒng)一風(fēng)格的SDK、命令行進行封裝,提供給運維人員使用。云廠商提供的圖形化的運維控制臺,也不過是API的封裝而已。

其次,云上運維是高度簡化的。傳統(tǒng)的運維,需要學(xué)習(xí)來自眾多“大廠”的認(rèn)證,例如,網(wǎng)絡(luò)運維要學(xué)思科的認(rèn)證,數(shù)據(jù)庫運維要學(xué)Oracle的認(rèn)證,系統(tǒng)運維要學(xué)IBM的認(rèn)證,等等。而在云上,虛擬專有網(wǎng)絡(luò)產(chǎn)品將網(wǎng)絡(luò)設(shè)備的管理和運維變得統(tǒng)一和簡單,云上數(shù)據(jù)庫產(chǎn)品實現(xiàn)了智能化的數(shù)據(jù)庫管理,云服務(wù)器實現(xiàn)了動態(tài)的擴縮容和熱遷移,這些都大幅降低了運維操作的門檻。云上的運維人員不再需要感知底層基礎(chǔ)設(shè)施的細(xì)節(jié),更不需要考取高難度的認(rèn)證。即使是創(chuàng)業(yè)階段的小企業(yè)也可以擁有和大企業(yè)同等的運維能力。

但是運維簡化,并不意味著運維的重要性降低,相反,在云上,運維變得比以前更加重要了。

云時代運維面臨的挑戰(zhàn)

為什么在云時代,運維變得更重要了呢?主要有兩個原因,一是云上運維的范疇比以往擴大了,二是云上企業(yè)對于穩(wěn)定性的要求更高了。

具體來說,云上運維主要面臨著以下挑戰(zhàn):首先,運維排查問題的難度增加了。由于云上“黑盒子”的存在,當(dāng)故障突然發(fā)生時,運維人員往往只能看到服務(wù)出現(xiàn)異常了,很難快速判定問題出在哪里,從而耽誤了故障恢復(fù)時間。

第二,云服務(wù)發(fā)出的消息、日志、事件等難以有效處理。如果運維人員每天收到幾千條短信或者郵件,一定是無法及時處理的,只能無腦忽略。但是又不能設(shè)置郵件規(guī)則將它們?nèi)咳拥嚼淅?,因為會?dān)心漏掉重要的通知。

第三,資源的膨脹帶來了管理的復(fù)雜性。所有的資源都是軟件概念,對于一個大企業(yè)來說,這些資源可能分布在全球的不同地區(qū),分散在幾百到幾千臺的服務(wù)器,這些資源也一直在變化。如何有效的跟蹤、審計、創(chuàng)建、釋放并保證無浪費?

第四,云產(chǎn)品的頻繁升級帶來了運維的頻繁被動變化。云產(chǎn)品的選擇非常多,實例類型紛繁復(fù)雜,運維人員的工作越來越多,從傳統(tǒng)的機房巡檢工作到需要實現(xiàn)監(jiān)控告警、安全防護、日志審計等更多功能。如何選擇適合自己的產(chǎn)品?新功能如何才能幫助到業(yè)務(wù)?......盲目的不停更換運維方案不是良策。

如何調(diào)整才能適應(yīng)云時代的運維

監(jiān)控自動化:相信大家都走過人肉運維的痛苦階段,盡管運維工程師7*24輪班待命,但客戶仍然投訴不斷,系統(tǒng)問題不斷。因此,需要通過監(jiān)控報警將故障的平均發(fā)現(xiàn)時間從1小時縮短到1分鐘,可以在故障發(fā)生前,提前預(yù)警并采取行動,幫助運維實現(xiàn)無人值守監(jiān)控全過程。

信息分類化:由于監(jiān)控項較多,當(dāng)一起產(chǎn)生告警時,運維人員會應(yīng)接不暇。需要通過告警信息分類展示,讓用戶可自行選擇查看某一項告警信息,能夠減少遺漏,快速找到問題根源并處理;同樣,有效的日志分類能夠幫助用戶及時查看到自己某一項的操作記錄,快速追溯到問題根源,提高運維效率。

管理集中化:當(dāng)運維需求隨著業(yè)務(wù)需求不斷變化,服務(wù)器不斷增多,我們需要對其進行統(tǒng)一集中化管理,并在數(shù)量不斷增加的情況下保持穩(wěn)定。

運維全面化:當(dāng)用戶需求開始變得復(fù)雜,我們需要以一抵十,所有運維功能一站式管理,減少產(chǎn)品更迭。

要想實現(xiàn)云上運維的順利升級,首要任務(wù)就是”自動化一切“,未來傳統(tǒng)運維會朝著智能運維的方向持續(xù)演進。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論