阿里云混合云新一代運(yùn)維平臺的演進(jìn)與實(shí)踐

凌云時(shí)刻
混合云君
基礎(chǔ)設(shè)施上云后,在提升產(chǎn)研效率的同時(shí)對運(yùn)維的SLA提出了更高的要求,應(yīng)用系統(tǒng)的日益復(fù)雜、生產(chǎn)迭代的加快,對于應(yīng)用運(yùn)維系統(tǒng)來說,需要更智能的識別攔截風(fēng)險(xiǎn),發(fā)生故障時(shí)更快地響應(yīng)與快速恢復(fù),保持業(yè)務(wù)的持續(xù)性運(yùn)行。

2345截圖20211028093243.png

隨著企業(yè)業(yè)務(wù)的規(guī)模擴(kuò)大和復(fù)雜化,以及云計(jì)算、大數(shù)據(jù)等技術(shù)的不斷發(fā)展,大量傳統(tǒng)企業(yè)希望用上云來加速其數(shù)字化轉(zhuǎn)型,獲得虛擬化、軟件化、服務(wù)化、平臺化的紅利。在這個(gè)過程中,因?yàn)檐浖Y產(chǎn)規(guī)模持續(xù)增大而導(dǎo)致的軟件開發(fā)運(yùn)維和IT基礎(chǔ)設(shè)施建設(shè)運(yùn)營壓力,也將無法繼續(xù)采用線性增加的方式來解決,且在DevOps思想的影響與引導(dǎo)下,企業(yè)對于改善傳統(tǒng)IT運(yùn)維職責(zé)權(quán)邊界不清晰、操作過程無序、運(yùn)維效率及業(yè)務(wù)穩(wěn)定性方面也有著迫切的需求。企業(yè)必須加快整個(gè)IT架構(gòu)的轉(zhuǎn)型,在基礎(chǔ)設(shè)施上云后推動(dòng)應(yīng)用往云上遷移,充分利用好購買的云基礎(chǔ)設(shè)施。

企業(yè)上云挑戰(zhàn)

通常企業(yè)在基礎(chǔ)設(shè)施上云后,主要面臨如下4個(gè)方面挑戰(zhàn)。

第一,企業(yè)IT架構(gòu)不統(tǒng)一,技術(shù)棧多,統(tǒng)一運(yùn)維比較難實(shí)現(xiàn)。通常來說,企業(yè)經(jīng)過多年的發(fā)展,都存在大量功能高度重合、但是獨(dú)立運(yùn)行的應(yīng)用。這些應(yīng)用有的是自研,有的是ISV開發(fā),甚至很多是定向采購,這些應(yīng)用架構(gòu)不同,語言不同,甚至運(yùn)行環(huán)境也不同,同時(shí)為了這些應(yīng)用的穩(wěn)定運(yùn)行,催生了大量的運(yùn)維工具和系統(tǒng),所以當(dāng)企業(yè)的基礎(chǔ)設(shè)施上云后,對這些應(yīng)用統(tǒng)一運(yùn)維成本極高,也是運(yùn)維標(biāo)準(zhǔn)化、自動(dòng)化的障礙。

第二,企業(yè)正處于深化數(shù)字化轉(zhuǎn)型階段,對云不了解,對云上運(yùn)維更不了解。企業(yè)數(shù)據(jù)中心面臨轉(zhuǎn)型,但是缺少統(tǒng)一的體系化設(shè)計(jì)和建設(shè),應(yīng)用系統(tǒng)不知道怎么上云、運(yùn)維人員不知道云化后的定位,一切都在摸索中前進(jìn)。我們在和客戶的交流中就會(huì)經(jīng)常被問,你們在公司怎么做運(yùn)維的,幫我們列下你們工作的具體操作,甚至問你們的KPI是怎么定的。

第三,基礎(chǔ)設(shè)施上云后,在提升產(chǎn)研效率的同時(shí)對運(yùn)維的SLA提出了更高的要求,應(yīng)用系統(tǒng)的日益復(fù)雜、生產(chǎn)迭代的加快,對于應(yīng)用運(yùn)維系統(tǒng)來說,需要更智能的識別攔截風(fēng)險(xiǎn),發(fā)生故障時(shí)更快地響應(yīng)與快速恢復(fù),保持業(yè)務(wù)的持續(xù)性運(yùn)行。

第四,未來大型企業(yè)必定會(huì)存在多朵云,不同技術(shù)棧的云如何管理及運(yùn)維,存在困難或者說還沒有比較好的解決方案。

阿里運(yùn)維的變化與發(fā)展

我們看到當(dāng)前企業(yè)所面對的挑戰(zhàn),阿里集團(tuán)在全面上云的過程中也同樣遇到了?;谝陨系谋尘凹疤魬?zhàn),我們認(rèn)為:基礎(chǔ)設(shè)施上云后,企業(yè)的3大剛需分別是業(yè)務(wù)遷云、云上自動(dòng)化運(yùn)維、多朵云的混合云運(yùn)維。我們建設(shè)了面向混合云場景的統(tǒng)一運(yùn)維平臺,幫助企業(yè)以應(yīng)用為視角實(shí)現(xiàn)更易上云、更好用云,實(shí)現(xiàn)構(gòu)建多云架構(gòu)下成熟應(yīng)用的統(tǒng)一建模、架構(gòu)藍(lán)圖可視化交互驅(qū)動(dòng)、集中式&場景化運(yùn)維,以面對這些挑戰(zhàn)。接下來講一下,我們是如何一步步演進(jìn)、升級至混合云新一代運(yùn)維平臺。

2345截圖20211028093243.png

阿里巴巴的運(yùn)維體系經(jīng)歷了腳本時(shí)代、工具時(shí)代和DevOps時(shí)代,目前正在實(shí)現(xiàn)自動(dòng)化運(yùn)維并探索智能化運(yùn)維階段。

在2008-2009年,阿里巴巴的運(yùn)維還處于腳本時(shí)代,大量的運(yùn)維工作需要通過腳本來實(shí)現(xiàn),隨著業(yè)務(wù)規(guī)模擴(kuò)大和復(fù)雜度提高,腳本的方式越來越難以維護(hù),因此阿里巴巴開始引入運(yùn)維工具。在運(yùn)維工具時(shí)代,阿里巴巴的運(yùn)維體系經(jīng)歷了從工具團(tuán)隊(duì)和運(yùn)維團(tuán)隊(duì)并行的階段,到了為更好保障工具質(zhì)量統(tǒng)一的工具團(tuán)隊(duì)階段,再到逐漸有DevOps理念和職能偏軟件的工具團(tuán)隊(duì)階段,最后,阿里巴巴應(yīng)用運(yùn)維團(tuán)隊(duì)迎來了一場大變革,以前的應(yīng)用運(yùn)維團(tuán)隊(duì)全被打散,被合并到各業(yè)務(wù)軟件開發(fā)團(tuán)隊(duì)中,全面踐行DevOps理念。

進(jìn)入DevOps階段后,成熟的流程化運(yùn)維工具雖然提升了一部分運(yùn)維效率,但是各個(gè)工具之間實(shí)際是獨(dú)立割裂的,例如:監(jiān)控工具和運(yùn)維工具是割裂的,巡檢工具和快恢工具也是割裂的,這導(dǎo)致日常應(yīng)用持續(xù)運(yùn)維過程中,從監(jiān)控工具發(fā)現(xiàn)、定位并快速恢復(fù)問題的鏈路很長且效率低下,對運(yùn)維開發(fā)來說,期望業(yè)務(wù)應(yīng)用上線后可以“No Ops”,監(jiān)控及運(yùn)維系統(tǒng)能自行發(fā)現(xiàn)異常并自動(dòng)解決,把應(yīng)用及業(yè)務(wù)帶回正常狀態(tài),阿里巴巴應(yīng)用運(yùn)維開始了“監(jiān)管控一體化”的體系建設(shè),通過智能化手段提升運(yùn)維效率和運(yùn)維安全,從而保障業(yè)務(wù)的連續(xù)穩(wěn)定性。

大家都知道,阿里巴巴不但擁有眾多形態(tài)各異的業(yè)務(wù),而且體量大,特別是每年天貓雙11大促,需要超大規(guī)模的IAAS資源支撐。2015年之前,阿里巴巴每年都要花費(fèi)巨額費(fèi)用來購買服務(wù)器,建設(shè)一代又一代的IDC數(shù)據(jù)中心;2015年至2019年,阿里巴巴走向全面云化的過程,在這個(gè)時(shí)期,阿里巴巴基礎(chǔ)設(shè)施一部分在云下數(shù)據(jù)中心,另一部分在阿里云上的數(shù)據(jù)中心,還需要支持同城多活到異地多活,所以必須要有強(qiáng)大的云上云下一體化超大規(guī)模資源管理的能力;2019年阿里巴巴實(shí)現(xiàn)全面云化之后,又開始面對一個(gè)新的超大規(guī)模資源管理場景——“混合云”管理。

混合云場景下的運(yùn)維實(shí)踐

上面我們提到了很多次“應(yīng)用運(yùn)維”,先來說一下什么是應(yīng)用運(yùn)維。講這個(gè)之前我們先普及一下什么是“應(yīng)用”,應(yīng)用是指提供一組相同服務(wù)(Service)的資源集,可以對多個(gè)地域、多種資源進(jìn)行全生命周期角色、權(quán)限的統(tǒng)一管理,并擁有自己的代碼介質(zhì)如WAR、JAR、鏡像。基于此,應(yīng)用運(yùn)維即是對一組相同服務(wù)(Service)的資源集的生命周期進(jìn)行運(yùn)維。

我們所講的應(yīng)用運(yùn)維平臺正是處于SaaS層與PaaS層中間,與APaaS的概念有點(diǎn)相似,主要負(fù)責(zé)面向用戶的業(yè)務(wù)/應(yīng)用的運(yùn)維工作。因此應(yīng)用運(yùn)維向上可以觸達(dá)業(yè)務(wù)包括流量、GMV、營收,向下可以觸達(dá)平臺和系統(tǒng)包括資源與硬件,應(yīng)用天然和人強(qiáng)耦合,因此也可以關(guān)聯(lián)賬號和權(quán)限等虛擬資源,我們通過應(yīng)用很容易可以構(gòu)建業(yè)務(wù)運(yùn)行的各種藍(lán)圖拓?fù)潢P(guān)系,通過對應(yīng)用生命周期全封閉管理,我們可以高效、準(zhǔn)確地管理好應(yīng)用依賴的各種資源,應(yīng)用運(yùn)維也提供呈上啟下的作用,從業(yè)務(wù)研發(fā)到應(yīng)用運(yùn)維再到基礎(chǔ)設(shè)施運(yùn)維的分層工作流,即為云+應(yīng)用一體化運(yùn)維方案,基于應(yīng)用三態(tài)模型建設(shè),自上而下提供應(yīng)用等級、部署架構(gòu)到藍(lán)圖規(guī)劃的一整套解決方案,實(shí)現(xiàn)從用戶對應(yīng)用全生命周期的管理、研運(yùn)一體精細(xì)化運(yùn)營,再到一站式運(yùn)維。

2345截圖20211028093243.png

至此,混合云應(yīng)用運(yùn)維平臺誕生,通過阿里集團(tuán)內(nèi)部多年的經(jīng)驗(yàn)沉淀演進(jìn),支撐了阿里集團(tuán)的業(yè)務(wù)容器化、云化的重要架構(gòu)演進(jìn)。平臺也是以ITIL理念為指導(dǎo),提供云上的統(tǒng)一配置管理,為業(yè)務(wù)運(yùn)維變更、一體化運(yùn)維觀測提供統(tǒng)一的數(shù)據(jù),內(nèi)置的安全策略以及核心資產(chǎn)保護(hù),為業(yè)務(wù)變更的安全可靠提供穩(wěn)定支撐,通過大數(shù)據(jù)以及算法平臺,分析應(yīng)用的指標(biāo)、變更、日志等數(shù)據(jù),為應(yīng)用刻畫智能基線和畫像,通過與觀測的統(tǒng)一事件中心聯(lián)動(dòng),與應(yīng)用運(yùn)維自動(dòng)化變更流程結(jié)合,實(shí)現(xiàn)基于指標(biāo)和事件的異??旎帧?/p>

2345截圖20211028093243.png

平臺核心能力介紹

上面我們講到企業(yè)上云后的挑戰(zhàn),這些挑戰(zhàn)在阿里走向全面云化的過程中也都一一碰到,應(yīng)用運(yùn)維平臺的演進(jìn)誕生也分了幾個(gè)主要核心能力的演進(jìn),下面我們講講這些核心能力是如何支撐業(yè)務(wù)上云的。

統(tǒng)一CMDB

首先我們統(tǒng)一了CMDB,CMDB作為基礎(chǔ)服務(wù),為企業(yè)提供團(tuán)隊(duì)協(xié)作、企業(yè)主數(shù)據(jù)、IT資產(chǎn)管理、應(yīng)用監(jiān)控等核心模塊的數(shù)據(jù)交換能力,業(yè)界的解決方案也非常多,但是我們調(diào)研了業(yè)界內(nèi)很多相關(guān)的產(chǎn)品,發(fā)現(xiàn)現(xiàn)有的CMDB都比較偏傳統(tǒng),面向應(yīng)用管理的CMDB比較少。

所以我們構(gòu)建了以應(yīng)用為中心的應(yīng)用模型,滿足混合云運(yùn)維的各種需求,比如異構(gòu)云元數(shù)據(jù)的統(tǒng)一納管,通過自動(dòng)化資源生命周期管理而不是腳本采集來保證數(shù)據(jù)的準(zhǔn)確性。因此混合云CMDB要求擁有靈活的建模以及查詢能力,要求有能力在大流量高并發(fā)的情況下,提供實(shí)時(shí)、準(zhǔn)確的數(shù)據(jù)操作能力,提供靈活可自定義和拓?fù)浣Y(jié)構(gòu)圖形化展示能力,可自定義規(guī)范、約束狀態(tài)變化等能力,并支持深度的拓?fù)洳樵兡芰?,也提供高可用的API服務(wù),支持被集成。我們當(dāng)前混合云的CMDB,經(jīng)過歷年雙11的沉淀與客戶場景的不斷打磨成型,采用以業(yè)務(wù)變更驅(qū)動(dòng)配置數(shù)據(jù)變更的方式而不是主動(dòng)采集更新的方式,更好地保障了數(shù)據(jù)的實(shí)時(shí)性和權(quán)威性,形成了產(chǎn)品能力上的差異化競爭。

2345截圖20211028093243.png

混合云資源管理

接下來我再介紹下,云上運(yùn)維必不可少的應(yīng)用混合云資源納管。既然我們是面向混合云的管理平臺,勢必需要無縫對接公有云、專有云IaaS資源,并且可以接管用戶自建IDC等異構(gòu)云的資源。支持IaaS資源全生命周期管理的同時(shí),支持混合云資源的自動(dòng)化編排,計(jì)量計(jì)費(fèi),成本分析與控制,在降低企業(yè)資源使用成本的同時(shí),滿足業(yè)務(wù)快速交付的需求。

區(qū)別云平臺資源納管,以應(yīng)用的視角管理應(yīng)用的架構(gòu)和資源,并提供一鍵式的資源交付能力,可以讓不同的角色分工協(xié)作,例如平臺規(guī)劃人員提前規(guī)劃好運(yùn)行環(huán)境和網(wǎng)絡(luò),應(yīng)用的架構(gòu)角色可以定義應(yīng)用系統(tǒng)的架構(gòu),平臺自動(dòng)創(chuàng)建應(yīng)用系統(tǒng)以及應(yīng)用服務(wù)的配置數(shù)據(jù),然后應(yīng)用的研發(fā)運(yùn)維人員以業(yè)務(wù)的視角基于應(yīng)用的部署架構(gòu),進(jìn)行資源的規(guī)劃,在資源編排時(shí),業(yè)務(wù)只需關(guān)心應(yīng)用運(yùn)行在哪個(gè)環(huán)境中,對應(yīng)用的研發(fā)運(yùn)維角色屏蔽了地域、vpc等網(wǎng)絡(luò)相關(guān)的配置信息,讓業(yè)務(wù)人員更多關(guān)注在資源配置上,平臺自動(dòng)進(jìn)行資源申請交付,并主動(dòng)維護(hù)資源和系統(tǒng)之間的管理關(guān)系,自動(dòng)落入統(tǒng)一的CMDB中,這也就是前面講到的,混合云平臺的CMDB的數(shù)據(jù)維護(hù)都是通過變更驅(qū)動(dòng)的。

2345截圖20211028093243.png

可視化編排

在應(yīng)用運(yùn)維領(lǐng)域,大部分的做法都是基于工作流以及工單管理來實(shí)現(xiàn)對應(yīng)的運(yùn)維變更操作,而傳統(tǒng)的運(yùn)維工作流在維護(hù)成本及可擴(kuò)展性上都存在一定的不足,缺乏有效的流程生命周期管理手段。

例如應(yīng)用申請?jiān)瀑Y源的場景,大多是一種復(fù)合操作,可能會(huì)涉及多個(gè)云資源間的依賴關(guān)系,比如申請一個(gè)ECS需要掛載SLB,同時(shí)掛載數(shù)據(jù)盤以及OSS才能滿足業(yè)務(wù)需求,如果不是通過可視化編排,平臺的易用性和復(fù)雜性會(huì)成倍增加。那么用戶(PaaS服務(wù)以及開發(fā)、運(yùn)維、運(yùn)營等角色)可以根據(jù)實(shí)際業(yè)務(wù)需要,對多個(gè)原子組件通過簡單可視的編排方式進(jìn)行靈活裝配,構(gòu)造出不同的業(yè)務(wù)流程完成一個(gè)完整的運(yùn)維需求,運(yùn)維編排也可以幫助我們更好地規(guī)范、管理和執(zhí)行自動(dòng)化運(yùn)維操作,以模板的方式定義所需要進(jìn)行的操作,然后再通過系統(tǒng)運(yùn)行,從而提高整體運(yùn)維操作的效率、增強(qiáng)運(yùn)維操作的安全性,并避免人工運(yùn)維的錯(cuò)誤。

2345截圖20211028093243.png

自動(dòng)化智能化運(yùn)維

當(dāng)平臺具備了基本能力以后,也就需要在其他領(lǐng)域進(jìn)行突破。我們通過在阿里集團(tuán)以及客戶側(cè)的大量實(shí)踐,沉淀出基于應(yīng)用的智能運(yùn)維框架,輕量化的架構(gòu)可以完成數(shù)據(jù)采集收集,算法快速開發(fā)調(diào)優(yōu),與專業(yè)的算法團(tuán)隊(duì)深入合作,快速構(gòu)建起智能運(yùn)維領(lǐng)域的相關(guān)能力,比如:彈性伸縮、智能告警、智能巡檢、無人值守發(fā)布等場景,對競品形成了技術(shù)上的優(yōu)勢。

根據(jù)一些調(diào)研的數(shù)據(jù)顯示,企業(yè)中70%以上的故障都是由于變更引起的,在企業(yè)應(yīng)用敏捷迭代的場景下,如何體系化、自動(dòng)化、智能化地保障變更安全是所有企業(yè)核心訴求。很多企業(yè)在進(jìn)行生產(chǎn)變更時(shí)會(huì)要求雙人復(fù)核,一定程度上對變更前的一些事項(xiàng)進(jìn)行檢查,降低變更風(fēng)險(xiǎn),這就對人員的技能要求很高,而且經(jīng)驗(yàn)不易復(fù)制,也一定程度上降低了效能。

混合云應(yīng)用維平臺通過系統(tǒng)工程化的解決方案,根據(jù)阿里的各種業(yè)務(wù)場景,提煉了變更的風(fēng)險(xiǎn)策略,與運(yùn)維平臺變更流程進(jìn)行了有效結(jié)合,實(shí)現(xiàn)變更前風(fēng)險(xiǎn)監(jiān)測,對于識別到的風(fēng)險(xiǎn),會(huì)進(jìn)行變更攔截,進(jìn)行流程加簽審批,保障運(yùn)維流程的安全;變更執(zhí)行中,平臺會(huì)實(shí)時(shí)對業(yè)務(wù)運(yùn)行態(tài)指標(biāo)進(jìn)行監(jiān)測,與應(yīng)用畫像進(jìn)行比對,如變更時(shí)應(yīng)用指標(biāo)/業(yè)務(wù)指標(biāo)發(fā)生大幅度抖動(dòng),平臺會(huì)自動(dòng)進(jìn)行變更攔截,及時(shí)控制影響范圍。

2345截圖20211028093243.png

未來的運(yùn)維趨勢

以上分析了阿里運(yùn)維平臺上云后的演進(jìn)過程,同時(shí)分享了平臺的幾個(gè)核心能力,下面我們聊一下未來運(yùn)維發(fā)展趨勢是如何的。

如果說運(yùn)維1.0時(shí)代,是以黑屏運(yùn)維模式、主機(jī)運(yùn)維為技術(shù)特點(diǎn)提升IT運(yùn)維工作(人員)自身的效率,運(yùn)維2.0時(shí)代是以白屏運(yùn)維模式、容器化運(yùn)維為技術(shù)特點(diǎn)提升IT系統(tǒng)的效率性、降低運(yùn)維成本,那么運(yùn)維3.0必將是數(shù)字化時(shí)代的運(yùn)維模式。這種運(yùn)維模式重要的特性就是以保障業(yè)務(wù)穩(wěn)定、高效為目標(biāo),提供云+應(yīng)用一體化運(yùn)維模式,通過業(yè)務(wù)可靠性的系統(tǒng)工程技術(shù)能力,從各個(gè)維度系統(tǒng)化保障業(yè)務(wù)的穩(wěn)定。

在最新的十四五規(guī)劃中,國家明確提出將加速推進(jìn)傳統(tǒng)企業(yè)的數(shù)字化轉(zhuǎn)型,同時(shí)也明確提出,相關(guān)科技領(lǐng)域,以及電力,金融,交通等這些基礎(chǔ)設(shè)施級別的民生企業(yè)要保證安全可靠。事實(shí)上在十三五期間,已經(jīng)有越來越多的傳統(tǒng)企業(yè)依賴云試水?dāng)?shù)字化轉(zhuǎn)型,而保障已經(jīng)數(shù)字化轉(zhuǎn)型成功的企業(yè)安全穩(wěn)定運(yùn)行在云上,必將是核心競爭力。

2345截圖20211028093243.png

在數(shù)字化變革的浪潮中,中國作為產(chǎn)業(yè)規(guī)模最大和門類最齊全的經(jīng)濟(jì)體,迎來百年未有的崛起機(jī)會(huì),擁抱數(shù)字基礎(chǔ)設(shè)施,探索符合數(shù)字化時(shí)代要求的技術(shù)和管理范式,將幫助我們切實(shí)把握機(jī)會(huì),而把握這一機(jī)會(huì)的組織,將在數(shù)字化變革的浪潮中脫穎而出。

未來我們也會(huì)和企業(yè)共同成長,提供企業(yè)用戶金融級別高可用和連續(xù)性要求的應(yīng)用所需各類服務(wù),滿足金融等業(yè)務(wù)場景下多活和容災(zāi)的業(yè)務(wù)需求,促進(jìn)企業(yè)業(yè)務(wù)的敏態(tài)和穩(wěn)態(tài)發(fā)展,切切實(shí)實(shí)幫助上云的企業(yè)客戶,建立以云+應(yīng)用為中心的企業(yè)數(shù)字化業(yè)務(wù)運(yùn)營管理解決方案。

THEEND

最新評論(評論僅代表用戶觀點(diǎn))

更多
暫無評論