隨著自動化智能化的發(fā)展,系統(tǒng)運(yùn)維管理員會逐步被淘汰嗎?

twt企業(yè)IT社區(qū)
twt社區(qū)
整個信息行業(yè)正大步邁向數(shù)字化、智能化,技術(shù)的沖擊無不催動著眾多企業(yè)的數(shù)字化轉(zhuǎn)型進(jìn)程。信息技術(shù)部在數(shù)字化轉(zhuǎn)型過程中,更肩負(fù)著成功實現(xiàn)轉(zhuǎn)型、全面保障業(yè)務(wù)的重大責(zé)任,而在這支中流砥柱里,運(yùn)維管理最不容小覷。

【摘要】整個信息行業(yè)正大步邁向數(shù)字化、智能化,技術(shù)的沖擊無不催動著眾多企業(yè)的數(shù)字化轉(zhuǎn)型進(jìn)程。信息技術(shù)部在數(shù)字化轉(zhuǎn)型過程中,更肩負(fù)著成功實現(xiàn)轉(zhuǎn)型、全面保障業(yè)務(wù)的重大責(zé)任,而在這支中流砥柱里,運(yùn)維管理最不容小覷。作者曾陸續(xù)接觸過多個行業(yè),熟悉其業(yè)務(wù)框架和基礎(chǔ)架構(gòu),在本文中分享些個人從近幾年行業(yè)基礎(chǔ)架構(gòu)的發(fā)展演進(jìn)上,對基礎(chǔ)架構(gòu)運(yùn)維的點滴感悟。

【作者】李威,80 后一枚,初以存儲備份容災(zāi)白手起家,晝伏夜出,奔赴在項目救火一線;隨后轉(zhuǎn)入基礎(chǔ)運(yùn)維序列,混跡于運(yùn)營商、金融行間;現(xiàn)塵埃暫定,落葉于某保險公司,負(fù)責(zé)數(shù)據(jù)中心相關(guān)管理工作,多與服務(wù)器存儲打交道,和虛擬化、超融合和云相聚一堂,在基礎(chǔ)資源架構(gòu)設(shè)計與優(yōu)化、業(yè)務(wù)運(yùn)維方面略有心得。

1、開篇前言

現(xiàn)今云計算、容器、超融合、大數(shù)據(jù)技術(shù)如日中天, DevOps 、 AIOps 興起, AI 、 5G 也不斷突破、成績喜人,整個信息行業(yè)大步邁向數(shù)字化、智能化。技術(shù)的沖擊無不催動著眾多企業(yè)的數(shù)字化轉(zhuǎn)型進(jìn)程。然而數(shù)字化轉(zhuǎn)型并不是一件容易的事,不僅僅關(guān)乎企業(yè)在信息戰(zhàn)略上的調(diào)整、業(yè)務(wù)及架構(gòu)上的創(chuàng)新,更要求企業(yè)面對轉(zhuǎn)型的沖擊實現(xiàn)業(yè)務(wù)增長與技術(shù)輸出的軟著陸,轉(zhuǎn)型到發(fā)展的平滑過渡。信息技術(shù)部是企業(yè)技術(shù)實力的牌面,在數(shù)字化轉(zhuǎn)型過程中,更肩負(fù)著成功實現(xiàn)轉(zhuǎn)型、全面保障業(yè)務(wù)的重大責(zé)任,而在這支中流砥柱里,運(yùn)維管理最不容小覷。

筆者曾陸續(xù)接觸過運(yùn)營商、保險、證券以及政府等多個行業(yè),熟悉其業(yè)務(wù)框架和基礎(chǔ)架構(gòu),借此機(jī)會,分享些個人從近幾年行業(yè)基礎(chǔ)架構(gòu)的發(fā)展演進(jìn)上,對基礎(chǔ)架構(gòu)運(yùn)維的點滴感悟。

2、當(dāng)下之勢

2.1 基礎(chǔ)架構(gòu)的變遷

2015 年以后,信息技術(shù)的發(fā)展陡然增速,超融合、私有云 / 私有云、容器、大數(shù)據(jù)等在架構(gòu)、版本、功能等方面都有了長足的進(jìn)步,并打開了企業(yè)市場。隨著近五年的發(fā)展,萬兆網(wǎng)絡(luò)互聯(lián)呈席卷之勢,迅速占領(lǐng)了數(shù)據(jù)中心。 X86 服務(wù)器性能日益強(qiáng)大, SSD 性價比完敗機(jī)械磁盤,一時間吹起了 AI 賦能、分布式、國產(chǎn)化轉(zhuǎn)型之風(fēng)。技術(shù)的雷厲風(fēng)行始終是其版本的迭代,傳統(tǒng)企業(yè)并不追新圖快,而是穩(wěn)中求勝,技術(shù)的真正效益還得依靠其在企業(yè)落地帶來的價值丈量。

最近幾年,國際巨頭背書、互聯(lián)網(wǎng)企業(yè)助推的分布式生態(tài)趨于穩(wěn)定,從計算、存儲到網(wǎng)絡(luò)各方面衍生的開放架構(gòu)紛紛亮相,企業(yè)級解決方案、產(chǎn)品接踵而至,大數(shù)據(jù)、超融合、云等開放技術(shù)也在傳統(tǒng)企業(yè)內(nèi)得以實裝。

如今企業(yè)基礎(chǔ)架構(gòu)正處在這新舊交接的過渡期。以金融保險行業(yè)來說,現(xiàn)階段多數(shù)保險公司新舊架構(gòu)并存,中國人壽、平安、太平等在內(nèi)的絕大多數(shù)保險公司都開始了私有云、公有云或者混合云的嘗試,積極實現(xiàn)云轉(zhuǎn)型。相對于云,在容器和超融合方面,各大保險公司的步伐均已邁入前列, Openshift 、 k8s 、 Rancher 等主流容器及管理平臺均在保險行業(yè)落地,業(yè)務(wù)也逐步優(yōu)化改造以適配新的平臺。 Nutanix 、 FusionCube 以及 SmartX 等主流超融合平臺也打入了企e業(yè)數(shù)據(jù)中心,陸續(xù)承載業(yè)務(wù)系統(tǒng)的運(yùn)行。大數(shù)據(jù)平臺、 AIOps/DevOps 體系建設(shè),各保險公司或初窺門徑、或提上日程、或已小成規(guī)模。

新的技術(shù)、新的平臺紛紛涌入金融行業(yè)的信息化建設(shè)中,然而我們也應(yīng)意識到數(shù)字化創(chuàng)新道路上的桎梏。由于各保險公司成立較早,業(yè)務(wù)框架與基礎(chǔ)資源架構(gòu)偏向傳統(tǒng),與當(dāng)前開放式架構(gòu)或多或少存在兼容性問題,系統(tǒng)改造、優(yōu)化升級也不得不考慮在基礎(chǔ)建設(shè)之中。

金融企業(yè)的基礎(chǔ)架構(gòu)戰(zhàn)線很長,不少家可以追溯到大、小型機(jī)時代,通過高性能巨型機(jī)來支撐業(yè)務(wù),又經(jīng)歷了傳統(tǒng)三件套服務(wù)器存儲網(wǎng)絡(luò)的分流,高性能需求業(yè)務(wù)與普通業(yè)務(wù)各執(zhí)一方,隨著服務(wù)器虛擬化產(chǎn)品的日臻完善,傳統(tǒng)基礎(chǔ)架構(gòu)迎來了第三次沖擊,新業(yè)務(wù)乘上了虛擬化的快車,使得很長一段時間里基礎(chǔ)架構(gòu)呈現(xiàn)三分之勢。

若以持續(xù)發(fā)展的眼光審視傳統(tǒng)架構(gòu),相對于今天的云、超融合、容器等,傳統(tǒng)架構(gòu)雖然體態(tài)龐大,但涇渭分明,在繁雜的物理底層上也保持著規(guī)矩可循。新舊架構(gòu)體系的迭代更替,是一個挑戰(zhàn),更是一份契機(jī)。

2.2 基礎(chǔ)架構(gòu)的趨勢

縱觀近十年的 IT 基礎(chǔ)架構(gòu)的發(fā)展,硬件性能翻番,直接奠定了基礎(chǔ)架構(gòu)革新的基礎(chǔ)。無論是 INTEL 還是 AMD , CPU 的性能較之十年前不可同日而語,算力飛躍式升級,強(qiáng)大的算力驅(qū)動未來;更低延時、更高 IO 的萬兆互聯(lián)技術(shù)全網(wǎng)普及,直接改變了數(shù)據(jù)網(wǎng)絡(luò)的格局,帶來了分布式的更多可能;性價比更勝一籌的固態(tài)硬盤迅速反撲了機(jī)械磁盤的市場,顯著拔高了存儲性能的門檻,徹底改寫了數(shù)據(jù)存儲的篇章……計算、網(wǎng)絡(luò)、存儲的突飛猛進(jìn)直接奠定了信息化的格局,也必將在未來五至十年里呈現(xiàn)各種趨勢,運(yùn)維管理的重心也隨之有所偏向。

開放式架構(gòu)體系與開源化產(chǎn)品已在各企業(yè)內(nèi)部扎根,基礎(chǔ)架構(gòu)也從傳統(tǒng)框架向多種開放式架構(gòu)設(shè)計多路并進(jìn),數(shù)據(jù)中心內(nèi)部多種架構(gòu)形態(tài)還將持續(xù)許久。依托現(xiàn)今的架構(gòu)格局,著眼當(dāng)下信息技術(shù)的發(fā)展,不妨大膽揣度下未來幾年基礎(chǔ)架構(gòu)設(shè)計、業(yè)務(wù)支撐的走勢:

分布式架構(gòu)興起

算力驅(qū)動未來,更強(qiáng)大的算力也意味著更多的生產(chǎn)力。傳統(tǒng)架構(gòu)受制于體系設(shè)計,無法實現(xiàn)靈活、便捷的擴(kuò)展。然而計算存儲網(wǎng)絡(luò)技術(shù)的齊頭并進(jìn),給予了分布式的架構(gòu)更多的青睞。分布式不僅放大了計算存儲網(wǎng)絡(luò)擴(kuò)張優(yōu)勢,真正實現(xiàn)了動態(tài)架構(gòu)、靈活擴(kuò)展的能力,而且相對于傳統(tǒng)架構(gòu),綜合成本可期,其階段性的效益價值更容易為企業(yè)所接受。同時從業(yè)務(wù)角度方面分析,在業(yè)務(wù)框架不變的基礎(chǔ)上,分布式更能優(yōu)化業(yè)務(wù)的整體表現(xiàn)力,通過合理拆分業(yè)務(wù)邏輯,細(xì)分業(yè)務(wù)功能角色,給予了更充足的彈性空間,更符合業(yè)務(wù)的發(fā)展曲線。

隨著金融行業(yè)大力發(fā)展互聯(lián)網(wǎng)業(yè)務(wù),分布式的需求勢必進(jìn)一步擴(kuò)大,憑借靈活的架構(gòu)也會在未來占據(jù)更多席位。

 輕量化的業(yè)務(wù)支撐

在近兩年里,容器產(chǎn)品的盛行也引發(fā)了企業(yè)對業(yè)務(wù)支撐模式的思考,很長一段時間里,數(shù)據(jù)中心都是依賴傳統(tǒng)架構(gòu)提供服務(wù)能力,或者憑借虛擬化去支撐業(yè)務(wù)的需求。但在傳統(tǒng)框架內(nèi),資源的實際利用效率低,尤其是對中小型業(yè)務(wù)系統(tǒng)的支撐。傳統(tǒng)架構(gòu)大處著眼,對業(yè)務(wù)系統(tǒng)的支撐大而全,無法做到小而精,而一些輕量級的產(chǎn)品,如輕量級容器應(yīng)用、數(shù)據(jù)庫等卻能很好的滿足這塊需求,通過彈性擴(kuò)展橫向增加性能,向上業(yè)務(wù)支撐靈活、可大可小。企業(yè) 2B 及互聯(lián)網(wǎng)方向業(yè)務(wù)劇增,中小型業(yè)務(wù)系統(tǒng)占比上升,輕量化業(yè)務(wù)支撐的需求也會同步增長。

除此之外,輕量化產(chǎn)品上線前期,對業(yè)務(wù)架構(gòu)的改造也在一定程度上優(yōu)化、升級了業(yè)務(wù)的整體性能表現(xiàn)。上層應(yīng)用集群的分解、業(yè)務(wù)數(shù)據(jù)結(jié)構(gòu)的改造分離,逐漸淡化了前端后端、前臺后臺的固化模式,使得業(yè)務(wù)整體模式也更符合現(xiàn)今業(yè)務(wù)迅猛發(fā)展的需要。

全棧技術(shù)的聯(lián)動

在云、容器、超融合、大數(shù)據(jù)等多重開放式架構(gòu)的混戰(zhàn)下,企業(yè)雖然享受著架構(gòu)生態(tài)的紅利,但管理者也意識到管控精力逐漸被分化,成本開銷日益放大,多方獨(dú)立的局面不能持續(xù),平臺與運(yùn)維的矛盾遲早要解決。 2019 年“全棧”的理念被多次提出,云、容器、大數(shù)據(jù)的一體化平臺應(yīng)運(yùn)而生,管理平面生態(tài)逐漸走向全棧化。企業(yè)內(nèi)部的各項基礎(chǔ)資源、產(chǎn)品技術(shù)的隔離日益弱化,計算存儲網(wǎng)絡(luò)的聯(lián)動更加頻繁。

不僅如此,開放式架構(gòu)的帶動下,運(yùn)維管理的界限逐漸模糊。傳統(tǒng)架構(gòu)中,服務(wù)器、存儲、網(wǎng)絡(luò)、安全,專崗專人,各司其職。開放架構(gòu)下,計算存儲網(wǎng)絡(luò)即獨(dú)立又聯(lián)合,各功能上下游牽扯、組件間多層封裝。若系統(tǒng)出現(xiàn)異常,必須多方協(xié)調(diào),全局排查,因而“一專多能”的角色要求至關(guān)重要。

2.3 運(yùn)維管理的挑戰(zhàn)

隨著基礎(chǔ)架構(gòu)的轉(zhuǎn)型,新的平臺和技術(shù)不斷涌入,運(yùn)維管理面臨著不少挑戰(zhàn),接下來筆者以系統(tǒng)運(yùn)維崗為例進(jìn)行說明:

a  運(yùn)維管理橫向維度拉伸

在傳統(tǒng)運(yùn)維中,系統(tǒng)運(yùn)維崗位主要負(fù)責(zé)數(shù)據(jù)中心基礎(chǔ)軟件系統(tǒng)(如虛擬化、云等)的運(yùn)維工作,主要是保障底層平臺的穩(wěn)定運(yùn)行。基礎(chǔ)架構(gòu)適時轉(zhuǎn)型,運(yùn)維管理的橫向維度也進(jìn)一步拉伸,更多基礎(chǔ)系統(tǒng)(如 HCI 平臺、云管平臺甚至是容器云平臺)加入了系統(tǒng)運(yùn)維的崗位中。

隨著管理面的擴(kuò)大,系統(tǒng)運(yùn)維的難度也隨之提升。首先是技術(shù)的拓展上,新產(chǎn)品都在傳統(tǒng)技術(shù)層面上引入開放式架構(gòu)技術(shù),進(jìn)行了不同程度的融合升級,例如 HCI 在傳統(tǒng)虛擬化基礎(chǔ)上加入了超融合底層承載分布式計算與存儲。其次與其他運(yùn)維的聯(lián)動上,開放式架構(gòu)的功能豐富、組件多、邏輯復(fù)雜,這也導(dǎo)致系統(tǒng)運(yùn)維與其他維面的多處接壤,間接增加了運(yùn)維的難度。以云管平臺的運(yùn)維為例,門戶層由于服務(wù)級聯(lián)常與 ITSM 運(yùn)維交互,功能層因?qū)佣喾N數(shù)據(jù)庫常與 DBA 照面等。最后是角色定位的轉(zhuǎn)變,傳統(tǒng)運(yùn)維由于職能純粹一般實行專人專崗,而在數(shù)字化轉(zhuǎn)型的趨勢下,開放式架構(gòu)更需要“一專多能”的角色定位,尤其是云管、容器這類關(guān)聯(lián)性極強(qiáng)的平臺運(yùn)維,不僅需要底層計算存儲網(wǎng)絡(luò)的基礎(chǔ),更依賴云管、容器產(chǎn)品本身的技術(shù)儲備以及運(yùn)維邊界上的理解與溝通。

b 運(yùn)維上下游滲透

隨著開放式架構(gòu)的演進(jìn),平臺的各項功能逐漸抽象化、服務(wù)化,系統(tǒng)運(yùn)維橫向維度拉伸,其各處上下游的界限也逐漸模糊。這一思想在云和容器上體現(xiàn)得淋漓盡致。

在傳統(tǒng)運(yùn)維中,即使是虛擬化或者 IaaS 云,向上支撐的單位還停留在虛擬機(jī)層面,不論與開發(fā)、應(yīng)用還是數(shù)據(jù)庫等業(yè)務(wù)面的交互還存在明顯的分界。而隨著開放式的架構(gòu)深入,容器云以及 PaaS 、 SaaS 云的落地,向上支持的精度更加細(xì)致,服務(wù)的表現(xiàn)力更為強(qiáng)大,基礎(chǔ)資源均逐漸抽象化為服務(wù),按需部署。也是這轉(zhuǎn)變的過程中,運(yùn)維上下游的聯(lián)系已潛移默化、悄然改變。例如, Rancher 等容器云平臺,運(yùn)維過程中從部署、上線、排障以及優(yōu)化均已不似傳統(tǒng)運(yùn)維中各崗位單打獨(dú)斗,而是開發(fā)、應(yīng)用以及運(yùn)維在業(yè)務(wù)的每一個環(huán)節(jié)都要進(jìn)行充分討論、溝通、確定,共同協(xié)作完成系統(tǒng)框架、交互邏輯、參數(shù)配置、部署優(yōu)化等各項工作。隨著分布式架構(gòu)的推廣,業(yè)務(wù)應(yīng)用、中間件、數(shù)據(jù)庫精細(xì)化拆分的進(jìn)展,業(yè)務(wù)各支撐面的黏性將進(jìn)一步提高。

c  智能化運(yùn)維管理

近些年在大數(shù)據(jù)以及 AI 技術(shù)的助力下,系統(tǒng)開發(fā)及運(yùn)維都逐步走向智能化,如 DevOps/AIOps 等智能運(yùn)維管理平臺出現(xiàn)在企業(yè)之中,取代了部分人工運(yùn)維的工作。

在 AIOps 平臺的管理下,通過對運(yùn)維數(shù)據(jù)進(jìn)行學(xué)習(xí)訓(xùn)練,將實際問題轉(zhuǎn)化為算法問題,從而自動化處理各類系統(tǒng)運(yùn)維故障。目前結(jié)合 APM 性能數(shù)據(jù), AIOps 平臺已可實現(xiàn)云及容器等平臺上應(yīng)用節(jié)點異常檢測,實時告警并依靠決策樹嘗試自動重啟修復(fù)或動態(tài)擴(kuò)容節(jié)點替換故障節(jié)點等;在故障預(yù)測及瓶頸分析方面,通過對歷史基準(zhǔn)值的挖掘,預(yù)測系統(tǒng)的常態(tài),對關(guān)鍵性能失衡提前告警并給出排查建議;在平臺及系統(tǒng)容量預(yù)測上,通過對各項資源的投入及實際消耗分析、繪制未來趨勢曲線,為系統(tǒng)運(yùn)維人員的擴(kuò)容提供數(shù)理依據(jù)。

3、未來之行

隨著數(shù)字化轉(zhuǎn)型的腳步,運(yùn)維管理橫向以及縱向都發(fā)生了質(zhì)的變化,在橫向維度責(zé)任范圍已然擴(kuò)大,從傳統(tǒng)的虛擬化向 HCI 、容器云以及更高層次的云模型發(fā)展。縱向上系統(tǒng)開發(fā)、運(yùn)維以及其他運(yùn)維更加親密,走向運(yùn)管協(xié)同的趨勢。

面對系統(tǒng)運(yùn)維崗位的變化,筆者建議以一個基本點兩個中心出發(fā)、付諸行動:

一個基本點即是“技術(shù)為本”。作為系統(tǒng)運(yùn)維,專業(yè)技術(shù)就是資本:當(dāng)務(wù)之急是對新架構(gòu)的掌握,提升云、容器、 AIOps 等知識積累,分布式架構(gòu)的原理相似相融,云、 HCI 與虛擬化都有著千絲萬縷的潛在聯(lián)系,舉一反三、觸類旁通;其次做好廠商到運(yùn)維組的知識轉(zhuǎn)移,以技術(shù)交流、管理培訓(xùn)等方式加速運(yùn)維管理技能的成長,廠商資源是數(shù)字化轉(zhuǎn)型前期重要的輔助資源,尤其是針對云及云管這類覆蓋面廣的平臺,合理利用廠商支持夯實產(chǎn)品運(yùn)維的根基。最后,抓住實干的機(jī)會,系統(tǒng)運(yùn)維修行的兩大核心 ----CASE 和項目,跟蹤 CASE 是檢驗個人運(yùn)維能力最直接、最有效的方式,通過對故障的分析、推理及判斷完成理論到實踐的轉(zhuǎn)化,增長運(yùn)維經(jīng)驗。項目是對個人運(yùn)維管理能力的綜合歷練,產(chǎn)品測試選型、架構(gòu)部署、最佳實踐是最好的實際檢驗標(biāo)準(zhǔn),豐富項目閱歷。

兩個中心即是“一專多能”的定位與“持續(xù)賦能”的覺悟。開放式架構(gòu)盛行,業(yè)務(wù)下移,開發(fā)運(yùn)維支撐上行,是必然的趨勢,不懂業(yè)務(wù)的運(yùn)維不是優(yōu)秀的系統(tǒng)管理員。在實際運(yùn)維過程中,理解并掌握業(yè)務(wù)基礎(chǔ)將成為運(yùn)維管理員部署優(yōu)化、排障定位的有效輔助。系統(tǒng)運(yùn)維不僅是維持基礎(chǔ)系統(tǒng)的穩(wěn)定,更需要保障與支撐業(yè)務(wù)的高效運(yùn)行,而業(yè)務(wù)系統(tǒng)的最佳實踐效果往往依賴系統(tǒng)運(yùn)維提出業(yè)務(wù)系統(tǒng)配置及架構(gòu)優(yōu)化改良建議。在容器及云服務(wù)設(shè)計上,資源的 CPU 內(nèi)存存儲配置、應(yīng)用架構(gòu)選型、系統(tǒng)的部署方式與實現(xiàn),需要全面綜合系統(tǒng)開發(fā)、運(yùn)維、應(yīng)用等多位面的協(xié)同,業(yè)務(wù)基礎(chǔ)即是連接位面的重要樞紐。

如今隨著 DevOps/AIOps 等智能運(yùn)維管理平臺的落地,不免引發(fā)對運(yùn)維管理的另一則猜想:運(yùn)維和管理都能做到智能、自動化了,那系統(tǒng)運(yùn)維管理員是否會隨著技術(shù)發(fā)展逐漸被淘汰呢?

誠然,必須承認(rèn)的是: AI 技術(shù)及算力的突破確實帶來了人工智能的迅速崛起,并且切實解決了一部分基礎(chǔ)問題,實現(xiàn)智能化需求。但我們也要意識到, AI 的智能化極度依賴其模型訓(xùn)練積累,智能等級越高,其模型越復(fù)雜,訓(xùn)練時間越長,成本越高。在智能化運(yùn)維平臺的催化下,系統(tǒng)運(yùn)維的職業(yè)思考更需深謀遠(yuǎn)慮,基礎(chǔ)運(yùn)維工作的接力即將由運(yùn)維管理員交接給 AI ,而運(yùn)維管理員則向著更高的管理層次邁進(jìn)。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論