智慧運(yùn)維與系統(tǒng)可觀測(cè)性 | 趨勢(shì)解讀

隨著容器、微服務(wù)、中臺(tái)的迅速流行,使得系統(tǒng)間的訪問(wèn)越來(lái)越復(fù)雜,在云內(nèi)、云間可能會(huì)運(yùn)數(shù)千個(gè)進(jìn)程和服務(wù),服務(wù)的調(diào)用用傳統(tǒng)的點(diǎn)對(duì)點(diǎn)和點(diǎn)對(duì)多點(diǎn)演變成網(wǎng)狀,使用傳統(tǒng)的監(jiān)控技術(shù)和手段很難跟蹤這些分布式架構(gòu)中的數(shù)據(jù)流、調(diào)用鏈和相互依賴關(guān)系,系統(tǒng)內(nèi)部的可見性就變得非常重要。

本文來(lái)自twt企業(yè)IT社區(qū),作者/鄭金輝。

可觀測(cè)性是2022年最熱的IT話題之一。本文帶你了解可觀測(cè)性的意義、可觀測(cè)性與監(jiān)控以及智慧運(yùn)維關(guān)系。

一、什么是可觀測(cè)性

從去年下半年開始一直到現(xiàn)在,在IT運(yùn)維領(lǐng)域有一個(gè)詞一直熱度不減,甚至一度超過(guò)了當(dāng)初的AIOps,那就是“可觀測(cè)性”??捎^測(cè)性(Observability)本來(lái)是一個(gè)自動(dòng)控制領(lǐng)域的一個(gè)術(shù)語(yǔ),在控制論中,可觀測(cè)性是指系統(tǒng)可以由其外部輸出,來(lái)推斷其內(nèi)部狀態(tài)的程度,系統(tǒng)的可觀測(cè)性越強(qiáng),我們對(duì)系統(tǒng)的可控制性就越強(qiáng)。2018年CNCF把這個(gè)概念引入了IT運(yùn)維領(lǐng)域,稱其是云原生時(shí)代最重要的系統(tǒng)能力。這個(gè)觀點(diǎn)雖然跟CNCF的定位有關(guān),但也絕不是危言聳聽,至少可觀測(cè)性是2022年最熱的IT話題之一。

可觀測(cè)性的核心是什么,其實(shí)就是度量,度量你的從基礎(chǔ)設(shè)施、平臺(tái)、應(yīng)用、數(shù)據(jù)和業(yè)務(wù),了解他們是如何運(yùn)行的,系統(tǒng)狀態(tài)從黑盒專向白盒。

二、為何需要可觀測(cè)性

管理學(xué)大師彼得德魯克曾經(jīng)說(shuō)過(guò)“你如果無(wú)法度量它,就無(wú)法管理它”(“If you can’t measure it,you can’t manage it”)。要想有效管理,就難以繞開度量的問(wèn)題。

IT也是一樣,近些年IT架構(gòu)和技術(shù)棧發(fā)生了非常大的變化,新技術(shù)的應(yīng)用以前所未有的速度吞噬著傳統(tǒng)IT勢(shì)力。隨著容器、微服務(wù)、中臺(tái)的迅速流行,使得系統(tǒng)間的訪問(wèn)越來(lái)越復(fù)雜,在云內(nèi)、云間可能會(huì)運(yùn)數(shù)千個(gè)進(jìn)程和服務(wù),服務(wù)的調(diào)用用傳統(tǒng)的點(diǎn)對(duì)點(diǎn)和點(diǎn)對(duì)多點(diǎn)演變成網(wǎng)狀,使用傳統(tǒng)的監(jiān)控技術(shù)和手段很難跟蹤這些分布式架構(gòu)中的數(shù)據(jù)流、調(diào)用鏈和相互依賴關(guān)系,系統(tǒng)內(nèi)部的可見性就變得非常重要。

可觀測(cè)性工具和系統(tǒng)可以有效的幫助運(yùn)維團(tuán)隊(duì)實(shí)現(xiàn)對(duì)復(fù)雜系統(tǒng)的監(jiān)測(cè)和控制,協(xié)助團(tuán)隊(duì)有效的從紛繁復(fù)雜的原始監(jiān)控?cái)?shù)據(jù)中,找到線路,追溯到故障原因,進(jìn)行有效的根因分析。

三、可觀測(cè)性與監(jiān)控的關(guān)系

1、可觀測(cè)性概念分析

我們談可觀測(cè)性這個(gè)概念,更多的是站在管理者的視角在看問(wèn)題,如果管理者可以輕易的從可觀工具上得到想要的數(shù)據(jù)和答案,沒有阻力和沒有困惑,這就是我們滿意的可觀測(cè)性。比如我們想看了解基礎(chǔ)設(shè)施的狀態(tài),我們有儀表盤。我們想看查看系統(tǒng)延遲的原因,我們有服務(wù)調(diào)用鏈追蹤。我們的需求都可以被各種不同的工具滿足。

但是系統(tǒng)原來(lái)越復(fù)雜,管理者和被管理對(duì)象都發(fā)生了很大變化,原有的可觀測(cè)工具不再滿足日益增長(zhǎng)的需求,于是我們建立了越來(lái)越多的工具豎井,我們的運(yùn)維系統(tǒng)和IT監(jiān)控重新陷入了混亂。

我們?cè)谶@種“一亂一治”中消耗著我們的熱情和成本。

現(xiàn)在正在被熱捧的可觀測(cè)性,把上面的那些豎井和柱子整合了三大要素,日志(Log)、指標(biāo)(Metric)和追蹤(Trace)。

1)日志:記錄了特定時(shí)間發(fā)生的各種離散事件的信息,用于檢測(cè)系統(tǒng)中無(wú)法預(yù)知的行為。

2)指標(biāo):指標(biāo)是根據(jù)隨時(shí)間變化的數(shù)據(jù),是在?段時(shí)間內(nèi)測(cè)量的數(shù)值。與?志不同,指標(biāo)在默認(rèn)情況下是結(jié)構(gòu)化的,這使得查詢和優(yōu)化存儲(chǔ)變得更加容易,讓您能夠?qū)⑺鼈儽A舾?時(shí)間。

3)追蹤:請(qǐng)求通過(guò)分布式系統(tǒng)從端到端的過(guò)程。

這三大支柱密不可分,從發(fā)現(xiàn)指標(biāo)異常,到指標(biāo)關(guān)聯(lián)分析,從逐層下鉆到明細(xì)trace追蹤和具體的錯(cuò)誤日志,進(jìn)而實(shí)現(xiàn)全鏈路自動(dòng)化根因定位??捎^測(cè)性有核心是檢測(cè)、排障和分析,檢測(cè)是依據(jù)是Metric,排障的依據(jù)Trace,分析的依據(jù)是Log。

以上三大要素不是我杜撰的,是CNCF在OpenTelemetry開源項(xiàng)目中正式提出的。OpenTelemetry是CNCF的一個(gè)可觀測(cè)性項(xiàng)目,旨在提供可觀測(cè)性領(lǐng)域的標(biāo)準(zhǔn)化方案,解決觀測(cè)數(shù)據(jù)的數(shù)據(jù)模型、采集、處理、導(dǎo)出等的標(biāo)準(zhǔn)化問(wèn)題,提供與三方vendor無(wú)關(guān)的服務(wù)。

2、可觀測(cè)性跟監(jiān)控的關(guān)系

從上面的分析可以看出來(lái),可觀測(cè)性跟監(jiān)控有著密不可分的關(guān)系。監(jiān)控的概念比可觀測(cè)性要更早,有了監(jiān)控為什么還需要客觀性呢?

現(xiàn)有的監(jiān)控工具無(wú)法適應(yīng)云環(huán)境,只能標(biāo)記問(wèn)題,無(wú)法自動(dòng)調(diào)整,對(duì)問(wèn)題和故障也是無(wú)法追蹤溯源。傳統(tǒng)的監(jiān)控工具無(wú)法適應(yīng)現(xiàn)在和未來(lái)的軟件架構(gòu)和軟件系統(tǒng),其技術(shù)和工具很難跟蹤當(dāng)前的分布式架構(gòu)中的許多通信路徑和相互依賴關(guān)系??捎^測(cè)性可以更好地控制復(fù)雜系統(tǒng),可以更好的通過(guò)可觀測(cè)性控制系統(tǒng)的穩(wěn)定性。因此可以說(shuō)可觀測(cè)性是在監(jiān)控的基礎(chǔ)上做了更深、更廣的發(fā)展。

從故障管理的角度來(lái)說(shuō),監(jiān)控更關(guān)注特點(diǎn)的指標(biāo),能夠回答什么時(shí)候什么地方正在發(fā)生什么;可觀測(cè)性通過(guò)三個(gè)指標(biāo)的融合和分析判斷,重點(diǎn)在于根因分析和協(xié)助排障,不僅能回答監(jiān)控的問(wèn)題,還能回答為什么會(huì)發(fā)生。

監(jiān)控更關(guān)注基于指標(biāo)的告警和狀態(tài)概況;而可觀測(cè)性,除了這些以外,還關(guān)注故障排除、根因分析和趨勢(shì)預(yù)測(cè)。從這個(gè)角度說(shuō),監(jiān)控是可觀測(cè)性的子集和功能,可觀測(cè)性是監(jiān)控的超集和延展。換句話而言,一個(gè)系統(tǒng)只有在可觀測(cè)的情況下才能被監(jiān)控。

四、可觀測(cè)性是智慧運(yùn)維的重要思路和方向

三大要素是可觀測(cè)性的重要組成部分,但不是全部,除此之外可觀測(cè)性還依賴于其他一些能力,公認(rèn)的有SRE方法論和AIOps,此外還有不少聲音認(rèn)為應(yīng)該加上業(yè)務(wù),也就是對(duì)業(yè)務(wù)的理解和相關(guān)知識(shí),我更贊成后者。

SRE方法論很容易理解,Google這一方法論對(duì)運(yùn)維的統(tǒng)制地位是大家公認(rèn)的,至于SLO方法如何指導(dǎo)運(yùn)維和智慧運(yùn)維層面落地,不用在這里細(xì)說(shuō)。

AIOps在這里指的是狹義的概念,說(shuō)的是智慧運(yùn)維分析,針對(duì)Metric、Trace和Log等數(shù)據(jù),利用AI的手段,進(jìn)行建模分析,用專門的算法來(lái)應(yīng)對(duì)支持。

除了這個(gè)另個(gè)核心能力以外,對(duì)業(yè)務(wù)的理解以及業(yè)務(wù)架構(gòu),也是可觀測(cè)性的核心和關(guān)鍵。不同的業(yè)務(wù),需要設(shè)定不同的業(yè)務(wù)指標(biāo),業(yè)務(wù)指標(biāo)如何分解成系統(tǒng)的里面的各種參數(shù),這是業(yè)務(wù)的范疇。同樣,復(fù)雜的調(diào)用關(guān)系只有用業(yè)務(wù)的語(yǔ)言才能解釋。

對(duì)業(yè)務(wù)場(chǎng)景及業(yè)務(wù)架構(gòu)的理解程度,決定了SRE和AIOps可以發(fā)揮的效果如何,也最終決定了落地的效果。

大家可能會(huì)有疑問(wèn),為啥之前沒人提可觀測(cè)性,技術(shù)的應(yīng)用和落地到了一定程度,自然需要更高的應(yīng)用和業(yè)務(wù)訴求去指引,這樣的信息化才能不斷的向數(shù)字化和智能化發(fā)展。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無(wú)評(píng)論