打通IT運(yùn)維“任督二脈”,你需要一本“AIOps秘籍”

AIOps到底是什么?企業(yè)如何使用支持人工智能的IT運(yùn)維技術(shù)來自動(dòng)監(jiān)控和管理IT業(yè)務(wù)?作為CIO必須了解人工智能IT運(yùn)維的技術(shù)、策略和挑戰(zhàn)。

云平臺、托管服務(wù)提供商和進(jìn)行數(shù)字化轉(zhuǎn)型的企業(yè)得益于一種新興的IT趨勢:使用支持人工智能的IT運(yùn)維技術(shù)來自動(dòng)監(jiān)控和管理IT業(yè)務(wù)。

這種新出現(xiàn)的技術(shù)趨勢被稱為AIOps,它幫助企業(yè)提前解決潛在的停機(jī)和性能問題,避免對運(yùn)維、客戶和收益產(chǎn)生負(fù)面影響。而更先進(jìn)的項(xiàng)目開始使用人工智能系統(tǒng),不僅是為了發(fā)現(xiàn)問題,或在問題發(fā)生之前預(yù)測問題,更是為了通過智能、自動(dòng)化的緩解措施及時(shí)對事件做出反應(yīng)。

那么,AIOps到底是什么,企業(yè)現(xiàn)在是怎樣使用它的呢?本文中,我們將深入了解人工智能IT運(yùn)維的技術(shù)、策略和挑戰(zhàn)。

什么是AIOps?

AIOps是一種新興的IT技術(shù)趨勢,它將人工智能應(yīng)用到IT運(yùn)維中,幫助企業(yè)智能地管理基礎(chǔ)設(shè)施、網(wǎng)絡(luò)和應(yīng)用程序,以提高性能、彈性、容量、正常運(yùn)行時(shí)間,以及在某些情況下的安全性。通過將傳統(tǒng)的、基于閾值的報(bào)警和手動(dòng)過程轉(zhuǎn)移到人工智能和機(jī)器學(xué)習(xí)系統(tǒng)中,企業(yè)利用AIOps能夠更好地監(jiān)控IT資產(chǎn),對負(fù)面事件和影響進(jìn)行事前預(yù)測。

Carhartt公司首席信息官John Hill在這家工裝制造商的三個(gè)主要業(yè)務(wù)領(lǐng)域中使用了AIOps:服務(wù)管理、性能管理和IT自動(dòng)化。多虧了智能監(jiān)控,Carhartt現(xiàn)在能夠在問題影響用戶和客戶之前發(fā)現(xiàn)問題。

他說:“這是一個(gè)監(jiān)控環(huán)境、掌握動(dòng)態(tài)并根據(jù)事件指標(biāo)來采取行動(dòng)的全過程。以前,你可能會通過停機(jī)或者某些地方不工作的跡象來知道什么時(shí)候需要進(jìn)行修理——而在你發(fā)現(xiàn)這些跡象之前,所發(fā)生的事件早已損害了客戶體驗(yàn)。”

AIOps應(yīng)用情形

AIOps可能已經(jīng)應(yīng)用在了企業(yè)的IT業(yè)務(wù)中了,你自己甚至都不知道。先進(jìn)的CRM和ERP系統(tǒng)通常內(nèi)置了智能管理功能。大部分主要的云平臺也利用了支持機(jī)器學(xué)習(xí)的監(jiān)控和管理工具。

但是,在單點(diǎn)解決方案中依賴內(nèi)置功能有其缺點(diǎn)。在一項(xiàng)AIOps交流調(diào)查中,65%的IT企業(yè)表示,他們?nèi)匀灰蕾囉谀撤N監(jiān)控方法(未必具備智能功能),這些方法要么是孤立的、基于規(guī)則的,要么不能滿足整個(gè)IT環(huán)境的需求。此外,根據(jù)最近的一項(xiàng)BigPanda調(diào)查,42%的IT企業(yè)在其IT環(huán)境中使用了10多種不同的監(jiān)控工具。

Carhartt開始時(shí)就是這樣使用AIOps的。Hill說:“以前,對于不同的環(huán)境,我們必須分別進(jìn)行監(jiān)控。”為了解決這種復(fù)雜性,Hill選擇將監(jiān)控功能結(jié)合到兩個(gè)平臺上,首先在AppDynamics上監(jiān)控應(yīng)用程序性能,然后添加Turbonomic來監(jiān)視Carhartt的基礎(chǔ)設(shè)施。

“黑色星期五”和“網(wǎng)絡(luò)星期一”購物高峰期間,該公司網(wǎng)站的性能問題迫使公司不得不做出改變。Hill說,當(dāng)公司看到問題時(shí),客戶早就感覺到服務(wù)質(zhì)量下降了。

自Carhartt在2017年秋季部署AppDynamics以來,黑色星期五和網(wǎng)絡(luò)星期一的高峰期間沒有出現(xiàn)停機(jī)問題。

他說:“我們的增長創(chuàng)下了記錄。我們的增長速度是整個(gè)行業(yè)的兩倍,沒有出現(xiàn)我們以前經(jīng)歷過的任何停機(jī)和性能下降問題。”

Carhartt在2019年初增加了Turbomency,用于本地和云環(huán)境的資源管理。他說,“有了新系統(tǒng)后,利用率從70%提高到了92%。這能為我們節(jié)省25%的基礎(chǔ)設(shè)施成本。”

其會自動(dòng)處理增加的利用率需求,無需人工干預(yù),但減少容量仍然需要人工批準(zhǔn)。

Hill說:“新系統(tǒng)能夠發(fā)現(xiàn)我們面臨的容量問題,并將更改請求發(fā)送給ServiceNow。當(dāng)我們的容量過大時(shí),它會在ServiceNow中創(chuàng)建一個(gè)條目,有人會第一時(shí)間注意到它。這種查看非常快速——點(diǎn)一下就可以了。目前,我不需要將其進(jìn)行自動(dòng)化。”

公司的下一步是自動(dòng)化業(yè)務(wù)任務(wù),例如使用文本識別和自然語言處理功能來處理客戶訂單。

AIOps應(yīng)用

據(jù)Gartner的數(shù)據(jù),到2023年,40%的企業(yè)將使用AIOps來監(jiān)控應(yīng)用程序和基礎(chǔ)設(shè)施。但市場普遍認(rèn)為,AIOps的應(yīng)用仍處于早期階段。據(jù)Loom系統(tǒng)公司在2019年贊助的一項(xiàng)調(diào)查,到目前為止,只有5%的企業(yè)實(shí)施了AIOps。波士頓咨詢集團(tuán)(Boston Consulting Group)總經(jīng)理兼合伙人Akash Bhatia指出,影響應(yīng)用的原因之一是,市場上的供應(yīng)商太多了。“的確太多了。”

據(jù)Loom系統(tǒng)公司的報(bào)告,有59%的企業(yè)還處于試驗(yàn)研究階段,客戶仍然很難確定他們到底能提供什么。Bhatia說,另外,很多供應(yīng)商只擅長于部分AIOps,例如,應(yīng)用程序性能監(jiān)視、基礎(chǔ)設(shè)施管理以及網(wǎng)絡(luò)性能監(jiān)視和診斷等。他補(bǔ)充說,隨著技術(shù)的成熟,市場出現(xiàn)了整合跡象。

IDC預(yù)測,其稱之為IT運(yùn)維分析的AIOps市場將從2018年的29億美元增長到2023年的45億美元,其中大部分增長來自“AIOps即服務(wù)”。IDC的AIOps分析師兼項(xiàng)目副總裁Stephen Elliot認(rèn)為,雖然AIOps通常與企業(yè)軟件平臺或者云服務(wù)捆綁在一起,但大企業(yè)已經(jīng)開始將AIOps作為獨(dú)立的預(yù)算項(xiàng)目進(jìn)行投資。

他說:“他們認(rèn)識到自己身處多云的環(huán)境中。而且他們正在進(jìn)行敏捷轉(zhuǎn)型,他們有DevOps部門,他們意識到自己必須加快步伐,以后會越來越復(fù)雜。”

AIOps價(jià)值定位

利用AIOps的企業(yè)認(rèn)識到了從執(zhí)行分析和預(yù)測的系統(tǒng)轉(zhuǎn)向自行決策系統(tǒng)的重要性。他們要實(shí)施進(jìn)入自動(dòng)化。

Elliot說:“他們需要能夠收集大量信息、應(yīng)用分析、減少噪聲、加快問題發(fā)現(xiàn)和解決速度的工具。”

自動(dòng)化還要求進(jìn)一步增強(qiáng)AIOps集成。應(yīng)用程序性能問題可能是由軟件問題、網(wǎng)絡(luò)問題或者硬件問題引起的。在多云環(huán)境中,根本原因有可能在某個(gè)云中,也可能在另一個(gè)云中,或者是多種因素組合的結(jié)果。如果企業(yè)的AIOps基礎(chǔ)設(shè)施是分散的,那么會很難找到問題的根本原因并解決問題。

AIOps供應(yīng)商ScienceLogic的首席執(zhí)行官David Link表示:“然后就回到了手工操作,每個(gè)部門都有自己的工具。如果每一應(yīng)用項(xiàng)目都有自己獨(dú)立的工具,這種方式是不能擴(kuò)展到整個(gè)企業(yè)中的。”

與此同時(shí),像Carhartt這樣已經(jīng)部署了AIOps的企業(yè)會發(fā)現(xiàn)他們的投資得到了回報(bào)。據(jù)企業(yè)管理協(xié)會的一項(xiàng)調(diào)查,81%使用AIOps的企業(yè)報(bào)告實(shí)現(xiàn)了投資回報(bào)。事實(shí)上,42%的受訪者認(rèn)為AIOps的價(jià)值“顯著”超過了成本。

據(jù)EMA,AIOps最常見的六種應(yīng)用情形是跨域應(yīng)用程序基礎(chǔ)架構(gòu)和性能、容量管理和基礎(chǔ)架構(gòu)優(yōu)化、DevOps和敏捷、客戶/最終用戶體驗(yàn)管理和業(yè)務(wù)調(diào)整、成本管理和變更管理。

能夠創(chuàng)收的AIOps

Cincinatti Bell的CBTS子公司為企業(yè)客戶提供通信服務(wù)。該公司首席創(chuàng)新官Joe Putnick介紹說,CBTS過去代表著“Cincinnati Bell技術(shù)解決方案”,但隨著企業(yè)拓展到其他地區(qū),現(xiàn)在代表了“咨詢建設(shè)轉(zhuǎn)型支持”。

他說,轉(zhuǎn)到AIOps對幫助縮短反應(yīng)時(shí)間非常重要,現(xiàn)在已經(jīng)成為新的商機(jī)來源。Putnick說,例如,在企業(yè)轉(zhuǎn)向AIOps之前,需要數(shù)小時(shí)、數(shù)天的時(shí)間才能將客戶設(shè)備納入到CBTS監(jiān)控、管理和計(jì)費(fèi)系統(tǒng)中,甚至無法納入其中。

Putnick說:“現(xiàn)在,我已經(jīng)把配置時(shí)間從5小時(shí)縮短到了2分鐘。所謂配置,我指的是整個(gè)IT服務(wù)管理和事件管理系統(tǒng)的全面配置。我知道這些統(tǒng)計(jì)數(shù)字很有說服力。”

該公司還使用AIOps來分析使用模式和自動(dòng)響應(yīng)。他說:“我們正在應(yīng)用AIOps來預(yù)測哪里有容量需求,這樣,我們能夠保持最長的正常運(yùn)行時(shí)間,盡可能讓客戶滿意。”

Putnick說,AIOps幫助CBTS從每月安裝不到40個(gè)站點(diǎn)增長到每月平均安裝500多個(gè)站點(diǎn),而人數(shù)幾乎相同。

CBTS同時(shí)使用了AWS內(nèi)置的系列工具、ServiceNow自帶的自定義編碼應(yīng)用程序、定制機(jī)器學(xué)習(xí)和自適應(yīng)算法以及ScienceLogic的AIOps工具。下一步:為客戶提供增值服務(wù)。例如,CBTS為客戶提供了客戶服務(wù)聊天機(jī)器人,可以利用其AIOps系統(tǒng)產(chǎn)生的數(shù)據(jù)、分析和預(yù)測結(jié)果,使其變得更加智能,響應(yīng)能力更強(qiáng)。

AIOps和托管服務(wù)提供商

如果想要了解AIOps的全部潛力,沒有比托管服務(wù)提供商(Managed Services Provider,MSP)行業(yè)更能說明問題了。

數(shù)字服務(wù)咨詢公司Nerdery的數(shù)據(jù)科學(xué)主管Justin Richie說:“這可能是目前市場上最大的一塊。他們肯定在盡可能地投資于算法支持。他們知道,除了硬件,最大的支出是人力資本。”

對于MSP來說,AIOps意味著效率更高、成本更低、解決時(shí)間更短——所有這些都是該領(lǐng)域重要的競爭優(yōu)勢。

總部位于圣何塞的MSP NetEnrich公司的戰(zhàn)略與運(yùn)維高級副總裁Raghu Kamath說:“這是我們AIOps價(jià)值定位的一半。過去12個(gè)月中,我們先是在少數(shù)客戶中實(shí)施,然后逐步擴(kuò)展到我們的客戶群里?,F(xiàn)在,50%以上的客戶都在AIOps平臺上。”

NetEnrich最明顯和最直接的一個(gè)好處是減少了誤報(bào)。錯(cuò)誤警報(bào)會給員工帶來不必要的工作,而且減慢了客戶的響應(yīng)時(shí)間。

Kamath說:“我們發(fā)現(xiàn)和采取行動(dòng)的響應(yīng)時(shí)間加快了——實(shí)施AIOps后,我們的平均修復(fù)時(shí)間至少縮短了30%。而且隨著AIOps變得更加成熟,并且引入了更多的推理模型,其應(yīng)用會越來越廣。”

NetEnrich公司在很多不同的客戶環(huán)境中使用AIOps,因此,Kamath對這項(xiàng)技術(shù)有著獨(dú)到的見解。首先,他發(fā)現(xiàn)環(huán)境越同質(zhì),AIOps部署起來就越容易。

他介紹說:“當(dāng)你開始整合所有這些不同的環(huán)境時(shí),情況會復(fù)雜得多。”

此外,使用公有云基礎(chǔ)設(shè)施的客戶也有優(yōu)勢,因?yàn)槠洵h(huán)境的一致性更好。不過,讓云供應(yīng)商開放他們的系統(tǒng)有時(shí)候也會遇到一些障礙。

他說:“但是,公有云供應(yīng)商正在改變他們的定位。如果看看兩年前到現(xiàn)在能夠訪問的數(shù)據(jù)量,這已經(jīng)好多了。”

Kamath說,在傳統(tǒng)應(yīng)用程序和硬件上應(yīng)用AIOps是一件棘手的事情。如果沒有足夠的日志,就很難推斷出任何東西。這就是為什么我們鼓勵(lì)客戶加速他們的數(shù)字化轉(zhuǎn)型,并使其應(yīng)用程序現(xiàn)代化的原因。”

作者:Maria Korolov過去20年一直涉足新興技術(shù)和新興市場。

編譯:Charles

原文網(wǎng)址:https://www.cio.com/article/3529772/what-is-aiops-injecting-intelligence-into-it-operations.html

THEEND

最新評論(評論僅代表用戶觀點(diǎn))

更多
暫無評論