如何采用人工智能創(chuàng)建自動化運(yùn)營的數(shù)據(jù)中心

如今,大多數(shù)圍繞人工智能(AI)的討論都集中在自動駕駛汽車、聊天機(jī)器人、數(shù)字孿生技術(shù)、機(jī)器人技術(shù),以及使用基于人工智能的智能系統(tǒng)從大型數(shù)據(jù)集中提取商業(yè)洞察力。但是人工智能和機(jī)器學(xué)習(xí)將會在企業(yè)數(shù)據(jù)中心的服務(wù)器中扮演重要角色。

一些企業(yè)正在推動人工智能的使用,以優(yōu)化數(shù)據(jù)中心的電源和冷卻系統(tǒng),實(shí)現(xiàn)預(yù)測性維護(hù)的自動化,并改善工作負(fù)荷分配。

如今,大多數(shù)圍繞人工智能(AI)的討論都集中在自動駕駛汽車、聊天機(jī)器人、數(shù)字孿生技術(shù)、機(jī)器人技術(shù),以及使用基于人工智能的智能系統(tǒng)從大型數(shù)據(jù)集中提取商業(yè)洞察力。但是人工智能和機(jī)器學(xué)習(xí)將會在企業(yè)數(shù)據(jù)中心的服務(wù)器中扮演重要角色。

人工智能在提高數(shù)據(jù)中心效率以及擴(kuò)展業(yè)務(wù)方面的潛力可分為四個主要類別:

電源管理:基于人工智能的電源管理可幫助優(yōu)化加熱和冷卻系統(tǒng),從而降低電費(fèi),減少工作人員并提高效率。該領(lǐng)域的代表性供應(yīng)商包括施耐德電氣、西門子、Vertiv和伊頓公司。

設(shè)備管理:人工智能系統(tǒng)可以監(jiān)視服務(wù)器、存儲設(shè)備和網(wǎng)絡(luò)設(shè)備的運(yùn)行狀況,檢查以確保人工智能系統(tǒng)配置正確,并預(yù)測設(shè)備何時將發(fā)生故障。調(diào)研機(jī)構(gòu)Gartner公司表示,AIOps IT基礎(chǔ)設(shè)施管理(ITIM)類別的供應(yīng)商包括OpsRamp、Datadog、Virtana、ScienceLogic和Zenoss。

工作負(fù)載管理:人工智能系統(tǒng)可以自動將工作負(fù)載實(shí)時移動到更高效的基礎(chǔ)設(shè)施上,包括在數(shù)據(jù)中心以及在混合云環(huán)境中,在內(nèi)部部署、云計(jì)算和邊緣計(jì)算環(huán)境之間。越來越多的中小型企業(yè)提供基于人工智能的工作負(fù)載優(yōu)化服務(wù),其中包括Redwood、Tidal Automation和Ignio。像思科、IBM和VMware這樣的主要廠商也提供這樣的產(chǎn)品。

安全性:人工智能工具可以了解正常網(wǎng)絡(luò)流量的情況,發(fā)現(xiàn)異常情況,區(qū)分需要安全從業(yè)者注意的警報的優(yōu)先級,幫助進(jìn)行事故后分析,并為有關(guān)企業(yè)安全漏洞的防御措施提供建議。提供這一功能的供應(yīng)商包括VectraAI、Darktrace、ExtraHop和Cisco。

綜上所述,人工智能可以幫助企業(yè)創(chuàng)建高度自動化、安全、自我修復(fù)的數(shù)據(jù)中心,這些數(shù)據(jù)中心幾乎不需要人工干預(yù),并且能夠以更高的效率和彈性運(yùn)行。

戴爾技術(shù)公司全球首席技術(shù)官辦公室的杰出工程師Said Tabet解釋說:“人工智能自動化技術(shù)可以擴(kuò)展到超出人類能力的水平來解釋數(shù)據(jù),收集優(yōu)化能源使用、分配工作負(fù)載和最大化效率所需的必要見解,以實(shí)現(xiàn)更高的數(shù)據(jù)中心資產(chǎn)利用率。”

就像自動駕駛汽車的承諾一樣,自驅(qū)動數(shù)據(jù)中心至今還沒有出現(xiàn)。在數(shù)據(jù)中心應(yīng)用的人工智能的突破有很多技術(shù)、運(yùn)營和人員方面的障礙。如今,雖然采用的人工智能技術(shù)剛剛起步,但潛在的好處將使一些企業(yè)不斷尋找機(jī)會采取行動。

電源管理充分利用服務(wù)器工作負(fù)載管理

據(jù)估計(jì),數(shù)據(jù)中心消耗了全球3%的電力,并造成了約2%的溫室氣體排放。因此,無論是為了節(jié)省成本,還是為了節(jié)能環(huán)保,很多企業(yè)都在認(rèn)真研究數(shù)據(jù)中心的電源管理。

調(diào)研機(jī)構(gòu)451 Research公司高級分析師Daniel Bizo表示,基于人工智能的系統(tǒng)可以幫助數(shù)據(jù)中心運(yùn)營人員了解當(dāng)前或潛在的冷卻問題,例如由于高功率密度機(jī)柜阻礙了氣流而導(dǎo)致的冷空氣輸送不足、精密空調(diào)單元性能不佳,或冷熱通道之間的冷空氣輸送不足。

Bizo說,人工智能系統(tǒng)可以通過將精密空調(diào)系統(tǒng)數(shù)據(jù)與環(huán)境感知讀數(shù)相關(guān)聯(lián)來學(xué)習(xí)設(shè)施。

IT咨詢和顧問機(jī)構(gòu)StorageIO公司的創(chuàng)始人Greg Schulz補(bǔ)充說,“電源管理是一個很容易實(shí)現(xiàn)的成果。這意味著使電源設(shè)備更智能地工作。”

企業(yè)還要有一個容量規(guī)劃的角度。除了尋找熱點(diǎn)和冷點(diǎn)之外,人工智能系統(tǒng)還可以確保數(shù)據(jù)中心為適當(dāng)數(shù)量的物理服務(wù)器供電,并且在電力需求臨時激增的情況下,還有能力啟動和關(guān)閉新的物理服務(wù)器。

Schulz補(bǔ)充說,電源管理工具正在開發(fā)與管理設(shè)備和工作負(fù)載的系統(tǒng)的連接。例如,如果傳感器檢測到服務(wù)器運(yùn)行溫度過高,則人工智能系統(tǒng)可能會快速自動將工作負(fù)載轉(zhuǎn)移到未充分利用的服務(wù)器上,以避免可能影響關(guān)鍵任務(wù)應(yīng)用程序的潛在中斷。然后,人工智能系統(tǒng)可以調(diào)查服務(wù)器過熱的原因,可能是風(fēng)扇故障(HVAC問題)、物理組件即將崩潰(設(shè)備問題),或者服務(wù)器剛剛過載(工作負(fù)載問題)。

人工智能驅(qū)動的健康監(jiān)控、配置管理監(jiān)督

數(shù)據(jù)中心有很多需要定期維護(hù)的物理設(shè)備。人工智能系統(tǒng)可以幫助數(shù)據(jù)中心的定期維護(hù),并收集和分析遙測數(shù)據(jù),從而確定需要立即關(guān)注的特定區(qū)域。Schulz說,“人工智能工具可以探查所有這些數(shù)據(jù)和異常點(diǎn)。監(jiān)視數(shù)據(jù)中心運(yùn)行狀況始于檢查設(shè)備配置是否正確以及是否達(dá)到預(yù)期效果。由于大型數(shù)據(jù)中心可以有上千個IT機(jī)柜和數(shù)萬個組件,這些工作是勞動密集型的,因此并不總是能夠及時徹底地執(zhí)行。”

他指出,基于大量傳感數(shù)據(jù)日志的預(yù)測性設(shè)備故障建模可以發(fā)現(xiàn)即將出現(xiàn)的組件或設(shè)備故障,并評估其是否需要立即維護(hù),以避免任何可能導(dǎo)致服務(wù)中斷的容量損失。

瞻博網(wǎng)絡(luò)公司企業(yè)和云計(jì)算營銷副總裁Michael Bushong認(rèn)為,企業(yè)數(shù)據(jù)中心運(yùn)營商應(yīng)忽略一些與人工智能相關(guān)的過度宣傳和炒作。

Bushong說,“也許有一天,人工智能系統(tǒng)可能會告訴工作人員哪里出現(xiàn)問題并加以解決。”

依賴關(guān)系映射在人工智能可能有用的領(lǐng)域中也很重要。如果數(shù)據(jù)中心管理人員正在對防火墻或其他設(shè)備進(jìn)行策略更改,那么意外的后果是什么?Bushong說:“如果我提議進(jìn)行更改,可能存在的變化非常有用。”

保持設(shè)備平穩(wěn)安全運(yùn)行的另一個重要方面是控制所謂的配置漂移,這是一個數(shù)據(jù)中心術(shù)語,指的是臨時配置的變化隨著時間推移會導(dǎo)致產(chǎn)生問題。Bushong說,人工智能可以作為額外的安全檢查,識別即將發(fā)生的基于配置的數(shù)據(jù)中心問題。

人工智能與安全

Bizo認(rèn)為,人工智能和機(jī)器學(xué)習(xí)可以通過對事件進(jìn)行快速分類和聚類來簡化事件處理(事件響應(yīng)),從而識別出重要事件并將其分離開來。更快的根本原因分析有助于運(yùn)營人員做出明智的決定并采取行動。

Schulz補(bǔ)充說,人工智能在實(shí)時入侵檢測中特別有用?;谌斯ぶ悄艿南到y(tǒng)可以檢測、阻止和隔離威脅,然后可以進(jìn)行法醫(yī)調(diào)查,以確定到底發(fā)生了什么問題。

在安全操作中心(SOC)工作的安全專業(yè)人員經(jīng)常會收到過多的警報,但基于人工智能的系統(tǒng)可以掃描大量的遙測數(shù)據(jù)和日志信息,從而清除日常任務(wù),從而使安全專家能夠騰出時間來處理更深層次的調(diào)查。

基于人工智能的工作負(fù)載優(yōu)化

在應(yīng)用程序?qū)?,無論是在內(nèi)部部署還是在云平臺中,人工智能都有可能自動將工作負(fù)載移動到適當(dāng)?shù)闹扅c(diǎn)。Bizo說:“人工智能和機(jī)器學(xué)習(xí)將來應(yīng)該根據(jù)有關(guān)性能、成本、治理、安全性、風(fēng)險和可持續(xù)性的眾多規(guī)范,對將工作負(fù)載放置在何處做出實(shí)時決策。”

例如,可以將工作負(fù)載自動轉(zhuǎn)移到節(jié)能的服務(wù)器上,同時確保服務(wù)器以最高效率(利用率為70%~80%)運(yùn)行。人工智能系統(tǒng)可以將性能數(shù)據(jù)整合到其中,因此對時間敏感的應(yīng)用程序可以在高效的服務(wù)器上運(yùn)行,同時確保不需要快速執(zhí)行的應(yīng)用程序不會消耗過多的能量。

基于人工智能的工作負(fù)載優(yōu)化引起了麻省理工學(xué)院研究人員的注意,他們?nèi)ツ晷奸_發(fā)了一個人工智能系統(tǒng),可以自動學(xué)習(xí)如何在數(shù)千臺服務(wù)器上調(diào)度數(shù)據(jù)處理操作。

但是,正如Bushong指出的那樣,現(xiàn)實(shí)情況是,當(dāng)今的工作負(fù)載優(yōu)化是像Amazon、谷歌和Azure這樣的超大規(guī)模企業(yè)的重中之重,而不是企業(yè)數(shù)據(jù)中心。這有很多原因。

實(shí)施人工智能的挑戰(zhàn)

優(yōu)化和自動化數(shù)據(jù)中心是正在進(jìn)行的數(shù)字化轉(zhuǎn)型計(jì)劃不可或缺的一部分。戴爾公司的Tabet補(bǔ)充說:“由于發(fā)生疫情,許多組織正在尋求進(jìn)一步的自動化,推動人工智能驅(qū)動并能夠自我修復(fù)的‘數(shù)字?jǐn)?shù)據(jù)中心’的構(gòu)想。”

谷歌公司在2018年宣布,已將其幾個超大規(guī)模數(shù)據(jù)中心的冷卻系統(tǒng)控制權(quán)轉(zhuǎn)為人工智能程序,該公司報告稱,人工智能算法提供的建議使能源使用量減少了40%。

但是對于很多企業(yè)來說,在數(shù)據(jù)中心中采用人工智能技術(shù)非常有抱負(fù)。Bizo說,“一些人工智能和機(jī)器學(xué)習(xí)功能可用于事件處理、基礎(chǔ)設(shè)施運(yùn)行狀況和冷卻優(yōu)化。但是,要想實(shí)現(xiàn)人工智能和機(jī)器學(xué)習(xí)模型超越當(dāng)今標(biāo)準(zhǔn)數(shù)據(jù)中心基礎(chǔ)設(shè)施管理(DCIM)所能實(shí)現(xiàn)的更多突破,這需要多年的時間。”

Tabet說,“一些障礙是需要雇用或培訓(xùn)合適的工作人員來管理系統(tǒng)。另一個需要注意的問題是數(shù)據(jù)標(biāo)準(zhǔn)和相關(guān)架構(gòu)的需要。AIOps平臺的成熟度、IT技能和運(yùn)營成熟度是主要障礙。高級部署面臨的其他新挑戰(zhàn)包括數(shù)據(jù)質(zhì)量以及IT基礎(chǔ)設(shè)施和運(yùn)營團(tuán)隊(duì)中缺乏數(shù)據(jù)科學(xué)技能”。

Bushong補(bǔ)充說,最大的障礙始終是工作人員。他指出,聘用數(shù)據(jù)科學(xué)家對許多企業(yè)來說都是一個挑戰(zhàn),而培訓(xùn)現(xiàn)有員工也是一個難題。長期以來,很多員工一直在抵制讓他們無法掌控的技術(shù)。他指出,軟件定義網(wǎng)絡(luò)(SDN)技術(shù)已經(jīng)存在10年的時間,但是超過75%的IT運(yùn)營仍然是命令行界面(CLI)驅(qū)動的。

Bushong說:““很多人相信,各種基礎(chǔ)設(shè)施的運(yùn)營商都準(zhǔn)備將控制權(quán)交給人工智能。”

而這就是Bushong建議企業(yè)應(yīng)該向著人工智能方向邁進(jìn)的原因。

THEEND

最新評論(評論僅代表用戶觀點(diǎn))

更多
暫無評論