人工智能如何創(chuàng)建自動駕駛數(shù)據(jù)中心

Neal Weinberg
大多數(shù)圍繞人工智能(AI)的討論都集中在自動車輛、聊天機器人、數(shù)字孿生技術(shù)、機器人技術(shù)以及使用基于人工智能的“智能”系統(tǒng)從大型數(shù)據(jù)集中提取商業(yè)洞察力。但是人工智能和機器學(xué)習(xí)(ML)總有一天會在企業(yè)數(shù)據(jù)中心內(nèi)部的服務(wù)器機架中扮演重要角色。

大多數(shù)圍繞人工智能(AI)的討論都集中在自動車輛、聊天機器人、數(shù)字孿生技術(shù)、機器人技術(shù)以及使用基于人工智能的“智能”系統(tǒng)從大型數(shù)據(jù)集中提取商業(yè)洞察力。但是人工智能和機器學(xué)習(xí)(ML)總有一天會在企業(yè)數(shù)據(jù)中心內(nèi)部的服務(wù)器機架中扮演重要角色。

人工智能在提升數(shù)據(jù)中心效率以及擴展業(yè)務(wù)方面的潛力可分為以下四個主要類別:

●電源管理:基于人工智能的電源管理有助于優(yōu)化加熱和冷卻系統(tǒng),從而降低電力成本,減少員工人數(shù),提高效率。該領(lǐng)域的代表性供應(yīng)商包括施耐德電氣、西門子、Vertiv和伊頓公司。

●設(shè)備管理:AI系統(tǒng)可以監(jiān)控服務(wù)器、存儲和網(wǎng)絡(luò)設(shè)備的運行狀況,檢查系統(tǒng)是否保持正確配置,并預(yù)測設(shè)備何時會出現(xiàn)故障。據(jù)Gartner稱,AIOpsIT基礎(chǔ)設(shè)施管理(ITIM)類別的供應(yīng)商包括OpsRamp、Datadog、Virtana、ScienceLogic和Zenoss。

●工作負(fù)載管理:人工智能系統(tǒng)可以自動將工作負(fù)載實時移動到最高效的基礎(chǔ)設(shè)施上,包括在數(shù)據(jù)中心內(nèi)部,以及在混合云環(huán)境中,在prem、云和邊緣環(huán)境之間。有越來越多的小型公司提供基于人工智能的工作負(fù)載優(yōu)化,包括Redwood、TidalAutomation和Ignio。思科(Cisco)、IBM和VMware等重量級企業(yè)也有產(chǎn)品。

●安全性:人工智能工具可以“了解”正常網(wǎng)絡(luò)流量的情況,發(fā)現(xiàn)異常情況,區(qū)分需要安全從業(yè)者注意的警報的優(yōu)先級,幫助對出了什么問題的事后分析,并為填補企業(yè)安全防御漏洞提供建議。提供此功能的供應(yīng)商包括VectraAI、Darktrace、ExtraHop和Cisco。

綜上所述,人工智能可以幫助企業(yè)創(chuàng)建高度自動化、安全、自我修復(fù)的數(shù)據(jù)中心,這些數(shù)據(jù)中心幾乎不需要人工干預(yù),并且能夠以高水平的效率和彈性運行。

戴爾技術(shù)公司全球CTO辦公室的杰出工程師Tabet解釋說:“人工智能自動化可以擴展到超出人類能力的水平來解釋數(shù)據(jù),收集優(yōu)化能源使用、分配工作負(fù)載和最大化效率所需的必要見解,以實現(xiàn)更高的數(shù)據(jù)中心資產(chǎn)利用率。”。

當(dāng)然,就像自動駕駛汽車的承諾一樣,自動駕駛數(shù)據(jù)中心還沒有出現(xiàn)。在數(shù)據(jù)中心,存在著阻礙人工智能突破的重大技術(shù)、操作和人員配備障礙。如今,采用技術(shù)才剛剛起步,但潛在的好處將使企業(yè)不斷尋找機會采取行動。

電源管理利用服務(wù)器工作負(fù)載管理

據(jù)估計,數(shù)據(jù)中心將消耗全球3%的電力供應(yīng),造成約2%的溫室氣體排放,因此,無論是為了省錢,還是為了環(huán)保,那么多企業(yè)都在認(rèn)真研究數(shù)據(jù)中心的電源管理。

451Research的高級分析師丹尼爾·比佐(DanielBizo)表示,基于人工智能的系統(tǒng)可以幫助數(shù)據(jù)中心操作員了解當(dāng)前或潛在的冷卻問題,例如,由于高密度機柜堵塞氣流、HVAC裝置性能不佳或冷熱通道之間的空氣密封不足而導(dǎo)致的冷空氣輸送不足。

Bizo說,人工智能承諾提供“不僅僅是良好的設(shè)施設(shè)計所能帶來的好處”。人工智能系統(tǒng)在數(shù)據(jù)中心層“可以通過關(guān)聯(lián)暖通空調(diào)系統(tǒng)數(shù)據(jù)和環(huán)境感知讀數(shù)來學(xué)習(xí)設(shè)備”。

IT咨詢和咨詢公司StorageIO的創(chuàng)始人格雷格·舒爾茨(GregSchulz)補充說:“電源管理是一個很容易實現(xiàn)的成果。”今天,它是關(guān)于生產(chǎn)力的,關(guān)于每BTU完成更多工作,每瓦能源完成更多工作,這意味著工作更智能,讓設(shè)備工作更智能。”

還有一個容量規(guī)劃的角度。除了尋找熱點和冷點之外,人工智能系統(tǒng)還可以確保數(shù)據(jù)中心為適當(dāng)數(shù)量的物理服務(wù)器供電,并且在需求臨時激增的情況下,有能力啟動(和關(guān)閉)新的物理服務(wù)器。

Schulz補充說,電源管理工具正在開發(fā)連接到管理設(shè)備和工作負(fù)載的系統(tǒng)的掛鉤。例如,如果傳感器檢測到服務(wù)器運行太熱,系統(tǒng)可能會快速自動地將工作負(fù)載轉(zhuǎn)移到未充分利用的服務(wù)器上,以避免可能影響任務(wù)關(guān)鍵型應(yīng)用程序的潛在停機。然后系統(tǒng)可以調(diào)查服務(wù)器過熱的原因——可能是風(fēng)扇出故障(HVAC問題)、物理組件即將崩潰(設(shè)備問題),或者服務(wù)器剛剛過載(工作負(fù)載問題)。

人工智能驅(qū)動的健康監(jiān)控、配置管理監(jiān)督

數(shù)據(jù)中心充滿了需要定期維護(hù)的物理設(shè)備。人工智能系統(tǒng)可以超越定期維護(hù),幫助收集和分析遙測數(shù)據(jù),從而確定需要立即關(guān)注的特定區(qū)域。”人工智能工具可以嗅出所有這些數(shù)據(jù)和斑點模式,以及異常點,”Schulz說。

Bizo補充說:“健康監(jiān)測從檢查設(shè)備配置是否正確以及性能是否符合預(yù)期開始。”由于有成百上千個IT機柜和數(shù)萬個組件,這些平凡的任務(wù)可能是勞動密集型的,因此并不總是能夠及時徹底地執(zhí)行。”

他指出,基于大量感官數(shù)據(jù)日志的預(yù)測性設(shè)備故障模型可以“發(fā)現(xiàn)一個即將出現(xiàn)的組件或設(shè)備故障,并評估其是否需要立即維護(hù),以避免任何可能導(dǎo)致服務(wù)中斷的容量損失。”

JuniperNetworks負(fù)責(zé)企業(yè)和云營銷的副總裁MichaelBushong認(rèn)為,企業(yè)數(shù)據(jù)中心運營商應(yīng)該忽略一些與人工智能相關(guān)的過度宣傳和炒作,而專注于他所說的“無聊的創(chuàng)新”

是的,人工智能系統(tǒng)可能有一天會“告訴我問題出在哪里,并加以解決”,但是到了這一點,許多數(shù)據(jù)中心運營商會接受“如果出了問題,請告訴我要去哪里看”,Bushong說

依賴關(guān)系映射也是AI有用的一個重要但不是特別令人興奮的領(lǐng)域。如果數(shù)據(jù)中心經(jīng)理正在對防火墻或其他設(shè)備進(jìn)行策略更改,可能會產(chǎn)生什么意外后果?”如果我提出一個改變,知道爆炸半徑范圍內(nèi)可能有什么是很有用的。

保持設(shè)備平穩(wěn)、安全運行的另一個重要方面是控制所謂的配置漂移(configurationdrift),這是一個數(shù)據(jù)中心術(shù)語,指的是隨著時間的推移,臨時配置的變化會導(dǎo)致問題的產(chǎn)生。Bushong說,人工智能可以作為“額外的安全檢查”來識別即將發(fā)生的基于配置的數(shù)據(jù)中心問題。

人工智能與安全

Bizo認(rèn)為,人工智能和機器學(xué)習(xí)“可以通過對事件進(jìn)行快速分類和聚類來簡化事件處理(事件響應(yīng)),從而識別出重要事件并將其與噪聲分離開來。更快的根本原因分析有助于操作員做出明智的決定并采取行動。”

人工智能在實時入侵檢測中特別有用,Schulz補充道?;谌斯ぶ悄艿南到y(tǒng)可以檢測、阻止和隔離威脅,然后可以回去進(jìn)行法醫(yī)調(diào)查,以確定到底發(fā)生了什么,黑客能夠利用哪些漏洞。

在安全操作中心(SOC)工作的安全專業(yè)人員經(jīng)常會收到過多的警報,但基于人工智能的系統(tǒng)可以掃描大量的遙測數(shù)據(jù)和日志信息,從而清除日常任務(wù),從而使安全專家能夠騰出時間來處理更深層次的調(diào)查。

基于人工智能的工作負(fù)載優(yōu)化

在應(yīng)用程序?qū)樱珹I有可能自動將工作負(fù)載移動到適當(dāng)?shù)闹扅c,無論是在內(nèi)部部署還是在云端。”AI/ML將來應(yīng)該根據(jù)性能、成本、治理、安全、風(fēng)險和可持續(xù)性的眾多規(guī)范,實時決定在哪里放置工作負(fù)載。

例如,工作負(fù)載可以自動移動到最省電的服務(wù)器,同時確保服務(wù)器以最高效率運行,即70-80%的利用率。Bizo說,人工智能系統(tǒng)可以將性能數(shù)據(jù)整合到等式中,因此對時間敏感的應(yīng)用程序在高效服務(wù)器上運行,同時確保不需要快速執(zhí)行的應(yīng)用程序不會消耗過多的能量。

基于人工智能的工作負(fù)載優(yōu)化引起了麻省理工學(xué)院研究人員的注意,他們?nèi)ツ晷妓麄冮_發(fā)了一個人工智能系統(tǒng),可以自動學(xué)習(xí)如何在數(shù)千臺服務(wù)器上調(diào)度數(shù)據(jù)處理操作。

但是,正如Bushong所指出的,現(xiàn)實情況是,如今的工作負(fù)載優(yōu)化是像亞馬遜、谷歌和Azure這樣的超大規(guī)模公司的專利,而不是一般的企業(yè)數(shù)據(jù)中心。原因有很多。

實施人工智能的挑戰(zhàn)

優(yōu)化和自動化數(shù)據(jù)中心是正在進(jìn)行的數(shù)字化改造計劃的一個組成部分。戴爾的Tabet補充道,“借助COVID-19,許多公司現(xiàn)在都在尋求進(jìn)一步的自動化,推動人工智能驅(qū)動、能夠自我修復(fù)的‘數(shù)字?jǐn)?shù)據(jù)中心’的理念。”

谷歌在2018年宣布,已將其數(shù)個超規(guī)模數(shù)據(jù)中心的冷卻系統(tǒng)控制權(quán)轉(zhuǎn)為人工智能程序,該公司報告稱,人工智能算法提供的建議使能源使用量減少了40%。

但是,Bizo說,對于那些名字不是谷歌的公司來說,在數(shù)據(jù)中心使用人工智能“在很大程度上是一種理想”。一些AI/ML特性在事件處理、基礎(chǔ)設(shè)施運行狀況和冷卻優(yōu)化中可用。但是,AI/ML模型要取得比目前標(biāo)準(zhǔn)數(shù)據(jù)中心基礎(chǔ)設(shè)施管理(DCIM)更明顯的突破還需要更多年的時間。與自主汽車開發(fā)非常相似,早期階段可能很有趣,但與它最終承諾的突破性經(jīng)濟(jì)/商業(yè)案例相去甚遠(yuǎn)。”

Tabet認(rèn)為,一些障礙是“需要雇傭或培訓(xùn)合適的人員來管理系統(tǒng)。另一個需要注意的問題是數(shù)據(jù)標(biāo)準(zhǔn)和相關(guān)體系結(jié)構(gòu)的需要。”

Gartner這樣說:“AIOps平臺成熟度、it技能和運營成熟度是主要的阻礙因素。高級部署面臨的其他新挑戰(zhàn)包括數(shù)據(jù)質(zhì)量和“IT基礎(chǔ)設(shè)施和運營團(tuán)隊”缺乏數(shù)據(jù)科學(xué)技能。

Bushong補充說,最大的障礙一直是人。他指出,外雇數(shù)據(jù)科學(xué)家對許多企業(yè)來說是一個挑戰(zhàn),對現(xiàn)有員工的培訓(xùn)也是一個障礙。

另外,Bushong說,員工抵制技術(shù)的歷史由來已久。他指出,軟件定義網(wǎng)絡(luò)(SDN)已經(jīng)存在了十年,但仍有四分之三以上的IT運營仍由CLI驅(qū)動。

“我們必須相信,各種基礎(chǔ)設(shè)施的運營商準(zhǔn)備把控制權(quán)讓給人工智能,”Bushong表示。“如果一群人還不相信空管員能做出決定,那么你怎么訓(xùn)練、教育和安慰一群人,讓他們做出如此重大的轉(zhuǎn)變呢?業(yè)內(nèi)普遍的態(tài)度是,如果我這么做,我就會失業(yè)。”

這就是為什么Bushong建議企業(yè)在人工智能方面采取那些小而乏味的步驟,而不是陷入經(jīng)常圍繞一項新技術(shù)的炒作中。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論