阿里云大面積宕機,淘寶、餓了么等多產(chǎn)品“崩了”,機房運行面臨四大挑戰(zhàn)

我們都知道,云計算是互聯(lián)網(wǎng)的核心支撐技術(shù)之一。根據(jù)Gartner相關(guān)統(tǒng)計數(shù)據(jù),2022年以IaaS、PaaS、SaaS為代表的全球云計算市場規(guī)模為4910億美元,同比增長19%,雖然增速有所降低,不過市場需求依然強勁。

本文來自電子發(fā)燒友網(wǎng),作者/吳子鵬。

11月12日下午,就在雙十一大促的后一天,阿里云疑似發(fā)生大規(guī)模、大范圍故障,導(dǎo)致包括淘寶、閑魚、阿里云盤、釘釘在內(nèi)的阿里系產(chǎn)品全線崩潰。一時間,“阿里云盤崩了”“淘寶又崩了”“釘釘崩了”和“閑魚崩了”等多條相關(guān)詞條進入微博熱搜榜。

12日晚8點,阿里方面發(fā)布官方消息稱,19:20左右,經(jīng)工程師緊急處理,阿里旗下淘寶、釘釘、阿里云盤等APP已全面恢復(fù)。

根據(jù)群公告和官方信息,此次阿里云系統(tǒng)宕機的時間線為:

·17時44分起,阿里云產(chǎn)品控制臺訪問及API調(diào)用出現(xiàn)使用異常,阿里云工程師開始緊急介入排查;

·17時50分,阿里云已確認故障原因與某個底層服務(wù)組件有關(guān),工程師緊急處理中;

·18時54分,經(jīng)過阿里工程師處理,杭州、北京等地域控制臺已恢復(fù),其他地域控制臺服務(wù)逐步恢復(fù)中;

·19時20分,阿里工程師通過分批重啟組件服務(wù),絕大部分地域控制臺服務(wù)已恢復(fù)訪問;

·19時43分,異常管控服務(wù)組件均已完成重啟,除個別云產(chǎn)品(如消息隊列MQ、消息服務(wù)MNS)仍需處理,其余云產(chǎn)品控制臺及API服務(wù)已恢復(fù);

·20時12分,北京、杭州等地域消息隊列MQ已完成重啟,其余地域逐步恢復(fù)中;

·21時11分,受影響云產(chǎn)品均已恢復(fù),因故障影響部分云產(chǎn)品的數(shù)據(jù)(如監(jiān)控、賬單等)可能存在延遲推送情況,不影響業(yè)務(wù)運行。

此次宕機波及甚廣

上面的詞條可能有細心的網(wǎng)友已經(jīng)發(fā)現(xiàn),“淘寶又崩了”這個詞條多了一個又字。近兩年,幾乎每年都有“淘寶崩了”進入微博熱搜榜。

2021年10月20日晚間,由于雙十一改成了“八點檔”而不再是零點開售,所以很多人開始在此時蹲守,準(zhǔn)備“褥羊毛”,或者趁著便宜買自己需要的東西。然而,預(yù)售剛開始就有網(wǎng)友反饋給客服發(fā)消息發(fā)不出去。原因就是服務(wù)器系統(tǒng)受不了如此巨大的訪問量,崩潰了。隨后,淘寶官方賬號在當(dāng)天20時43分的時候回復(fù)稱,原來不熬夜的你們這么猛嗎?

2022年7月12日晚間,“淘寶崩了”再次上熱搜,據(jù)多名網(wǎng)友反映,他們在購買商品時突然遇到了卡頓的情況。針對這一次的情況,淘寶官方賬號表示:平臺正常。

當(dāng)然,阿里云也不是第一次發(fā)生規(guī)模性故障了。2022年12月,阿里云香港地域發(fā)生長時間持續(xù)性故障,服務(wù)中斷一度超過12小時,這是阿里云運營十多年來持續(xù)時間最長的一次大規(guī)模故障。2022年12月25日,阿里云在官方微信發(fā)布《關(guān)于阿里云香港Region可用區(qū)C服務(wù)中斷事件的說明》。其中提到,12月18日,由于香港Region可用區(qū)C機房冷卻系統(tǒng)失效,包間溫度逐漸升高,導(dǎo)致一機房包間溫度達到臨界值觸發(fā)消防系統(tǒng)噴淋,電源柜和多列機柜進水,部分機器硬件損壞。整個處置過程超過10小時。

雖然這一次阿里云的故障處置沒有香港那么久,不過從上面的時間線也能夠看出,基本上也是花費了一個半小時才做到絕大部分地域的正常訪問。并且,此次系統(tǒng)宕機的影響范圍遠超上一次阿里云香港地域故障。

阿里云公告顯示,國內(nèi)包括華北2(北京)、華北6(烏蘭察布)、華南1(深圳)、中國香港、華東1(杭州)等節(jié)點受到影響;國際市場包括英國(倫敦)、韓國(首爾)、日本(東京)、阿聯(lián)酋(迪拜)、美國(弗吉尼亞)、菲律賓(馬尼拉)、新加坡等節(jié)點受到影響。

阿里云公告顯示,受影響的主要產(chǎn)品包括OSS、OTS、SLS、MNS等產(chǎn)品,大部分產(chǎn)品如ECS、RDS、網(wǎng)絡(luò)等運營正常。這些受影響的產(chǎn)品包括企業(yè)級分布式應(yīng)用服務(wù)、云原生大數(shù)據(jù)計算服務(wù)MaxCompute、云存儲網(wǎng)關(guān)、塊存儲、混合云備份服務(wù)、云原生內(nèi)存數(shù)據(jù)庫Tair、運維安全中心(堡壘機)、數(shù)據(jù)庫備份、物聯(lián)網(wǎng)平臺、超級計算集群、彈性裸金屬服務(wù)器、云服務(wù)器ECS、云呼叫中心、交通云控平臺、客服工作臺、視覺智能開放平臺、運維事件中心和新零售智能助理等。

2022年12月,當(dāng)阿里云香港地域節(jié)點發(fā)生故障時,有消息人士稱,阿里云將此次故障定義為“p0級事故”。隨后不久,時任阿里巴巴集團董事會主席兼CEO張勇發(fā)出全員郵件稱,自己將兼任阿里云智能總裁,取代原總裁張建鋒。

如今,最新的故障雖然時間沒有那么長,但是波及面實在是太大了,不知道阿里云是否會繼續(xù)自己的鐵血管理風(fēng)格。

機房運轉(zhuǎn)的四大挑戰(zhàn)

我們都知道,云計算是互聯(lián)網(wǎng)的核心支撐技術(shù)之一。根據(jù)Gartner相關(guān)統(tǒng)計數(shù)據(jù),2022年以IaaS、PaaS、SaaS為代表的全球云計算市場規(guī)模為4910億美元,同比增長19%,雖然增速有所降低,不過市場需求依然強勁。這表明,雖然有經(jīng)濟下行和通脹的壓力存在,云計算依然是未來的重要發(fā)展趨勢和實現(xiàn)新科技的重要手段,預(yù)計全球云計算市場規(guī)模會在2026年突破萬億美元級別。

在市場份額方面,IDC的數(shù)據(jù)顯示,在公有云IaaS市場,2022年全球前四名云廠商依次為亞馬遜、微軟、谷歌和阿里云,其中阿里云的市場份額為5.2%。當(dāng)然,如果僅統(tǒng)計中國企業(yè)或MNC使用國內(nèi)公有云資源的業(yè)務(wù),阿里云是當(dāng)之無愧的市場第一,2022年上半年的占比高達37.2%。

這些大的云計算企業(yè)基本每年都會規(guī)模性故障,比如2022年7月,因遭遇極端高溫天氣,甲骨文和谷歌在倫敦的數(shù)據(jù)中心也曾因冷卻系統(tǒng)出現(xiàn)問題而發(fā)生運行故障,導(dǎo)致部分網(wǎng)站癱瘓。

綜合而言,作為云計算的硬件底層,機房主要會遇到四大方面的挑戰(zhàn),分別來自環(huán)境、電力、硬件和軟件。

機房會遇到的環(huán)境挑戰(zhàn)非常多,首當(dāng)其沖就是高溫,上述甲骨文和谷歌的機房故障就是因為高溫,一旦溫度負荷超過降溫系統(tǒng)的極限,宕機是不可避免的。除了高溫之外,濕度過高、震動、灰塵和自然災(zāi)害等,都會對機房的運行造成很大的干擾。

機房的電力問題有時來自外部,有時則是內(nèi)部。外部原因主要是供電系統(tǒng)突發(fā)故障,非預(yù)期性斷電是最常見的故障;內(nèi)部原因則主要是初期規(guī)劃問題,有時候可能是對于服務(wù)器更新?lián)Q代帶來的用電增長估計不足,有時候可能是成本壓力沒有備用設(shè)備。

第三個挑戰(zhàn)是硬件本身的問題,機房的主要硬件設(shè)備包括服務(wù)器、交換機、路由器、硬件網(wǎng)關(guān)、硬件防火墻、交/直流電源、冷卻系統(tǒng)和監(jiān)控系統(tǒng)。這是一套配合非常緊密的硬件系統(tǒng),某一類設(shè)備故障和設(shè)備老化都有可能造成機架大面積癱瘓。

最后一個挑戰(zhàn)則來自軟件。在服務(wù)領(lǐng)域,軟件負責(zé)整個系統(tǒng)的監(jiān)管、調(diào)度,同時軟件還能夠提升服務(wù)器集群的性能、安全性和可擴展性,當(dāng)然服務(wù)器上的軟件本身也是一種服務(wù)。軟件端造成沖擊最常見的兩種方式是數(shù)據(jù)訪問量短時間劇增,以及軟件升級和更新。

此次阿里云的故障來自產(chǎn)品控制臺訪問及API調(diào)用,實際上就是軟件系統(tǒng)出了問題。對于這類問題,系統(tǒng)重啟是最直接有效的方式,不過過程中需要對數(shù)據(jù)進行留存和保護。

小結(jié)

大數(shù)據(jù)時代一個重要的特征是越來越多的數(shù)據(jù)及相關(guān)服務(wù)匯集在科技巨頭的設(shè)備上,一旦發(fā)生故障就會產(chǎn)生很大的波及范圍,也就會引起廣泛的關(guān)注。雖然大家都知道故障來自哪些方面,不過由于設(shè)備更新?lián)Q代和系統(tǒng)升級的節(jié)奏太快,很多問題是很難具體化的,在爆發(fā)之前它們都是未知的。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論