服務(wù)掛了超12小時(shí)!被批“阿里云發(fā)展史上重大丑聞”

當(dāng)前,使用云服務(wù)的大多都是提供各種服務(wù)的APP和網(wǎng)站客戶,試想一下,如果用戶在點(diǎn)外賣時(shí)無法下單或在刷短視頻無法播放,都將嚴(yán)重影響用戶體驗(yàn)。

QQ截圖20221020133834.png

本文來自物聯(lián)網(wǎng)智庫,作者/Levin。

昨日(12月18日)上午10點(diǎn)47分,阿里云發(fā)布公告稱,阿里云監(jiān)控發(fā)現(xiàn)香港地域某機(jī)房設(shè)備異常,影響香港地域可用區(qū)C的云服務(wù)器ECS、云數(shù)據(jù)庫PolarDB等云產(chǎn)品使用,工程師已在緊急處理中。阿里云稱,這一故障也影響了香港地域控制臺訪問和API調(diào)用操作,阿里云工程師昨日一直在配合PCCW機(jī)房工程師加速處理。截至目前,與該故障相關(guān)的官方網(wǎng)站和APP均可正常訪問。

受此故障影響,昨日澳門司法警察局官微發(fā)布消息稱,“由于阿里云的香港機(jī)房節(jié)點(diǎn)發(fā)生故障,導(dǎo)致澳門金融管理局、澳門銀河、蓮花衛(wèi)視、澳門水泥廠等關(guān)鍵基礎(chǔ)設(shè)施營運(yùn)者的網(wǎng)站、澳覓和MFood等外賣平臺、以及澳門日報(bào)等本地傳媒應(yīng)用程式,自今天(18日)中午開始暫時(shí)無法訪問使用”。不僅如此,甚至Linux中國的官網(wǎng)也因此而無法訪問,很多個(gè)人站長也表示阿里云的長時(shí)間故障影響了他們網(wǎng)站的運(yùn)營。

QQ截圖20221020133834.png

除此之外,此次故障對于“幣圈”影響也頗為嚴(yán)重。知名交易平臺“Gate.io”發(fā)布公告表示,受運(yùn)營商部分網(wǎng)絡(luò)節(jié)點(diǎn)維護(hù)影響,充提服務(wù)將出現(xiàn)延緩。而知名加密貨幣交易所OKX(歐易)則在18日上午11:00至19日上午02:50期間交易服務(wù)中斷了數(shù)個(gè)小時(shí),直接關(guān)停了所有用戶的交易并限制提幣,此舉還導(dǎo)致了部分OKX用戶的加密資產(chǎn)顯示為0,一度引發(fā)該平臺用戶的擔(dān)憂??上攵?,此次故障將會(huì)對交易所上的投資者信心產(chǎn)生不可估量的打擊。

歷史上云服務(wù)商已發(fā)生過多次故障

據(jù)零壹智庫的不完全統(tǒng)計(jì),自2010年以來,混合云上市公司青云QingCloud發(fā)生過約4次故障宕機(jī)事件,阿里云發(fā)生過約5次故障宕機(jī)事件,騰訊云發(fā)生過約8次故障宕機(jī)事件。其中,阿里云、騰訊云所發(fā)生的故障大多發(fā)生2018-2019年間——即盡管云服務(wù)已經(jīng)進(jìn)入技術(shù)較為成熟的階段,但仍有較大概率發(fā)生宕機(jī)事件。從全球范圍來看,自2010年以來,亞馬遜云科技AWS發(fā)生過約22次故障宕機(jī)事件,谷歌云計(jì)算平臺發(fā)生過約12次故障宕機(jī)事件,微軟Azure發(fā)生過約8次故障宕機(jī)事件。

在已知發(fā)生的云服務(wù)故障修復(fù)中,修復(fù)時(shí)間在短至40秒長至24小時(shí)不等。而作為一家具備雄厚技術(shù)實(shí)力的云服務(wù)商,阿里云出現(xiàn)如此長時(shí)間的持續(xù)性服務(wù)故障,在業(yè)界也屬于相當(dāng)罕見的事件,OKGroup的創(chuàng)始人徐明星甚至把此次故障稱為“阿里云發(fā)展史上重大丑聞”。

ca9253cc0d7c4f08a9928fd59f46b1f2_noop.jpg

當(dāng)前,使用云服務(wù)的大多都是提供各種服務(wù)的APP和網(wǎng)站客戶,試想一下,如果用戶在點(diǎn)外賣時(shí)無法下單或在刷短視頻無法播放,都將嚴(yán)重影響用戶體驗(yàn)。還有測試結(jié)果表明,大多數(shù)用戶打開網(wǎng)頁等待時(shí)間的忍耐度是在2秒鐘之內(nèi),最長不超過8秒,如果故障出現(xiàn)的時(shí)間比較久,用戶便會(huì)關(guān)閉網(wǎng)頁和APP,給企業(yè)帶來不同程度的用戶流失。

對此,為了衡量云服務(wù)商提供的服務(wù)質(zhì)量和系統(tǒng)的穩(wěn)定性,就必須設(shè)定一個(gè)統(tǒng)一標(biāo)準(zhǔn),SLA也為此應(yīng)運(yùn)而生。

SLA為云服務(wù)用戶提供保障

其中,SLA是服務(wù)等級協(xié)議Service-Level Agreement的縮寫,指的是服務(wù)提供商與客戶之間就服務(wù)質(zhì)量所達(dá)成的雙方共同認(rèn)可的協(xié)議,它表明了公有云提供服務(wù)的等級以及質(zhì)量,也是云服務(wù)商對產(chǎn)品服務(wù)能力的保障,云服務(wù)商及其產(chǎn)品團(tuán)隊(duì)一個(gè)很重要的目標(biāo)就是圍繞這些SLA來進(jìn)行產(chǎn)品設(shè)計(jì)和運(yùn)維保障。

舉例來說,假設(shè)是月度99.95%的SLA,按照每月30天計(jì)算,則每個(gè)月云服務(wù)出現(xiàn)故障的時(shí)間只能占總時(shí)間的0.05%,即每月最多存在30天×24小時(shí)×60分鐘×(100%-99.95%)=21.6分鐘的不可用時(shí)間。如果提升到99.995%,則每個(gè)月服務(wù)的不可用時(shí)間是2.16分鐘,不可用時(shí)間大幅縮短,也意味著云服務(wù)器的穩(wěn)定性大幅提升。

近期,阿里云還公布了最新的云服務(wù)器ECS服務(wù)等級協(xié)議SLA,單實(shí)例的可用性從99.95%提升至99.975%,多可用區(qū)多實(shí)例可用性從99.99%提升至99.995%,均為全球最高水準(zhǔn)。這一簡單的數(shù)字變化背后,是過去十年阿里云為云計(jì)算穩(wěn)定性做出的努力,除了升級SLA之外,阿里云還提供了企業(yè)級云災(zāi)備解決方案,為制造、金融、醫(yī)療等企業(yè)提供一鍵容災(zāi)能力,例如業(yè)務(wù)恢復(fù)、數(shù)據(jù)保護(hù)和網(wǎng)絡(luò)自愈等,最大程度保護(hù)本地和云上業(yè)務(wù)穩(wěn)定運(yùn)行,而此次香港地區(qū)超過12小時(shí)的服務(wù)故障,著實(shí)讓阿里云體驗(yàn)了一把打臉的感覺。

據(jù)阿里云官方公告表示,對于受本次故障影響的產(chǎn)品,阿里云將根據(jù)相關(guān)產(chǎn)品的SLA協(xié)議進(jìn)行賠付,下圖即是阿里云服務(wù)器ECS服務(wù)等級協(xié)議文檔中有關(guān)賠償標(biāo)準(zhǔn)的部分:

QQ截圖20221020133834.png

如今,越來越多的企業(yè)在用云服務(wù)代替本地的數(shù)據(jù)中心,主要原因就是傳統(tǒng)的數(shù)據(jù)中心難以達(dá)到云服務(wù)商保證的超高SLA。通常情況下,云廠商的SLA是線下數(shù)據(jù)中心的5倍以上,而云的成本則是線下數(shù)據(jù)中心的幾分之一。也正是因?yàn)橛辛讼嚓P(guān)的賠付承諾,所以各大云服務(wù)提供商對于提升SLA都非常謹(jǐn)慎,過度承諾往往意味著公司損失的概率提升。

當(dāng)然,完全避免云服務(wù)發(fā)生故障是不可能完成的任務(wù),但提前做好事前預(yù)案并及時(shí)通知客戶做好準(zhǔn)備,或許可以進(jìn)一步降低故障造成的影響。就像歐易交易平臺所說,云服務(wù)用戶也不能對于單個(gè)云服務(wù)廠商過度依賴,可以快速推進(jìn)多云戰(zhàn)略,確保核心服務(wù)部署在多個(gè)云服務(wù)商,在單個(gè)云服務(wù)商平臺出現(xiàn)故障時(shí),可以快速切換至其他平臺,保證服務(wù)的穩(wěn)定性。

QQ截圖20221020133834.png

雖有“丑聞”,但云服務(wù)前景依舊良好

從成立的第一天起,阿里云就在穩(wěn)定性上進(jìn)行了大量的技術(shù)投入和建設(shè),經(jīng)過十多年的技術(shù)探索,阿里云已經(jīng)推出了基于自研的飛天大規(guī)模操作系統(tǒng)自研服務(wù)器、網(wǎng)絡(luò)、存儲(chǔ)、智能調(diào)度等技術(shù),不僅大幅提升了系統(tǒng)的穩(wěn)定性,還可預(yù)測感知系統(tǒng)異常,運(yùn)用熱遷移等技術(shù)保障客戶業(yè)務(wù)不受影響,最終實(shí)現(xiàn)了超高的SLA標(biāo)準(zhǔn)。

目前,阿里云已經(jīng)是國內(nèi)公有云行業(yè)的第一。在當(dāng)前的中國公有云服務(wù)市場中,雖然天翼云、浪潮云、金山云、京東云等云廠商的名字也有所耳聞,但阿里云、騰訊云、華為云和百度智能云是知名的國產(chǎn)“四朵云”,共同占據(jù)了國內(nèi)云服務(wù)的大半江山。從全球市場來看,阿里云在全球市場排名第三,在全球28個(gè)地域運(yùn)營了86個(gè)可用區(qū),同時(shí)也是亞太市場基礎(chǔ)設(shè)施規(guī)模最大的云計(jì)算平臺,超過了亞馬遜云科技和微軟。過去三年,阿里云在海外市場營收增長更是超過了10倍。

QQ截圖20221020133834.png

不僅如此,今年阿里云還首次實(shí)現(xiàn)了年度盈利。據(jù)阿里巴巴于今年5月發(fā)布的2022年財(cái)報(bào)顯示,其云業(yè)務(wù)同比增長23%,全年收入在抵銷跨分部交易前和抵銷后分別為1001.8億元和745.68億元,實(shí)現(xiàn)盈利11.46億元。這不僅是阿里云成立13年以來首次實(shí)現(xiàn)年度盈利,而且也成為國內(nèi)首家實(shí)現(xiàn)持續(xù)盈利的云計(jì)算公司。

不過,在盈利的背后,阿里云也面臨著云計(jì)算市場的增速放緩難題。根據(jù)Canalys公布的數(shù)據(jù)顯示,在今年第三季度,國內(nèi)云基礎(chǔ)設(shè)施服務(wù)支出同比增長8%達(dá)到78億美元,占全球云支出的12%。自2022年第一季度以來,年增長率已經(jīng)連續(xù)三個(gè)季度放緩,并首次跌破10%。究其原因,大概是對云服務(wù)需求更高的互聯(lián)網(wǎng)行業(yè)大中型客戶已經(jīng)基本完成布局,而現(xiàn)在的云計(jì)算不僅需要深入各行各業(yè),還要完成市場教育和前沿技術(shù)的研發(fā)難題。

寫在最后

雖然云服務(wù)出現(xiàn)故障時(shí)有發(fā)生,但相比傳統(tǒng)的本地服務(wù),云服務(wù)發(fā)生故障的概率已經(jīng)大大降低。而且隨著技術(shù)的不斷完善,云服務(wù)還將在更多場景中發(fā)揮獨(dú)一無二的作用。

對于云服務(wù)來說,發(fā)生故障的原因不僅與技術(shù)有關(guān),還可能受到技術(shù)處理能力、自然天氣、故障原因等多方面因素的影響。盡管阿里云在過去幾年取得了長足的進(jìn)步,但此次超過12小時(shí)的持續(xù)故障,也足以對云服務(wù)廠商敲響警鐘,作為云服務(wù)平臺,確保平臺的安全、穩(wěn)定運(yùn)行,永遠(yuǎn)是其最關(guān)鍵的工作之一。

參考資料:

1.《阿里云發(fā)生嚴(yán)重事故,故障超12小時(shí),張建鋒剛帶公司實(shí)現(xiàn)年度盈利》,子彈財(cái)觀

2.《阿里云香港故障:發(fā)展史上新的“至暗時(shí)刻”》,IT時(shí)代網(wǎng)

3.《17次云巨頭故障事件梳理,云服務(wù)還可靠嗎?》,零壹財(cái)經(jīng)

THEEND

最新評論(評論僅代表用戶觀點(diǎn))

更多
暫無評論