揭秘 AWS 基礎(chǔ)架構(gòu)底層運(yùn)維和構(gòu)建之道!

夕顏
UPS系統(tǒng)更加復(fù)雜,因?yàn)閭鹘y(tǒng)的UPS控制產(chǎn)品功能復(fù)雜,但并不一定是AWS需要的,且UPS的鉛酸電池質(zhì)量重,危險性高,非常不利于數(shù)據(jù)中心的安全。AWS的做法是把鉛酸電池做成多個小的電池,與機(jī)架的的冗余電池搭配使用,用自己開發(fā)的控制系統(tǒng)來掌控UPS,從而降低了復(fù)雜性和鉛酸電池的破壞力。

2345截圖20201119114036.png

在去年的AWS re:Invent大會上,AWS全球基礎(chǔ)架構(gòu)和客戶支持資深副總裁Peter DeSantis在主題演講中分享了AWS基礎(chǔ)網(wǎng)絡(luò)支撐高性能計算,以及讓傳統(tǒng)計算密集型應(yīng)用更好地運(yùn)用云共享性特性的秘訣;今年,他從運(yùn)營的角度,延伸至半導(dǎo)體和數(shù)據(jù)中心可持續(xù)發(fā)展等領(lǐng)域,揭秘AWS在基礎(chǔ)架構(gòu)底層運(yùn)維和構(gòu)建上的一些思考。

他的講話有哪些值得關(guān)注的地方?我們來做一下深度解讀。

穩(wěn)定運(yùn)營,如何做到?

Everything fails,all the time.

——Amazon CTO Werner Vogels

正如Werner所說,構(gòu)建云的時候,任何環(huán)節(jié)都可能出現(xiàn)問題,不出問題幾乎不可能。

2018年,AWS在re:Invent上曾公布過過一個數(shù)據(jù):與AWS規(guī)模最接近的另一家服務(wù)商,云服務(wù)的宕機(jī)時間是AWS的7倍多。當(dāng)時就有人關(guān)注,AWS是如何做到支撐起巨大規(guī)模的云服務(wù)的同時,保持穩(wěn)定、可靠的運(yùn)營?Peter在今年的演講中就為大家進(jìn)行了揭秘。

總的來說,從細(xì)節(jié)著手,是AWS支撐如此大規(guī)模且復(fù)雜的基礎(chǔ)架構(gòu),同時保持運(yùn)營穩(wěn)定可靠的秘訣。

供電

具體來講,首先是從供電層面保證穩(wěn)定性。對于任何基礎(chǔ)設(shè)施,供電都是關(guān)鍵所在,包括數(shù)據(jù)中心。一般從電網(wǎng)拿到電后,AWS經(jīng)過Switch Gear配電控制系統(tǒng)供應(yīng)電力,其中的UPS備用電源系統(tǒng)可以在電網(wǎng)供電出現(xiàn)問題時馬上接管電源,保證服務(wù)不中斷,同時啟動發(fā)電機(jī)組,為電池持續(xù)充電,直到電力恢復(fù)。

2345截圖20201119114036.png

Peter解釋道,一個完整的配電控制系統(tǒng),一般包括三個關(guān)鍵組件部分:發(fā)電機(jī)、配電開關(guān)控制系統(tǒng)與UPS系統(tǒng)。

發(fā)電機(jī)組相對來說是最簡單的,AWS的基本邏輯就是加一組冗余發(fā)電機(jī),發(fā)電機(jī)壞掉之后可以用另一臺替換。

配電開關(guān)系統(tǒng)相對復(fù)雜,有一個專門名詞叫做e-house,是用低壓或中壓的控制開關(guān)和繼電器來控制線路切斷。但是傳統(tǒng)的開關(guān)控制系統(tǒng)內(nèi)嵌的軟件是預(yù)先設(shè)定無法改變的,很多功能設(shè)計并不適合AWS使用。為了適應(yīng)AWS的需求,他們自己做了一套配電開關(guān)系統(tǒng),保證在發(fā)生事故時,AWS可以最快的速度和極簡的流程處理故障。

UPS系統(tǒng)更加復(fù)雜,因?yàn)閭鹘y(tǒng)的UPS控制產(chǎn)品功能復(fù)雜,但并不一定是AWS需要的,且UPS的鉛酸電池質(zhì)量重,危險性高,非常不利于數(shù)據(jù)中心的安全。AWS的做法是把鉛酸電池做成多個小的電池,與機(jī)架的的冗余電池搭配使用,用自己開發(fā)的控制系統(tǒng)來掌控UPS,從而降低了復(fù)雜性和鉛酸電池的破壞力。

任何環(huán)節(jié)都可能會壞,減小壞的環(huán)節(jié)對客戶的影響,是AWS維護(hù)供電穩(wěn)定的基本思路。

數(shù)據(jù)中心

接下來回到數(shù)據(jù)中心本身。2001年,當(dāng)AWS還不存在的時候,Amazon run在西雅圖就已經(jīng)有了數(shù)據(jù)中心。在這個海嘯和地震頻發(fā)的地方,AWS積累了一些數(shù)據(jù)中心建設(shè)的經(jīng)驗(yàn)。

比如不能把所有設(shè)備都放在一個數(shù)據(jù)中心,數(shù)據(jù)中心之間要有適當(dāng)?shù)木嚯x,以減少災(zāi)害帶來的破壞。

兩個數(shù)據(jù)中心的延遲至少有70毫秒,這是物理距離決定的,無法改變。但減小延遲帶來的影響,AWS在綜合考慮了火災(zāi)、雷電、龍卷風(fēng)、海嘯、地震等等所有因素的破壞半徑之后,發(fā)現(xiàn)了數(shù)據(jù)中心之間的最優(yōu)距離是數(shù)十英里,并在這個距離的基礎(chǔ)上保證數(shù)據(jù)中心的延遲在一毫秒之內(nèi),最大程度保證數(shù)據(jù)中心之間的獨(dú)立性。

與其他云服務(wù)商數(shù)據(jù)部署的理念有所不同,AWS會細(xì)分區(qū)域和可用區(qū)(Available Zone)的區(qū)別:

1)遠(yuǎn)距離的可用區(qū)設(shè)置,可以降低自然災(zāi)難(火災(zāi),水災(zāi)…)帶來的業(yè)務(wù)中斷風(fēng)險;

2)用戶選擇最近站點(diǎn)接入以低延遲訪問AWS云資源;

3)AWS分別管理每個區(qū)域中的運(yùn)維,每個AZ都有獨(dú)立的網(wǎng)絡(luò)和連接,將故障分割。

此外,AWS數(shù)據(jù)中心的設(shè)計邏輯,重點(diǎn)是要去除人的干擾。人可以成就一切,也可以破壞一切。因此,要保證每個區(qū)域之間的運(yùn)營完全獨(dú)立,互不干擾,當(dāng)客戶在全球部署跨多個區(qū)域,就可以減小破壞帶來的影響。

目前,AMS有遍及24個地理區(qū)域的77個可用區(qū)(AZ),并已公布計劃在澳大利亞、印度、印度尼西亞、日本、西班牙和瑞士新建6個AWS區(qū)域、18個可用區(qū)。

半導(dǎo)體

AWS有自己的半導(dǎo)體,以更好地適應(yīng)規(guī)?;\(yùn)營的獨(dú)特需求。

2345截圖20201119114036.png

2015年,以色列半導(dǎo)體公司Annapurnalabs被AWS收購后,就成為后者自己的半導(dǎo)體供應(yīng)者,從最早的Nitro 1,到2021年將要發(fā)布的Nitro 4,都是AWS云服務(wù)的硬件支撐。

2345截圖20201119114036.png

AWS云平臺可以通過AWS Nitro控制器向Amazon EC2添加網(wǎng)絡(luò),存儲和安全資源,比如在EC2 Mac實(shí)例中,AWS在Mini上安裝了Nitro Controller,沒有Hypervisor的Nitro Controller可以安全快速地連接到Mac Mini。通過Nitro接口,可以連接到EC2和EBS等服務(wù)。據(jù)悉,Mac Mini現(xiàn)在可以使用任何本地AWS服務(wù)。

AWS Nitro芯片發(fā)展迅速,最新版本version 4為新的C6gn實(shí)例提供了動力。

此外,AWS Inferentia是AWS在云上最高性價比專門做推理的芯片,搭配Nitro,可以快速地擴(kuò)展到EC2實(shí)例。在機(jī)器學(xué)習(xí)領(lǐng)域,AWS透露今年下半年還會正式推出另一個芯片產(chǎn)品——AWS Trainium,屆時將給開發(fā)者帶來怎樣的能力,我們可以期待一下。

綠色節(jié)能

去年,AWS曾正式宣布過要在2030年完成一個目標(biāo)——讓整個Amazon所使用的數(shù)據(jù)中心100%使用再生能源。而現(xiàn)在,AWS把實(shí)現(xiàn)這個目標(biāo)的時間提早了很多5年,爭取在2025年100%利用可再生能源。今年,Peter特地匯報了這個目標(biāo)目前的一些進(jìn)展。

451 Research的調(diào)查研究結(jié)果顯示,AWS的基礎(chǔ)設(shè)施的能源效率是被調(diào)查的美國企業(yè)數(shù)據(jù)中心中位數(shù)的3.6倍。這種優(yōu)勢的三分之二以上歸因于更節(jié)能的服務(wù)器數(shù)量和更高的服務(wù)器利用率。

AWS通過多種措施實(shí)現(xiàn)綠色節(jié)能:

●提高用水效率,減少用于冷卻數(shù)據(jù)中心的飲用水的使用。AWS通過評估每個AWS區(qū)域的氣候模式、當(dāng)?shù)厮Y源管理和可用性以及保護(hù)飲用水水源的機(jī)會來制定用水戰(zhàn)略。

●2020年5月,亞馬遜宣布了五個新的公用事業(yè)規(guī)模的太陽能項目,為中國、澳大利亞和美國的全球業(yè)務(wù)提供電力,一共增加615 MW再生能源發(fā)電能力,預(yù)計每年發(fā)電120萬MW。

●今年3月,亞馬遜宣布在澳大利亞、西班牙、瑞典和美國投資四個新的可再生能源項目,這些項目預(yù)計每年將產(chǎn)生大約840,000 MWh的能源和額外產(chǎn)生近300 MW的可再生能源發(fā)電能力。

●在數(shù)據(jù)中心建設(shè)的水泥生產(chǎn)過程中,AWS在混凝土生產(chǎn)中添加CO2和使用補(bǔ)充水泥材料來進(jìn)一步減少CO2的排放。

2020年,亞馬遜對可再生能源的總投資項目已達(dá)到35個,裝機(jī)容量超過4 GW,這也是目前世界上單一企業(yè)在1年內(nèi)對可再生能源的最大的一筆投資。這些新項目將使亞馬遜所擁有的可再生能源的的總裝機(jī)容量在2020年達(dá)到6.5 GW,并成為有史以來最大的企業(yè)可再生能源采購商。

以上為Peter DeSantis今年對AWS基礎(chǔ)架構(gòu)趨勢深度剖析的全部內(nèi)容,你對哪部分最感興趣?歡迎留言討論~

THEEND

最新評論(評論僅代表用戶觀點(diǎn))

更多
暫無評論