IT 實(shí)力較量:決戰(zhàn)超級(jí)數(shù)據(jù)中心之巔

馬超
云計(jì)算市場(chǎng)最大的特點(diǎn)是勝者通吃,誰(shuí)占據(jù)市場(chǎng)第一的位置,誰(shuí)降低成本,以更低的價(jià)格形成擠出效應(yīng)。因此各大科技巨頭都有強(qiáng)烈的規(guī)模化、集中化的訴求。

今年的新冠疫情讓不少人認(rèn)識(shí)到云計(jì)算的戰(zhàn)略意義:今年5月,IBM 新 CEO 克里希納在上任伊始就表示,IBM將專注于AI和混合云,將它們視為未來(lái)的關(guān)鍵技術(shù)。谷歌云計(jì)算部門負(fù)責(zé)人托馬斯·庫(kù)里安表示將全力追趕云計(jì)算領(lǐng)頭羊亞馬遜和微軟。

在我國(guó),隨著新基建政策的下發(fā),國(guó)內(nèi)各科技巨頭開(kāi)始強(qiáng)勢(shì)布局:阿里云宣布3年 2000 億入局,騰訊清遠(yuǎn)數(shù)據(jù)中心開(kāi)服。今天,阿里云宣布位于南通、杭州和烏蘭察布的三座超級(jí)數(shù)據(jù)中心正式落成,陸續(xù)開(kāi)服。

相比于傳統(tǒng)的數(shù)據(jù)中心,超級(jí)數(shù)據(jù)中心是面向未來(lái)設(shè)計(jì)打造的,比拼的是技術(shù)能力。因此我們經(jīng)常聽(tīng)到有關(guān)數(shù)據(jù)中心的黑科技,比如微軟和臉書(shū)的海底數(shù)據(jù)中心,華為和AWS推出基于ARM的服務(wù)器,阿里云本次發(fā)布的超級(jí)數(shù)據(jù)中心更是應(yīng)用達(dá)摩院、平頭哥等最新研究成果,在各方面都有技術(shù)升級(jí)。

下面筆者帶大家揭開(kāi)超級(jí)數(shù)據(jù)中心神秘的面紗。

1、揭秘超級(jí)數(shù)據(jù)中心背后的黑科技

云計(jì)算邊際成本隨著規(guī)模增大而快速降低的效應(yīng)愈發(fā)明顯,比如一個(gè)數(shù)據(jù)中心的土地、電力、制冷等是成本的大頭,增加一臺(tái)服務(wù)器或者計(jì)算節(jié)點(diǎn)新增投入的邊際成本很低,超級(jí)數(shù)據(jù)中心恰恰是這種規(guī)模集約化運(yùn)營(yíng)模式的終極產(chǎn)物,堪稱是算力之源,服務(wù)底座。

與傳統(tǒng)數(shù)據(jù)中心不同,超級(jí)數(shù)據(jù)中心想通過(guò)規(guī)模提高效益,必須要解決大規(guī)模供電、高帶寬數(shù)據(jù)傳輸以及高效率制冷這三大難題,以往這些技術(shù)的透明度不太高,各廠商往往都對(duì)這些黑科技諱莫如深。

阿里云本次揭開(kāi)了這些黑科技的面紗,著實(shí)讓筆者對(duì)于超級(jí)數(shù)據(jù)中心的認(rèn)識(shí)更進(jìn)了一步。

巴拿馬電源:一般的數(shù)據(jù)中心尤其是超級(jí)數(shù)據(jù)中心,其供電一般是通過(guò)高壓電進(jìn)行配送的,如何將10kV的AC供電轉(zhuǎn)為240V的DC供電,并且控制相應(yīng)損耗一直都是擺在數(shù)據(jù)中心強(qiáng)電工程師面前的難題。

阿里重新定義10kV---240V供電鏈路,對(duì)磁路和電路進(jìn)行聯(lián)合設(shè)計(jì),提出最高2.5MW、一體化、模塊化、高效、高可靠直流不間斷電源,省去傳統(tǒng)低壓配電環(huán)節(jié),采用第三代半導(dǎo)體技術(shù)大幅度優(yōu)化電源內(nèi)部結(jié)構(gòu),實(shí)現(xiàn)了高可靠和低成本的目標(biāo)。

只需一臺(tái)巴拿馬電源,可以從中壓10kV AC直轉(zhuǎn)240V DC(或336V DC),讓供電傳輸一步到位,更加高效而可靠。正如1914年開(kāi)鑿?fù)瓿傻陌湍民R運(yùn)河極大地縮短了太平洋和大西洋之間的航程,巴拿巴電源大幅降低了供電系統(tǒng)的轉(zhuǎn)換損耗。

400G光模塊:內(nèi)部網(wǎng)絡(luò)高速穩(wěn)定的數(shù)據(jù)傳輸,是業(yè)界對(duì)于新一代數(shù)據(jù)中心的基本要求,這依賴于光模塊的技術(shù)水準(zhǔn)。

去年末阿里推出了基于硅光技術(shù)的400G DR4光模塊,其帶寬密度提高4倍,網(wǎng)速提升4倍,設(shè)備體積與成本基本沒(méi)有增加,目前400G光模塊已在阿里的各大超級(jí)數(shù)據(jù)中心全面投入使用。

液冷服務(wù)器集群:說(shuō)實(shí)話液冷技術(shù)的確令筆者非常震撼,阿里將這種液冷技術(shù)命名為“麒麟”,這是一種將服務(wù)器被浸泡在特殊的絕緣冷卻液里的制冷方案,由于運(yùn)算產(chǎn)生熱量可被直接吸收進(jìn)入外循環(huán)冷卻,全程用于散熱的能耗幾乎為零,因此這種形式的熱傳導(dǎo)效率比傳統(tǒng)的風(fēng)冷要高百倍,節(jié)能效果超過(guò)70%。

“麒麟”系統(tǒng)真正推廣開(kāi)卻不容易,如果全部使用液冷,那么服務(wù)器硬件故障該如何快速維修,如何快速布線等等,這都是革命性變化,目前全球范圍內(nèi)僅有阿里的一個(gè)數(shù)據(jù)中心大規(guī)模采用了“麒麟”技術(shù)。

未來(lái)3到5年,阿里計(jì)劃將所有數(shù)據(jù)中心全面使用液冷。想想看,如果全國(guó)的數(shù)據(jù)中心都采用液冷技術(shù),一年可節(jié)省上千億度電,逐步實(shí)現(xiàn)低碳數(shù)據(jù)中心的目標(biāo)。

2、分散布署的邏輯:不把雞蛋放在一個(gè)籃子里

云計(jì)算市場(chǎng)最大的特點(diǎn)是勝者通吃,誰(shuí)占據(jù)市場(chǎng)第一的位置,誰(shuí)降低成本,以更低的價(jià)格形成擠出效應(yīng)。因此各大科技巨頭都有強(qiáng)烈的規(guī)模化、集中化的訴求。

各巨頭的數(shù)據(jù)中心選址卻并不集中,比如阿里本次的數(shù)據(jù)中心布署在了南通、杭州和烏蘭察布三地,每個(gè)地域都采用了3AZ設(shè)計(jì)。筆者認(rèn)為這種情況的出現(xiàn)關(guān)鍵在于“不能把雞蛋放在同一個(gè)籃子里”。這種數(shù)據(jù)中心布署,一般要滿足以下原則。

就近原則:分別接近京津冀、長(zhǎng)三角、珠三角經(jīng)濟(jì)帶

3AZ設(shè)計(jì):每個(gè)數(shù)據(jù)中心都采用3AZ設(shè)計(jì),一份數(shù)據(jù)會(huì)在一個(gè)數(shù)據(jù)中心的三個(gè)AZ里做備份,防止數(shù)據(jù)丟失。

全球性廣泛布署數(shù)據(jù)中心有一些就近服務(wù)規(guī)劃方面的優(yōu)勢(shì),是集中布署的數(shù)據(jù)中心所不具備的。

今年年初,聯(lián)合國(guó)在紐約總部宣布騰訊成為全球合作伙伴,為聯(lián)合國(guó)成立75周年提供全面技術(shù)方案,其中騰訊會(huì)議、企業(yè)微信和騰訊同傳為這場(chǎng)有史以來(lái)最大規(guī)模的全球?qū)υ捥峁┻h(yuǎn)程會(huì)議服務(wù),支持疫情期間的在線會(huì)議活動(dòng)。

騰訊能脫穎而出,正因?yàn)轵v訊會(huì)議依托騰訊全球的數(shù)據(jù)中心,實(shí)現(xiàn)了在復(fù)雜網(wǎng)絡(luò)環(huán)境的高抗性自適應(yīng)。同時(shí)騰訊會(huì)議的調(diào)度系統(tǒng)綜合考慮用戶所在位置、運(yùn)營(yíng)商、網(wǎng)絡(luò)和鏈路質(zhì)量情況,動(dòng)態(tài)選擇最佳接入點(diǎn),有效地保障“最后一公里”的接入質(zhì)量。從而支撐全球不同國(guó)家不同地點(diǎn)的同時(shí)接入服務(wù),這是集中布署的數(shù)據(jù)中心所不能具備的優(yōu)點(diǎn)。

3、異地?cái)?shù)據(jù)中心:災(zāi)備體系之根

前不久,微盟因人為惡意刪庫(kù),使得其業(yè)務(wù)自發(fā)生中斷,直到一周多以后才全面找回?cái)?shù)據(jù)??v然業(yè)界普遍一般公司有5%左右的概率發(fā)生重大信息系統(tǒng)災(zāi)難,一旦故障發(fā)生,企業(yè)損失巨大。異地?cái)?shù)據(jù)中心的災(zāi)備體系建設(shè)可以將這類事故的影響降到最低。

在講災(zāi)備體系之前,我們先來(lái)明確評(píng)價(jià)業(yè)務(wù)連續(xù)性的兩個(gè)重要指標(biāo):

RTO(Recovery Time Objective):RTO是指災(zāi)難發(fā)生后,從IT系統(tǒng)崩潰導(dǎo)致業(yè)務(wù)停頓開(kāi)始,到IT系統(tǒng)完全恢復(fù),業(yè)務(wù)恢復(fù)運(yùn)營(yíng)為止的這段時(shí)間長(zhǎng)度。RTO用于衡量業(yè)務(wù)從停頓到恢復(fù)的所需時(shí)間。

RPO(Recovery Point Objective):IT系統(tǒng)崩潰后,可以恢復(fù)到某個(gè)歷史時(shí)間點(diǎn),從歷史時(shí)間點(diǎn)到災(zāi)難發(fā)生的時(shí)間點(diǎn)的這段時(shí)間長(zhǎng)度就稱為RPO。RPO用于衡量業(yè)務(wù)恢復(fù)所允許丟失的數(shù)據(jù)量。

簡(jiǎn)單來(lái)講RTO是災(zāi)難發(fā)生后業(yè)務(wù)中斷的時(shí)間,RPO是災(zāi)難發(fā)生后數(shù)據(jù)丟失的數(shù)量。

一般來(lái)說(shuō)目前比較流行的災(zāi)備體系是至少建設(shè)三個(gè)數(shù)據(jù)中心:

主中心:正常情況下全面提供業(yè)務(wù)服務(wù)。

同城中心:一般使用同步復(fù)制的方式來(lái)向同城災(zāi)備中心傳輸數(shù)據(jù),保證同城中心數(shù)據(jù)復(fù)本為最新,隨時(shí)可以接管業(yè)務(wù),以保證RTO的指標(biāo)。但是同城中心無(wú)法應(yīng)對(duì)此類刪庫(kù)事件。

異地中心:一般使用延時(shí)異步復(fù)制(延時(shí)時(shí)間一般為30分鐘左右)的方式向異地災(zāi)備中心傳輸數(shù)據(jù),其中同步復(fù)制的好處是一旦主中心被人工破壞,那么不會(huì)立刻涉及異地中心。以保證RPO的指標(biāo)。

一句話總結(jié)災(zāi)備體系的最佳實(shí)踐就是兩地三中心;同城保證業(yè)務(wù)連續(xù)性,優(yōu)先負(fù)責(zé)用戶體驗(yàn);異地保證數(shù)據(jù)連續(xù)性,確保企業(yè)生存底線。

不少企業(yè)尤其是創(chuàng)業(yè)型企業(yè)在異地中心的建設(shè)上投入還不夠,一旦發(fā)生刪庫(kù)事件就影響是致命的。所以當(dāng)企業(yè)發(fā)展到一定規(guī)模以后,必須考慮建設(shè)跨異地?cái)?shù)據(jù)中心的災(zāi)備體系,以此來(lái)應(yīng)對(duì)風(fēng)險(xiǎn)。

十年前,IT界普遍流傳著一句話叫做“代碼正在吞沒(méi)世界”,現(xiàn)在人們才真正醒悟原來(lái)云計(jì)算才是背后的那個(gè)大BOSS。如今,隨著云原生和無(wú)服務(wù)器計(jì)算模式的普遍應(yīng)用,云服務(wù)模式正在被重新定義。數(shù)據(jù)中心作為云的底座越來(lái)越有成為IT行業(yè)的C位的趨勢(shì),未來(lái)值得期待。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無(wú)評(píng)論