云存儲(chǔ)應(yīng)急演練體系建立及場(chǎng)景設(shè)計(jì)

針對(duì)云存儲(chǔ)及云平臺(tái)的基礎(chǔ)設(shè)施建立應(yīng)急切換演練機(jī)制,能夠顯著提升企業(yè)處理信息安全事件響應(yīng)能力、降低和預(yù)防發(fā)生信息安全事件產(chǎn)生的損失,保障業(yè)務(wù)連續(xù)性。針對(duì)企業(yè)核心數(shù)據(jù)、核心存儲(chǔ)設(shè)備,建立一整套完善的應(yīng)急預(yù)案,構(gòu)建應(yīng)急處置機(jī)制,并驗(yàn)證應(yīng)急保障預(yù)案的有效性等環(huán)節(jié),已經(jīng)成為業(yè)務(wù)連續(xù)性中重要環(huán)節(jié)。

本文來自twt企業(yè)IT社區(qū),作者/willow。

云存儲(chǔ)技術(shù)的應(yīng)用很大程度上降低了企業(yè)構(gòu)建同城和異地容災(zāi)的成本,相比于傳統(tǒng)存儲(chǔ)架構(gòu),云存儲(chǔ)具有完全不同的業(yè)務(wù)特征,比如在數(shù)據(jù)的一致性同步規(guī)則和數(shù)據(jù)更新粒度等方面,這些業(yè)務(wù)特征和應(yīng)用模式的明顯區(qū)別,使云存儲(chǔ)的高可用保護(hù)及應(yīng)急體系建設(shè)都區(qū)別于傳統(tǒng)存儲(chǔ)。本文將基于云原生和企業(yè)云架構(gòu)體系的視角,分析如何構(gòu)建云存儲(chǔ)演練的標(biāo)準(zhǔn)體系,通過云存儲(chǔ)幾種常見的高可用容災(zāi)技術(shù),梳理在不同故障場(chǎng)景下的應(yīng)急切換流程,建立符合云存儲(chǔ)標(biāo)準(zhǔn)的應(yīng)急預(yù)案。

一、云存儲(chǔ)演練的必要性分析

云存儲(chǔ)演練的重要性

隨著云計(jì)算技術(shù)的推廣,云存儲(chǔ)逐漸成為一種有效解決企業(yè)海量數(shù)據(jù)存儲(chǔ)和管理問題的方式。針對(duì)企業(yè)日常生產(chǎn)過程中產(chǎn)生的不同類型非結(jié)構(gòu)化數(shù)據(jù),企業(yè)可選擇相應(yīng)類型的云存儲(chǔ)(包括文件存儲(chǔ)、對(duì)象存儲(chǔ)、塊存儲(chǔ)等),對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行統(tǒng)一存儲(chǔ)和管理。利用分布式存儲(chǔ)架構(gòu)所提供的的軟件即存儲(chǔ)能力,幫助企業(yè)構(gòu)建了云服務(wù)的基礎(chǔ)系統(tǒng)服務(wù)層,為云上各類的微服務(wù)應(yīng)用提供了云存儲(chǔ)和云共享服務(wù)。

針對(duì)云存儲(chǔ)及云平臺(tái)的基礎(chǔ)設(shè)施建立應(yīng)急切換演練機(jī)制,能夠顯著提升企業(yè)處理信息安全事件響應(yīng)能力、降低和預(yù)防發(fā)生信息安全事件產(chǎn)生的損失,保障業(yè)務(wù)連續(xù)性。針對(duì)企業(yè)核心數(shù)據(jù)、核心存儲(chǔ)設(shè)備,建立一整套完善的應(yīng)急預(yù)案,構(gòu)建應(yīng)急處置機(jī)制,并驗(yàn)證應(yīng)急保障預(yù)案的有效性等環(huán)節(jié),已經(jīng)成為業(yè)務(wù)連續(xù)性中重要環(huán)節(jié)。

云存儲(chǔ)VS傳統(tǒng)存儲(chǔ)

云存儲(chǔ)相較于傳統(tǒng)的存儲(chǔ)架構(gòu),云存儲(chǔ)的容災(zāi)服務(wù)通常包括為彈性云計(jì)算資源、云硬盤設(shè)備、分布式存儲(chǔ)設(shè)備等服務(wù)提供容災(zāi)的服務(wù)。這些服務(wù)不僅為上層應(yīng)用提供了更為靈活的軟硬件一體化部署模式,同時(shí)也兼具更加健壯的高可用模式,尤其是在開展應(yīng)急演練方面:可以基于現(xiàn)有云上的業(yè)務(wù)策略,按需配置云服務(wù)器、云存儲(chǔ)的保護(hù)實(shí)例。并通過存儲(chǔ)同步復(fù)制技術(shù)、磁盤映射技術(shù)、數(shù)據(jù)緩存冗余等技術(shù)構(gòu)建云存儲(chǔ)的高可用性,為業(yè)務(wù)提供數(shù)據(jù)的可靠性以及業(yè)務(wù)連續(xù)性,從而確保容災(zāi)備份的RPO為0,在演練過程中,云存儲(chǔ)將彈性云服務(wù)器的數(shù)據(jù)、配置信息復(fù)制到容災(zāi)站點(diǎn),并支持應(yīng)用所在的服務(wù)器停機(jī)期間從另外的位置啟動(dòng)并正常運(yùn)行,從而提升業(yè)務(wù)連續(xù)性,相比于傳統(tǒng)存儲(chǔ),基于云存儲(chǔ)的容災(zāi)方式,能夠更好的降低容災(zāi)建設(shè)成本。

二、云存儲(chǔ)應(yīng)急場(chǎng)景及標(biāo)準(zhǔn)體系建設(shè)

云存儲(chǔ)切換演練及場(chǎng)景建設(shè)

根據(jù)企業(yè)業(yè)務(wù)連續(xù)性相關(guān)要求,結(jié)合云存儲(chǔ)的特點(diǎn)和現(xiàn)狀,對(duì)應(yīng)急演練的內(nèi)容、實(shí)施過程以及預(yù)期效果,梳理云存儲(chǔ)的應(yīng)急演練特別應(yīng)該注意以下幾個(gè)方面:

首先,確立組織演練規(guī)劃小組,并確定演練范圍及周期:前期的演練會(huì)盡量降低復(fù)雜度,在零風(fēng)險(xiǎn)的前提下進(jìn)行多次小規(guī)模演練,提升管理人員的災(zāi)難恢復(fù)能力。

設(shè)計(jì)演練場(chǎng)景并制定恢復(fù)策略:針對(duì)應(yīng)急預(yù)案設(shè)立不同的演練場(chǎng)景及相應(yīng)的恢復(fù)策略。

最后進(jìn)行實(shí)戰(zhàn)演練及總結(jié):監(jiān)控并記錄整個(gè)恢復(fù)過程,驗(yàn)證災(zāi)難恢復(fù)流程及備份數(shù)據(jù)的有效性。

構(gòu)建基于云架構(gòu)的演練標(biāo)準(zhǔn)體系

由于基于云架構(gòu)的業(yè)務(wù)平臺(tái),采用分布式計(jì)算機(jī)存儲(chǔ)系統(tǒng),天然形成了數(shù)據(jù)冗余存儲(chǔ)、具有自動(dòng)恢復(fù)機(jī)制,提高了存儲(chǔ)數(shù)據(jù)抵抗外界諸如硬件故障、單臺(tái)存儲(chǔ)設(shè)備故障等不可抗風(fēng)險(xiǎn)。因此,在構(gòu)建基于云架構(gòu)的演練標(biāo)準(zhǔn)體系方面,要投入更多的關(guān)注,覆蓋基礎(chǔ)設(shè)施到應(yīng)用層,底層環(huán)境(物理機(jī)、虛擬機(jī)、容器)及操作系統(tǒng)(Linux、Windows)、應(yīng)用容器編排等方面。作者認(rèn)為構(gòu)建基于云存儲(chǔ)的演練體系應(yīng)至少應(yīng)包括:

(1)明確云存儲(chǔ)突發(fā)事件應(yīng)急各環(huán)節(jié)中的角色和責(zé)任,提高云存儲(chǔ)各項(xiàng)響應(yīng)和操作能力;在關(guān)注云架構(gòu)環(huán)境中,傳統(tǒng)的存儲(chǔ)設(shè)備管理員轉(zhuǎn)變成devops開發(fā)運(yùn)維工程師,對(duì)存儲(chǔ)的運(yùn)維也從硬件層面轉(zhuǎn)變?yōu)閷?duì)應(yīng)用和微服務(wù)的支撐。

(2)利用多手段組合的方式,構(gòu)建云存儲(chǔ)應(yīng)急演練手段技術(shù)體系;利用真實(shí)可模擬的微服務(wù)存儲(chǔ)故障等突發(fā)事件應(yīng)急環(huán)境來訓(xùn)練參演人員,增強(qiáng)參演人員的心適應(yīng)能力和調(diào)整能力,縮短突發(fā)事件應(yīng)急現(xiàn)場(chǎng)的適應(yīng)期;

(3)明確云存儲(chǔ)在應(yīng)急演練各環(huán)節(jié)關(guān)鍵的功能要素,包括SSD云盤的IOPS、吞吐量和訪問時(shí)延。并據(jù)此從定性和量化兩個(gè)方面構(gòu)建科學(xué)的演練效果評(píng)估指標(biāo)體系;

(4)針對(duì)現(xiàn)行傳統(tǒng)存儲(chǔ)的應(yīng)急預(yù)案、政策法規(guī)及應(yīng)急流程進(jìn)行測(cè)試和評(píng)估,發(fā)現(xiàn)缺點(diǎn)和薄弱環(huán)節(jié)并進(jìn)行針對(duì)性改進(jìn);發(fā)現(xiàn)應(yīng)急資源準(zhǔn)備和保障的缺點(diǎn)和薄弱環(huán)節(jié);改進(jìn)各個(gè)環(huán)節(jié)所涉及組織機(jī)構(gòu)之間的協(xié)調(diào)和溝通能力;

以云原生思維拓寬演練領(lǐng)域

分布式云存儲(chǔ)日益復(fù)雜,演練領(lǐng)域的確定,也需要拓寬思路,考慮到諸多傳統(tǒng)架構(gòu)中不存在的不確定因素。比如,機(jī)器高負(fù)載、網(wǎng)絡(luò)異常、磁盤IO、節(jié)點(diǎn)調(diào)度等故障,以及云平臺(tái)自身的資源、應(yīng)用服務(wù)、容器以及基礎(chǔ)設(shè)施各環(huán)節(jié)導(dǎo)致的問題。

以國(guó)內(nèi)某云存儲(chǔ)為例,分析云存儲(chǔ)相關(guān)的各層次下常見故障場(chǎng)景:

QQ截圖20211119092508.png

基于上述的故障場(chǎng)景,云存儲(chǔ)的容錯(cuò)機(jī)制通常包括:

云磁盤緩存

將數(shù)據(jù)緩存在云磁盤中,對(duì)常用的數(shù)據(jù)進(jìn)行備份,因此,當(dāng)用戶再次訪問同一數(shù)據(jù)時(shí),就從緩存中訪問,大大縮短了訪問時(shí)間。在云存儲(chǔ)容災(zāi)中,將數(shù)據(jù)信息緩存在容災(zāi)系統(tǒng)中,可以實(shí)現(xiàn)對(duì)數(shù)據(jù)的備份和快速恢復(fù)。

其中,數(shù)據(jù)容災(zāi)的緩存技術(shù),通常有2種實(shí)現(xiàn)方式:

第一,本地容災(zāi)磁盤的飽和計(jì)算,該種方法是指通過對(duì)單位時(shí)間內(nèi)數(shù)據(jù)恢復(fù)的次數(shù)進(jìn)行統(tǒng)計(jì)與計(jì)算,替換恢復(fù)次數(shù)較少的數(shù)據(jù)塊;

第二,對(duì)異地?cái)?shù)據(jù)信息的恢復(fù)計(jì)算,所謂的異地?cái)?shù)據(jù)信息恢復(fù)計(jì)算是指,通過單位時(shí)間內(nèi)數(shù)據(jù)塊恢復(fù)的次數(shù)確定是否對(duì)異地?cái)?shù)據(jù)塊進(jìn)行替換。

映射技術(shù)

映射技術(shù)在一般情況下對(duì)云磁盤和程序管理之間形成的映射關(guān)系進(jìn)行處理,它是完成信息儲(chǔ)存的主要技術(shù),映射關(guān)系的出現(xiàn)導(dǎo)致了數(shù)據(jù)的自動(dòng)遷移,而自動(dòng)遷移是由一種指令的觸發(fā)而形成的自動(dòng)化操作,如:數(shù)據(jù)的自動(dòng)保存、復(fù)制和粘貼、刪除。

當(dāng)云磁盤遭到損壞后,將映射技術(shù)應(yīng)用到數(shù)據(jù)容災(zāi)中,容災(zāi)系統(tǒng)就會(huì)自動(dòng)接收到該項(xiàng)指令,并對(duì)相關(guān)數(shù)據(jù)進(jìn)行映射操作。在使用映射技術(shù)時(shí),還可對(duì)磁盤的透明進(jìn)行替換,建立云存儲(chǔ)環(huán)境,然后在云存儲(chǔ)環(huán)境中將映射的數(shù)據(jù)進(jìn)行多項(xiàng)復(fù)制和備份到容災(zāi)系統(tǒng)中,同時(shí),為了避免磁盤的損壞導(dǎo)致數(shù)據(jù)的永久不可還原性,在數(shù)據(jù)備份的過程中可以同時(shí)創(chuàng)建多個(gè)副本。

存儲(chǔ)鏈路冗余

由于數(shù)據(jù)容災(zāi)系統(tǒng)涉及主節(jié)點(diǎn)與冗余備份節(jié)點(diǎn),因此將它們連接起來的互聯(lián)技術(shù)在容災(zāi)中十分重要。目前,主節(jié)點(diǎn)與冗余備份節(jié)點(diǎn)之間的連接主要是光纖通道連接,主要是基于SAN的遠(yuǎn)程復(fù)制,即通過光纖通道FC,把2個(gè)SAN連接起來,進(jìn)行遠(yuǎn)程復(fù)制。當(dāng)災(zāi)難發(fā)生時(shí),由備份數(shù)據(jù)中心替代主數(shù)據(jù)中心保證系統(tǒng)工作的連續(xù)性,這種遠(yuǎn)程容災(zāi)備份方式存在的一些缺陷是:實(shí)現(xiàn)成本高,設(shè)備的互操作性差。

數(shù)據(jù)連續(xù)性保護(hù)(CDP)

Continuous Data Protection(CDP)是一個(gè)實(shí)時(shí)的數(shù)據(jù)備份系統(tǒng),它自動(dòng)將應(yīng)用數(shù)據(jù)的所有變化實(shí)時(shí)記錄下來。它的關(guān)鍵是將每一個(gè)應(yīng)用數(shù)據(jù)的變化加上了時(shí)間索引。這樣,當(dāng)出現(xiàn)數(shù)據(jù)丟失、數(shù)據(jù)損壞或者安全問題時(shí),就可能恢復(fù)到最近的完好數(shù)據(jù)。CDP技術(shù)不斷進(jìn)步,在數(shù)據(jù)損耗的情況下,其允許快速的數(shù)據(jù)恢復(fù),并把數(shù)據(jù)還原到生命周期任一指定點(diǎn)。

三、云存儲(chǔ)演練流程及應(yīng)急預(yù)案的建立

完善演練程序流程

目前在傳統(tǒng)架構(gòu)的應(yīng)急演練流程中,企業(yè)已意識(shí)到應(yīng)急演練的重要作用,希望通過演練提升自身的應(yīng)急響應(yīng)能力。然而在云存儲(chǔ)也缺少規(guī)范化的演練程序,容易出現(xiàn)演練方案不合理、演練腳本不細(xì)致、人員培訓(xùn)不到位、保障準(zhǔn)備不充分等問題,導(dǎo)致云存儲(chǔ)的演練質(zhì)量達(dá)不到預(yù)期要求。針對(duì)此問題,應(yīng)針對(duì)云架構(gòu)的特點(diǎn),探討演練持續(xù)改進(jìn)方法和流程,設(shè)計(jì)一套演練程序管理體系,實(shí)現(xiàn)從規(guī)劃、設(shè)計(jì)、實(shí)施到評(píng)估和改進(jìn)的全方位管理,逐步完善云存儲(chǔ)的應(yīng)急演練流程,使其更有效地驗(yàn)證應(yīng)急預(yù)案的科學(xué)性、可行性、有效性。

評(píng)估IaaS層、PaaS層是否健壯

通過模擬底層的基礎(chǔ)設(shè)施或者平臺(tái)資源負(fù)載,驗(yàn)證調(diào)度系統(tǒng)的有效性;模擬依賴的分布式存儲(chǔ)不可用,驗(yàn)證系統(tǒng)的容錯(cuò)能力;模擬調(diào)度節(jié)點(diǎn)不可用,測(cè)試調(diào)度任務(wù)是否自動(dòng)遷移到可用節(jié)點(diǎn);模擬主備節(jié)點(diǎn)故障,測(cè)試主備切換是否正常。

衡量容器及微服務(wù)的容錯(cuò)能力

通過模擬調(diào)用延遲、服務(wù)不可用、機(jī)器資源滿載等,查看發(fā)生故障的節(jié)點(diǎn)或?qū)嵗欠癖蛔詣?dòng)隔離、下線,流量調(diào)度是否正確,預(yù)案是否有效,同時(shí)觀察系統(tǒng)整體的QPS或RT是否受影響。在此基礎(chǔ)上可以緩慢增加故障節(jié)點(diǎn)范圍,驗(yàn)證上游服務(wù)限流降級(jí)、熔斷等是否有效。最終故障節(jié)點(diǎn)增加到請(qǐng)求服務(wù)超時(shí),估算系統(tǒng)容錯(cuò)紅線,衡量系統(tǒng)容錯(cuò)能力。

驗(yàn)證容器編排配置是否合理

通過模擬殺服務(wù)Pod、殺節(jié)點(diǎn)、增大Pod資源負(fù)載,觀察系統(tǒng)服務(wù)可用性,驗(yàn)證副本配置、資源限制配置以及Pod下部署的容器是否合理。

驗(yàn)證監(jiān)控告警的時(shí)效性

通過對(duì)系統(tǒng)注入故障,驗(yàn)證監(jiān)控指標(biāo)是否準(zhǔn)確,監(jiān)控維度是否完善,告警閾值是否合理,告警是否快速,告警接收人是否正確,通知渠道是否可用等,提升監(jiān)控告警的準(zhǔn)確和時(shí)效性。

豐富演練場(chǎng)景,創(chuàng)建基于云存儲(chǔ)的應(yīng)急預(yù)案

演練場(chǎng)景可以說是業(yè)務(wù)連續(xù)性預(yù)案中最為核心的內(nèi)容。在云架構(gòu)模式下,針對(duì)云存儲(chǔ)的演練場(chǎng)景,根據(jù)每個(gè)故障領(lǐng)域確定演練場(chǎng)景,每個(gè)場(chǎng)景下設(shè)置演練模板和腳本。再發(fā)起演練階段,只需要選擇好演練場(chǎng)景,即可發(fā)起。

云存儲(chǔ)故障演練可適用于以下典型場(chǎng)景:

1、云存儲(chǔ)部署在不同的云平臺(tái)或者混合云(包括公共云及專有云)場(chǎng)景中,兩朵云同時(shí)提供服務(wù),災(zāi)難場(chǎng)景下進(jìn)行快速切換,需要統(tǒng)一的容災(zāi)管控并確保數(shù)據(jù)一致性。

2、不同類型的云存儲(chǔ)設(shè)備,包括文件存儲(chǔ)、對(duì)象存儲(chǔ)、塊存儲(chǔ)。

針對(duì)不同類型的云存儲(chǔ)類型及故障場(chǎng)景建立不同的應(yīng)急預(yù)案:

場(chǎng)景一:云存儲(chǔ)集群中,單臺(tái)設(shè)備故障無法正常使用

使用技術(shù):數(shù)據(jù)連續(xù)性保護(hù)技術(shù)(CDP)

RPO=1Day(可恢復(fù)1天前的備份副本);RTO=2-3Hour(200G數(shù)據(jù)需恢復(fù)需10Min)。

業(yè)務(wù)恢復(fù)步驟:

選擇存儲(chǔ)卷及備份副本,完成云存儲(chǔ)及業(yè)務(wù)恢復(fù)。

場(chǎng)景二:云服務(wù)中的文件存儲(chǔ)誤刪除或丟失

使用技術(shù):云磁盤緩存技術(shù)

RPO=1Day(可恢復(fù)1天前的文件);RTO=30Min-2Hour(200G數(shù)據(jù)需恢復(fù)需10Min)。

業(yè)務(wù)恢復(fù)步驟:

選擇虛擬機(jī)及備份副本,確認(rèn)丟失文件的路徑,選擇恢復(fù)的目標(biāo),完成丟失文件的恢復(fù)。

場(chǎng)景三:對(duì)象存儲(chǔ)損壞或丟失

使用技術(shù):備份一體機(jī)DP進(jìn)行恢復(fù)

RPO=1Day(可恢復(fù)1天前的文件);RTO=30Min-2Hour(200G數(shù)據(jù)需恢復(fù)需10Min)。

業(yè)務(wù)恢復(fù)步驟:

選擇數(shù)據(jù)庫副本文件進(jìn)行數(shù)據(jù)恢復(fù),恢復(fù)后確保數(shù)據(jù)完整性及數(shù)據(jù)庫可用性。

場(chǎng)景四:核心業(yè)務(wù)系統(tǒng)發(fā)生宕機(jī)無法快速恢復(fù)

使用技術(shù):通過RP技術(shù)進(jìn)行恢復(fù)

RPO=30sec;RTO=5min。

業(yè)務(wù)恢復(fù)步驟:

選擇相應(yīng)的時(shí)間點(diǎn),進(jìn)行容災(zāi)切換,將備機(jī)直接開啟,并確認(rèn)業(yè)務(wù)是否可以使用。

四、總結(jié)

云存儲(chǔ)的演練場(chǎng)景是整個(gè)演練體系中非常重要的環(huán)節(jié),將同業(yè)務(wù)系統(tǒng)的所有云磁盤放置在一致性組下,業(yè)務(wù)恢復(fù)時(shí)選擇測(cè)試選項(xiàng)。容災(zāi)恢復(fù)軟件會(huì)將一致性組下災(zāi)備的業(yè)務(wù)系統(tǒng)全部開啟,并允許讀寫,同時(shí)將這些虛機(jī)放置在一個(gè)孤立的網(wǎng)絡(luò)下,確保不會(huì)對(duì)生產(chǎn)環(huán)境造成影響。然后由業(yè)務(wù)人員對(duì)災(zāi)備的業(yè)務(wù)系統(tǒng)進(jìn)行測(cè)試,確保災(zāi)備業(yè)務(wù)系統(tǒng)的可用。

針對(duì)云存儲(chǔ)的應(yīng)急切換演練能夠顯著減少和預(yù)防企業(yè)在云架構(gòu)模式下發(fā)生安全事件,成為企業(yè)在數(shù)字化轉(zhuǎn)型時(shí)代,構(gòu)建業(yè)務(wù)連續(xù)性方面需要考慮的重要環(huán)節(jié),也是減少損失和影響的重要手段之一,受到各行業(yè)的高度重視。然而與IT傳統(tǒng)架構(gòu)在應(yīng)急演練方面的所具備的成熟體系和經(jīng)驗(yàn)相比,在云架構(gòu)模式下,對(duì)云存儲(chǔ)的應(yīng)急演練起步較晚且存在眾多不足,亟需從標(biāo)準(zhǔn)體系、演練領(lǐng)域、演練流程、演練形式、人才等角度進(jìn)行完善、創(chuàng)新,實(shí)現(xiàn)工業(yè)信息安全事件應(yīng)急處置能力的有效提升。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無評(píng)論