重構(gòu)分層存儲架構(gòu),化解EB級存儲挑戰(zhàn)

申耀的科技觀察
毫無疑問,我們正在快速邁進數(shù)據(jù)時代的新紀元。根據(jù)IDC 預(yù)測,到2025年,全球數(shù)據(jù)圈將擴展至 163 ZB,相當(dāng)于2016年所產(chǎn)生16.1 ZB數(shù)據(jù)的十倍,這些數(shù)據(jù)在帶來獨特用戶體驗和眾多全新商業(yè)機會的同時,也給企業(yè)提出了前所未有的挑戰(zhàn)。

毫無疑問,我們正在快速邁進數(shù)據(jù)時代的新紀元。根據(jù)IDC 預(yù)測,到2025年,全球數(shù)據(jù)圈將擴展至 163 ZB,相當(dāng)于2016年所產(chǎn)生16.1 ZB數(shù)據(jù)的十倍,這些數(shù)據(jù)在帶來獨特用戶體驗和眾多全新商業(yè)機會的同時,也給企業(yè)提出了前所未有的挑戰(zhàn)。

例如,對于俄羅斯和獨聯(lián)體(CIS)地區(qū)最大的社交網(wǎng)絡(luò)平臺VK而言,其月活用戶就高達9700萬,用戶每日觀看的視頻和照片量達數(shù)百萬級,因此這讓VK的存儲系統(tǒng)“不堪重負”,一方面,基于傳統(tǒng)磁盤的存儲系統(tǒng)已經(jīng)難以應(yīng)對新應(yīng)用日益增長的數(shù)據(jù)存儲與處理需求;另一方面,數(shù)據(jù)存儲就占到了VK一半以上的預(yù)算,降本增效已刻不容緩。

在此背景下,VK和英特爾展開深入合作,基于英特爾傲騰技術(shù)和英特爾NVMe固態(tài)盤,對原有的分層存儲架構(gòu)進行了現(xiàn)代化改造,借助全新數(shù)據(jù)分層架構(gòu),并以2:1的比例整合服務(wù)器,最終讓VK成功節(jié)省數(shù)億美元。

從這個角度來看,VK與英特爾的成功合作,不僅為社交平臺存儲基礎(chǔ)設(shè)施架構(gòu)的改造和升級提供了重要的借鑒和參考,也為眾多的互聯(lián)網(wǎng)企業(yè)未來在新應(yīng)用、新業(yè)務(wù)領(lǐng)域的探索與創(chuàng)新樹立了很好的標桿作用。

EB級存儲新挑戰(zhàn)

創(chuàng)建于2006年的VK,是俄羅斯和獨聯(lián)體(CIS)地區(qū)最大的社交網(wǎng)絡(luò)平臺,其總部設(shè)在一座古香古色的圣彼得堡歷史建筑縫紉機公司大樓之內(nèi),主要用戶均為俄語區(qū)國家人群,俄羅斯用戶占了一半以上,在哈薩克斯坦、白俄羅斯、烏克蘭等東歐鄰國的用戶也不少,排名也都在前五之內(nèi)。

VK過去幾年獲得了迅猛增長,僅在2018-2019年度,VK的月活用戶就為9700 萬,遠高于四年前的6600萬。每一天,VK 用戶查看的帖子高達90億條、觀看的視頻高達6.5億個、發(fā)送的消息高達100億條、點“贊”次數(shù)高達十億次。

統(tǒng)計顯示,在一年的時間里,用戶就上傳了約600PB的新數(shù)據(jù)到VK社交平臺之上,其中包括照片和視頻,而這些數(shù)據(jù)必須永久存儲。同時,在整個VK的存儲系統(tǒng)之中,目前共分布了高達1.1EB的數(shù)據(jù),而EB級存儲無疑給VK帶來了很大的挑戰(zhàn),可以從三個維度來看:

首先,從成本角度看,由于所有數(shù)據(jù)都通過網(wǎng)絡(luò)進行流傳輸,因此數(shù)據(jù)存儲基礎(chǔ)設(shè)施成為VK最大的成本支出也不足為奇。如今,存儲成本已占到VK年度預(yù)算的60%至65%。同時,VK也希望減少服務(wù)器基礎(chǔ)設(shè)施所需的設(shè)備數(shù)量,所以優(yōu)化存儲和整體硬件基礎(chǔ)設(shè)施的TCO成本成為了VK的當(dāng)務(wù)之急。

其次,從架構(gòu)角度看,我們知道存儲有熱數(shù)據(jù)、溫數(shù)據(jù)、冷數(shù)據(jù)以及凍結(jié)數(shù)據(jù)的劃分,其中,熱數(shù)據(jù)指的是最近上傳到網(wǎng)絡(luò)且仍被經(jīng)常訪問的數(shù)據(jù);溫數(shù)據(jù)則是已不再被頻繁訪問的數(shù)據(jù)。通常情況下,溫數(shù)據(jù)是最長一個月前上傳的數(shù)據(jù),而冷數(shù)據(jù)是指很少被訪問的數(shù)據(jù)。

VK在其CDN服務(wù)器上采用的是三層數(shù)據(jù)緩存結(jié)構(gòu),隨著數(shù)據(jù)應(yīng)用的變化,不同的數(shù)據(jù)需要不同的存儲設(shè)備。此前,VK通過CDN服務(wù)商分發(fā)的冷數(shù)據(jù)存儲遍布于俄羅斯的分布式數(shù)據(jù)網(wǎng)絡(luò)中的硬盤上,溫數(shù)據(jù)存儲在SATA固態(tài)盤中,而熱數(shù)據(jù)存儲在DRAM(動態(tài)隨機存取存儲器)中。同時,基于Nginx Web服務(wù)器的數(shù)據(jù)庫服務(wù)器,VK則使用SATA固態(tài)盤和硬盤來存儲數(shù)據(jù),使用DRAM來存儲索引。但由于DRAM非常昂貴,因此VK急需一種更加經(jīng)濟高效的存儲方案,來優(yōu)化和重構(gòu)其存儲分層架構(gòu)。

最后,從服務(wù)角度看,VK還希望進一步提升用戶的使用體驗。目前,VK擁有三個主要的數(shù)據(jù)中心,這些數(shù)據(jù)中心由19000臺服務(wù)器組成,并由30個內(nèi)容分發(fā)網(wǎng)絡(luò) (CDN) 提供支持,以此保證能夠加快最熱數(shù)據(jù)的訪問速度。此外,為滿足各種各樣的用戶設(shè)備需求,VK 還需要為每個圖像存儲多個副本,以長期保存用戶的數(shù)據(jù)。

對此,VK副首席運營官 Roman Podpriatov說:“俄羅斯是一個疆土遼闊的國家,城市之間的距離很遠,因此我們需要出色的CDN 緩存基礎(chǔ)設(shè)施在靠近用戶的位置存儲數(shù)據(jù),以便用戶在使用我們的社交網(wǎng)絡(luò)平臺時能夠獲得良好的體驗。”

不難發(fā)現(xiàn),隨著用戶量的日益激增,VK原有的存儲基礎(chǔ)設(shè)施無論是從成本,架構(gòu)和服務(wù)維度來看,都難以滿足未來發(fā)展的需求。因此,VK迫切需要尋求一種更加高效和經(jīng)濟的方法,以化解EB級存儲所帶來的新挑戰(zhàn)。

重構(gòu)分層存儲架構(gòu)

基于此,VK決定和英特爾合作,并采用英特爾傲騰持久內(nèi)存、英特爾傲騰固態(tài)盤和英特爾非易失性存儲器(NVMe)固態(tài)盤等一系列創(chuàng)新的技術(shù),對VK原有的分層存儲架構(gòu)進行了現(xiàn)代化改造,并以2:1的比例其整合服務(wù)器基礎(chǔ)設(shè)施,最終為VK帶來了“提質(zhì)、增效、降本”的良好效果,具體而言:

一是,在架構(gòu)現(xiàn)代化改造方面,VK將其CDN服務(wù)器中存儲溫數(shù)據(jù)的SATA固態(tài)盤升級為英特爾固態(tài)盤 D5-P4320 系列,將熱數(shù)據(jù)從DRAM遷移到了英特爾傲騰固態(tài)盤 DC P4800X系列。同時,在全新的存儲方案中,溫數(shù)據(jù)則存儲在基于NVMe的英特爾固態(tài)盤 D5-P4320系列上。此外,VK還通過引入英特爾傲騰持久內(nèi)存取代DRAM來處理相關(guān)工作負載,由此降低單位比特成本。

VK 針對CDN服務(wù)器采用的全新存儲解決方案增加了性能更出色的固態(tài)盤來存儲溫數(shù)據(jù),增加了成本更低的快速存儲器來存儲熱數(shù)據(jù)

Podpriatov 表示:“現(xiàn)在,我們可以將熱數(shù)據(jù)和溫數(shù)據(jù)均存儲在固態(tài)盤上,從而減少了我們的DRAM用量。之前我們的固態(tài)盤不夠快,無法為熱數(shù)據(jù)提供良好的用戶體驗,因此我們只能將某些數(shù)據(jù)存儲在 DRAM 中。但通過存儲現(xiàn)代化改造,VK可以將數(shù)據(jù)全部存儲在比內(nèi)存便宜得多的固態(tài)盤之中。”

二是,在數(shù)據(jù)庫索引方面,VK引入了英特爾傲騰持久內(nèi)存來存儲數(shù)據(jù)庫索引,英特爾傲騰持久內(nèi)存具有更強的內(nèi)存尋址能力,可有效提升數(shù)據(jù)庫性能。將數(shù)據(jù)從DRAM遷移到英特爾傲騰持久內(nèi)存,可顯著降低數(shù)據(jù)庫索引的存儲成本。不僅如此,由于數(shù)據(jù)庫本身已從硬盤或SATA固態(tài)盤遷移到英特爾固態(tài)盤 D5-P4320 系列,也有效地提高了VK存儲數(shù)據(jù)庫的性能和存儲密度。

VK 針對數(shù)據(jù)庫服務(wù)器采用的全新存儲解決方案將索引從昂貴的DRAM遷移到了性價比更高的英特爾傲騰持久內(nèi)存

三是,在服務(wù)器整合方面,VK 還將其數(shù)據(jù)庫服務(wù)器和CDN服務(wù)器的處理器,從英特爾至強金牌6230處理器升級為英特爾至強金牌6238處理器,從而更好的提高了存儲和計算性能、優(yōu)化總體擁有成本,并從計算能力中獲得更為出色的每瓦性能。根據(jù)VK 2020年的預(yù)測,通過升級處理器,VK可將計算成本降低一半,將每瓦性能提高 33%。

與使用英特爾至強金牌6230處理器相比,VK 預(yù)計使用英特爾至強金牌6238處理器可節(jié)省的成本情況

四是,在性能優(yōu)化方面,為了進一步優(yōu)化存儲并提高能效,VK 也正在部署采用英特爾Arria 10 GX FPGA的英特爾可編程加速卡(英特爾PAC),并運行CTAccel 圖像處理器工作負載。通過采用低功耗、單槽、半高 PCIe 英特爾 PAC,VK 可在其各類服務(wù)器中輕松部署多個FPGA。

采用英特爾Arria 10 GX FPGA 的英特爾PAC 概念和內(nèi)部視圖

實際上,與在通用處理器上運行的軟件相比,F(xiàn)PGA可以通過提供定制硬件大幅加速應(yīng)用功能,VK可以通過利用 FPGA 的可配置性將高分辨率圖像即時轉(zhuǎn)換為所需的大小和格式。這樣一來,VK 只需要存儲高分辨率圖像,從而減少了總體存儲需求。

根據(jù)VK的評估,通過引入全新的存儲解決方案,可以節(jié)省總計數(shù)億美元的成本。新的存儲解決方案讓VK能夠在 1U 服務(wù)器中存儲高達0.4 PB的數(shù)據(jù),而這只需更少的機架就能存儲相同數(shù)量的數(shù)據(jù),因此這樣也會在空間、供電和散熱方面得以不斷實現(xiàn)成本節(jié)約。

除此之外,通過將數(shù)據(jù)從DRAM轉(zhuǎn)移到固態(tài)盤和英特爾傲騰持久內(nèi)存,VK可以在提供客戶所需的性能的同時降低熱數(shù)據(jù)層存儲成本??梢哉f,相比以前的存儲解決方案相比,現(xiàn)在VK能夠以更低成本獲得更高性能。

值得一提的是,在VK存儲優(yōu)化和改造的過程中,英特爾還全程提供了幫助。正如Podpriatov 所說:“從新產(chǎn)品開發(fā)到實施和生產(chǎn),英特爾團隊一直為我們提供幫助,并和我們分享了路線圖和新技術(shù),這讓我們有機會在生產(chǎn)環(huán)境中實施新技術(shù),了解這些技術(shù)是否適合我們,以及實施這些技術(shù)可以節(jié)省多少成本。”

背后三重價值啟示

總的來說,從VK案例中,我們可以看到英特爾傲騰技術(shù),通過突破存儲和內(nèi)存瓶頸,將前所未有的高容量、經(jīng)濟實用性和持續(xù)性結(jié)合在一起,有效支撐了VK的存儲現(xiàn)代化改造,也讓其業(yè)務(wù)保持了不斷的創(chuàng)新,讓VK可以更加從容的應(yīng)對用戶量的不斷增長,并保持其良好的體驗。而在這背后,其實也給中國的互聯(lián)網(wǎng)用戶帶來了三重價值啟示。

其一,對很多互聯(lián)網(wǎng)用戶而言,隨著業(yè)務(wù)量的不斷保障,傳統(tǒng)的存儲架構(gòu)也到了需要現(xiàn)代化改造的關(guān)鍵時刻,因此依托創(chuàng)新的技術(shù)和產(chǎn)品,充分優(yōu)化數(shù)據(jù)儲存層級,以提升處理和響應(yīng)速度,并降低成本已是當(dāng)務(wù)之急。而英特爾傲騰持久內(nèi)存,基于全新的內(nèi)存和存儲技術(shù),可提供高容量、經(jīng)濟實惠性和持久性,對工作負載和服務(wù)進行優(yōu)化,降低延遲并提高性能,可以說是是冷、溫、熱數(shù)據(jù)存儲與管理的理想選擇。

其二,數(shù)據(jù)庫之于企業(yè)的重要性不言而喻,但過去由于數(shù)據(jù)庫受到存儲和內(nèi)存受限,往往難以承載越來越多新的數(shù)據(jù)。因此,突破內(nèi)存與存儲限制,是幫助系統(tǒng) 性能提升的關(guān)鍵。那么,英特爾傲騰固態(tài)盤,則可以更好的對接英特爾傲騰持久內(nèi)存,其高吞吐量、低延遲、高服務(wù)質(zhì)量 (QoS )和高耐用性等特性,也會高效助力應(yīng)用程序提升運行速度、降低延遲敏感型工作負載的事務(wù)處理成本,并改善數(shù)據(jù)中心的整體TCO。

其三,對于CDN,NFVi等需要更大內(nèi)存,高效存儲和成本可控應(yīng)用來說,英特爾QLC 3D NAND 固態(tài)盤,借助全新設(shè)計的架構(gòu)和 NVME PCIE的加持,也可以更好的提高容量并實現(xiàn)最優(yōu)性價比,加速全閃存儲的普及,極大提升用戶的性能可擴展性。

由此可見,英特爾擁有完整的產(chǎn)品組合,可幫助更多的互聯(lián)網(wǎng)用戶從計算、網(wǎng)絡(luò)到存儲、內(nèi)存和連接等各個關(guān)鍵領(lǐng)域?qū)崿F(xiàn)現(xiàn)代化,從而實現(xiàn)最大的工作負載優(yōu)化性能和更低的總體擁有成本,不僅為企業(yè)未來的創(chuàng)新提供更大的支撐,也將為化解即將到來的EB級存儲新時代夯實關(guān)鍵的基石。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論