存儲(chǔ)性能的監(jiān)控分析及四種優(yōu)化手段

存儲(chǔ)性能直接影響應(yīng)用性能,應(yīng)用需要進(jìn)行持續(xù)優(yōu)化,提高業(yè)務(wù)支撐能力。同時(shí),存儲(chǔ)也需要進(jìn)行持續(xù)優(yōu)化,提高對(duì)應(yīng)用程序性能的支持能力,這對(duì)存儲(chǔ)管理員人員在運(yùn)維過程中,利用監(jiān)控?cái)?shù)據(jù)進(jìn)行存儲(chǔ)優(yōu)化的能力提出了更多要求。本文介紹了四種常見手段。

本文來自微信公眾號(hào)“twt企業(yè)IT社區(qū)”,哲哲蛙,某城商行技術(shù)經(jīng)理。

隨著云計(jì)算、大數(shù)據(jù)以及新興的區(qū)塊鏈等技術(shù)體系的迅猛發(fā)展,數(shù)據(jù)中心的擴(kuò)容建設(shè)進(jìn)入高峰期,針對(duì)金融行業(yè)互聯(lián)網(wǎng)金融、云化、容器化、分布式改造等數(shù)字化轉(zhuǎn)型在金融行業(yè)不斷發(fā)展,金融業(yè)務(wù)向移動(dòng)、普惠、敏捷和創(chuàng)新方向發(fā)展,存儲(chǔ)作為關(guān)鍵基礎(chǔ)設(shè)施依然承擔(dān)著非常關(guān)鍵的作用,越來越多的存儲(chǔ)資源逐漸由傳統(tǒng)存儲(chǔ)轉(zhuǎn)化為云存儲(chǔ)。越來越多應(yīng)用運(yùn)行在我們的存儲(chǔ)服務(wù)器上,存儲(chǔ)性能直接影響應(yīng)用性能,應(yīng)用需要進(jìn)行持續(xù)優(yōu)化,提高業(yè)務(wù)支撐能力,同時(shí),存儲(chǔ)也需要進(jìn)行持續(xù)優(yōu)化,提高對(duì)應(yīng)用程序性能的支持能力,這對(duì)存儲(chǔ)管理人員在運(yùn)維過程中,利用監(jiān)控?cái)?shù)據(jù)進(jìn)行存儲(chǔ)優(yōu)化的能力提出了更多要求。

一、存儲(chǔ)性能監(jiān)控和分析

進(jìn)入云服務(wù)時(shí)代后,站在存儲(chǔ)的角度,集中式存儲(chǔ)和分布式存儲(chǔ)并存的云存儲(chǔ)池具備了更強(qiáng)的云化和服務(wù)化特性,提供云存儲(chǔ)的最終存儲(chǔ)的形態(tài)包括集中式存儲(chǔ)和分布式存儲(chǔ)兩種。無論是集中式還是分布式存儲(chǔ),存儲(chǔ)的監(jiān)控通常關(guān)注存儲(chǔ)的硬件和集群指標(biāo)監(jiān)控,硬件監(jiān)控關(guān)注存儲(chǔ)設(shè)備的物理構(gòu)件有沒有出現(xiàn)故障損壞,而性能指標(biāo)監(jiān)控是存儲(chǔ)服務(wù)器服務(wù)能力的直觀體現(xiàn),用戶可以通過性能指標(biāo)了解系統(tǒng)的運(yùn)行狀態(tài),數(shù)據(jù)中心內(nèi)部的存儲(chǔ)使用量和讀寫速度。我們可以將存儲(chǔ)監(jiān)控分為存儲(chǔ)性能監(jiān)控、存儲(chǔ)系統(tǒng)監(jiān)控及存儲(chǔ)設(shè)備監(jiān)控。

存儲(chǔ)性能監(jiān)控方面,塊存儲(chǔ)通常監(jiān)控塊的讀寫速率、IOPS、讀寫延遲、磁盤使用量等;文件存儲(chǔ)通常監(jiān)控文件系統(tǒng)inode、讀寫速度、目錄權(quán)限等。分布式存儲(chǔ)系列通過開放接口與上層云管平臺(tái)集成,上層云管平臺(tái)可以通過相關(guān)接口對(duì)存儲(chǔ)系統(tǒng)資源(比如存儲(chǔ)集群資源、存儲(chǔ)池、卷等)進(jìn)行監(jiān)控管理。分布式存儲(chǔ)系統(tǒng)監(jiān)控方面,不同的存儲(chǔ)系統(tǒng)有不同的指標(biāo),包含集群基本信息監(jiān)控、性能監(jiān)控等。集群基本信息監(jiān)控主要查看包括集群管理服務(wù)、狀態(tài)、節(jié)點(diǎn)信息、節(jié)點(diǎn)進(jìn)程信息等,集群性能監(jiān)控主要查看CPU利用率、內(nèi)存利用率、帶寬、IOPS、時(shí)延、磁盤利用率、存儲(chǔ)池利用率統(tǒng)計(jì)。

存儲(chǔ)的硬件監(jiān)控通常通過存儲(chǔ)設(shè)備自檢能力可以體現(xiàn),例如機(jī)頭、磁盤、端口等屬于易損件,我們可以通過存儲(chǔ)的自帶監(jiān)控界面以及告警燈發(fā)現(xiàn)問題。此外也需要關(guān)注環(huán)境和系統(tǒng)關(guān)鍵溫度點(diǎn)監(jiān)控,對(duì)環(huán)境溫度和系統(tǒng)內(nèi)的關(guān)鍵溫度點(diǎn)都進(jìn)行了實(shí)時(shí)監(jiān)控,會(huì)根據(jù)各監(jiān)控點(diǎn)的信息,對(duì)風(fēng)扇進(jìn)行動(dòng)態(tài)調(diào)速,保證系統(tǒng)及各組件工作在正常的溫度范圍內(nèi)。當(dāng)由于環(huán)境溫度增高或者器件異常,風(fēng)扇調(diào)速無法保證系統(tǒng)或者組件工作在正常范圍時(shí),存儲(chǔ)系統(tǒng)持續(xù)高溫,容易導(dǎo)致部件損壞。

獲取了存儲(chǔ)的監(jiān)控?cái)?shù)據(jù)后,存儲(chǔ)管理員可以周期性的對(duì)健康監(jiān)控?cái)?shù)據(jù)進(jìn)行分析,對(duì)于監(jiān)控?cái)?shù)據(jù),我們要形成一定的運(yùn)行基線,如果存儲(chǔ)設(shè)備監(jiān)控?cái)?shù)據(jù)在基線基礎(chǔ)上持續(xù)攀升,或者達(dá)到存儲(chǔ)能支撐的最大值,則需要引起警惕。例如發(fā)現(xiàn)CPU性能持續(xù)升高或者高位運(yùn)行,則需要考慮存儲(chǔ)機(jī)頭處理能力可能會(huì)影響IOPS吞吐能力面臨瓶頸,例如發(fā)現(xiàn)緩存命中率低,或者熱數(shù)據(jù)層長時(shí)間使用率非常高,則可能是緩存層的容量不夠用,如果端口持續(xù)告警,可能是存儲(chǔ)的端口帶寬不足等,則通常需要進(jìn)行相應(yīng)的機(jī)頭處理器升級(jí)、緩存容量擴(kuò)容或者端口個(gè)數(shù)或者端口速率的升級(jí)擴(kuò)容,以便化解風(fēng)險(xiǎn)。

二、存儲(chǔ)性能優(yōu)化

存儲(chǔ)性能優(yōu)化工作具有一定的策略性,科學(xué)的優(yōu)化策略才能指導(dǎo)制定更加合理的存儲(chǔ)性能優(yōu)化方案。存儲(chǔ)優(yōu)化可以分為規(guī)劃、交付、維護(hù)幾個(gè)階段的優(yōu)化進(jìn)行闡述,每個(gè)階段可以考慮的方案有一定區(qū)別。

如果是在規(guī)劃階段,需要分析業(yè)務(wù)系統(tǒng)的需求,根據(jù)需求確定交付的方案。需要提前使用性能規(guī)劃工具對(duì)業(yè)務(wù)場(chǎng)景做好性能評(píng)估工作,并根據(jù)評(píng)估結(jié)果匹配硬件配置,如當(dāng)前配置不滿足則需要及時(shí)調(diào)整硬件配置。如業(yè)務(wù)對(duì)性能要求比較高,那么業(yè)務(wù)數(shù)據(jù)應(yīng)該規(guī)劃使用SSD盤,對(duì)性能要求不高的業(yè)務(wù)可以規(guī)劃SAS盤;對(duì)于端口速率規(guī)劃,根據(jù)實(shí)際的業(yè)務(wù)帶寬情況評(píng)估,選擇合適的端口速率。如果是在交付階段,可以根據(jù)產(chǎn)品的最佳實(shí)踐完成從主機(jī)到存儲(chǔ)的標(biāo)準(zhǔn)化配置,比如系統(tǒng)業(yè)務(wù)網(wǎng)絡(luò)和管理網(wǎng)絡(luò)的隔離,交換網(wǎng)絡(luò)使用雙交換的標(biāo)準(zhǔn)冗余組網(wǎng),防止單點(diǎn)故障導(dǎo)致業(yè)務(wù)中斷;如果是在業(yè)務(wù)上線前,需要完成針對(duì)性場(chǎng)景的性能測(cè)試和可靠性測(cè)試,確保端到端的業(yè)務(wù)性能能夠滿足業(yè)務(wù)需求,可靠性滿足冗余標(biāo)準(zhǔn),在各種器件故障或者異常場(chǎng)景能夠正常切換業(yè)務(wù)且不影響上層業(yè)務(wù);如果已經(jīng)進(jìn)入維護(hù)階段,需要定期對(duì)系統(tǒng)做巡檢,及時(shí)識(shí)別系統(tǒng)風(fēng)險(xiǎn)并及時(shí)處理。持續(xù)監(jiān)控存儲(chǔ)性能,并與前期的性能測(cè)試報(bào)告和業(yè)務(wù)性能基線進(jìn)行對(duì)比,提前發(fā)現(xiàn)性能風(fēng)險(xiǎn),提前擴(kuò)容或優(yōu)化硬件配置。

存儲(chǔ)性能分析與優(yōu)化是一項(xiàng)長期、復(fù)雜而重要的工作,需要明晰存儲(chǔ)性能優(yōu)化目標(biāo),做好詳細(xì)性能分析,并制定階段性的優(yōu)化方案和驗(yàn)證方案,以確保存儲(chǔ)性能優(yōu)化工作的持續(xù)開展。

常見的性能優(yōu)化手段包括上層應(yīng)用優(yōu)化、調(diào)整性能負(fù)載、數(shù)據(jù)緩存優(yōu)化、存儲(chǔ)擴(kuò)容優(yōu)化等手段。

2.1上層應(yīng)用優(yōu)化

上層應(yīng)用優(yōu)化手段比較豐富,主要目標(biāo)是減少上層應(yīng)用帶給存儲(chǔ)的IO負(fù)載,比如數(shù)據(jù)傳輸前啟用重復(fù)數(shù)據(jù)刪除或數(shù)據(jù)壓縮;優(yōu)化IO并發(fā),將大量的小IO聚合成大IO;數(shù)據(jù)庫的索引優(yōu)化、SQL語句優(yōu)化。

2.2調(diào)整性能負(fù)載

調(diào)整性能負(fù)載主要針對(duì)的存儲(chǔ)性能熱點(diǎn)問題,方案包括優(yōu)化磁盤分布方式,調(diào)整磁盤負(fù)載;調(diào)整存儲(chǔ)網(wǎng)絡(luò)端口負(fù)載;避免過多的流量集中在存儲(chǔ)的某幾個(gè)端口上,相對(duì)來說容易出現(xiàn)流量集中的是數(shù)據(jù)庫服務(wù)器使用的端口,在進(jìn)行跑批、備份等操作時(shí),容易出現(xiàn)帶寬爭用。調(diào)整存儲(chǔ)控端口負(fù)載,盡量均衡存儲(chǔ)端口的流量。

2.3數(shù)據(jù)緩存優(yōu)化

數(shù)據(jù)緩存是存儲(chǔ)系統(tǒng)中非常重要的性能模塊,一般緩存都采用內(nèi)存或閃存等速度更快的存儲(chǔ)介質(zhì),遠(yuǎn)遠(yuǎn)快于一般的磁盤。很多存儲(chǔ)性能問題都因緩存而起,也經(jīng)緩存優(yōu)化而終結(jié)。數(shù)據(jù)緩存分為客戶端本地緩存和存儲(chǔ)緩存。比如客戶端本地緩存對(duì)于一些分布式文件系統(tǒng)非常重要,增加緩存大小,可以有效提高緩存命中率;存儲(chǔ)的緩存也極為重要,多層級(jí)的數(shù)據(jù)緩存技術(shù)可將熱點(diǎn)數(shù)據(jù)存放在更快的存儲(chǔ)介質(zhì)上,降低存儲(chǔ)延時(shí)。

2.4存儲(chǔ)擴(kuò)容優(yōu)化

如果以上手段都已經(jīng)使用,但是存儲(chǔ)性能瓶頸或容量瓶頸仍然存在,則應(yīng)當(dāng)及時(shí)采取擴(kuò)容,針對(duì)容量瓶頸進(jìn)行磁盤容量擴(kuò)容,IOPS足夠的情況下可以擴(kuò)容大容量硬盤,如果IOPS也不足的時(shí)候,還需要擴(kuò)容緩存層SSD硬盤。針對(duì)性能的不足,可以考慮擴(kuò)容存儲(chǔ)機(jī)頭,存儲(chǔ)的IO端口、升級(jí)端口模塊提升速率等。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無評(píng)論