系統(tǒng)運(yùn)維中網(wǎng)絡(luò)的規(guī)劃、操作、工具與故障診斷

系統(tǒng)運(yùn)維建立在網(wǎng)絡(luò)的基礎(chǔ)之上,如果沒(méi)有一個(gè)相對(duì)合理的網(wǎng)絡(luò)架構(gòu),恐怕系統(tǒng)運(yùn)維做起來(lái)也不是那么的順手。一個(gè)公司基本上都會(huì)把網(wǎng)絡(luò)和服務(wù)器獨(dú)立開(kāi)來(lái),劃分不同的區(qū)域擺放設(shè)備,很多時(shí)候都是物理隔離。服務(wù)器接入交換機(jī)大多是經(jīng)過(guò)配線架連接起來(lái)和有的服務(wù)器機(jī)柜頭柜安裝網(wǎng)絡(luò)交換機(jī),是相對(duì)比較常見(jiàn)的兩種方式。

運(yùn)維是一門藝術(shù),也是一門苦差事,每個(gè)人對(duì)此均有不同的理解,正所謂一千個(gè)人眼中有一千個(gè)哈姆雷特。干一行就要愛(ài)一行,既然選擇了這個(gè)行業(yè),最好是能把它做到最好,發(fā)揮自己最大的價(jià)值。本文來(lái)聊聊在日常運(yùn)維當(dāng)中涉及網(wǎng)絡(luò)的方方面面。

分為以下四個(gè)方面:

一、系統(tǒng)運(yùn)維網(wǎng)絡(luò)方面的規(guī)劃和思考

二、系統(tǒng)運(yùn)維中網(wǎng)絡(luò)方面操作梳理

三、系統(tǒng)運(yùn)維過(guò)程中需要掌握的利器

四、故障的診斷與分析

同時(shí)也將分享一些具有參考意義的經(jīng)驗(yàn)和方法。

一、系統(tǒng)運(yùn)維中網(wǎng)絡(luò)方面的規(guī)劃與思考

在很多公司,崗位職責(zé)都是很明確的,專職轉(zhuǎn)崗,每人或者每組負(fù)責(zé)一塊業(yè)務(wù)。系統(tǒng)運(yùn)維崗基本上在IT架構(gòu)上相對(duì)偏后一些,該崗位和網(wǎng)絡(luò)管理崗基本上是平行的。因?yàn)榻裉煸蹅冋f(shuō)的是系統(tǒng)運(yùn)維方面網(wǎng)絡(luò)方面的事情,或多或少都會(huì)和網(wǎng)絡(luò)崗打交道,那么談一點(diǎn)網(wǎng)絡(luò)崗的內(nèi)容就顯得很有必要。

系統(tǒng)運(yùn)維建立在網(wǎng)絡(luò)的基礎(chǔ)之上,如果沒(méi)有一個(gè)相對(duì)合理的網(wǎng)絡(luò)架構(gòu),恐怕系統(tǒng)運(yùn)維做起來(lái)也不是那么的順手。一個(gè)公司基本上都會(huì)把網(wǎng)絡(luò)和服務(wù)器獨(dú)立開(kāi)來(lái),劃分不同的區(qū)域擺放設(shè)備,很多時(shí)候都是物理隔離。服務(wù)器接入交換機(jī)大多是經(jīng)過(guò)配線架連接起來(lái)和有的服務(wù)器機(jī)柜頭柜安裝網(wǎng)絡(luò)交換機(jī),是相對(duì)比較常見(jiàn)的兩種方式。

2345截圖20211028093243.png

走線從側(cè)面可以反映一個(gè)企業(yè)對(duì)IT的重視程度和投入,很多企業(yè)是做不到如圖這么漂亮的效果的。這一切一切還要立足于預(yù)算,現(xiàn)在基本上沒(méi)有預(yù)算啥事也干不了。

大多數(shù)IT機(jī)房當(dāng)初建立的時(shí)候,從設(shè)備混亂擺放到區(qū)域明確劃分存放,又從區(qū)域功能明確到后來(lái)的后來(lái)的功能區(qū)域模糊,都反映了一個(gè)問(wèn)題:計(jì)劃趕不上變化。十年前還相當(dāng)前衛(wèi)的規(guī)劃,到現(xiàn)在已經(jīng)跟不上時(shí)代,這并不是誰(shuí)的錯(cuò),還是要求我們?nèi)ミm應(yīng)去改變,業(yè)務(wù)引領(lǐng)變革,基礎(chǔ)架構(gòu)也需要做相應(yīng)調(diào)整,所謂唯一不變的就是變。

我心中企業(yè)目前現(xiàn)階段相對(duì)比較理想的架構(gòu)這樣的,如圖所示:

2345截圖20211028093243.png

這樣一個(gè)傳統(tǒng)企業(yè)典型的網(wǎng)絡(luò)結(jié)構(gòu),保證每個(gè)核心節(jié)點(diǎn)都是雙鏈路,鏈路異常自動(dòng)切換,各種切換在這種典型的網(wǎng)絡(luò)結(jié)構(gòu)上都或多或少的簡(jiǎn)單或復(fù)雜,不盡相同。網(wǎng)絡(luò)方面關(guān)注幾個(gè)點(diǎn):穩(wěn)定,安全,自動(dòng)化。業(yè)務(wù)系統(tǒng)組件也盡量避免單點(diǎn)問(wèn)題。

這樣后端業(yè)務(wù)系統(tǒng)在連接網(wǎng)絡(luò)層面穩(wěn)定性就有了保障,在主機(jī)系統(tǒng)層面,盡量避免單獨(dú)問(wèn)題,消除性能瓶頸,異常能夠自動(dòng)告警自動(dòng)修復(fù)得相對(duì)比較完美,當(dāng)然這一切還要立足于預(yù)算。

二、系統(tǒng)運(yùn)維中網(wǎng)絡(luò)方面操作梳理

在系統(tǒng)運(yùn)維中,經(jīng)常涉及的網(wǎng)絡(luò)方面的操作,一般由以下幾個(gè)方面組成。

1.設(shè)備上線,物理連線設(shè)置

很多運(yùn)維人員要從事從剛開(kāi)始立項(xiàng)到項(xiàng)目上線再到后期運(yùn)維的一條龍服務(wù),每個(gè)環(huán)節(jié)都要自己親自動(dòng)手,這是好事也是壞事,好的是自己的環(huán)境一般會(huì)非常的熟悉,不好的是事必躬親,不出活,業(yè)績(jī)不明顯。插個(gè)線都要自己來(lái),你恐怕也沒(méi)太多精力干其他的,這就是個(gè)矛盾體,自己把握就好。

2.網(wǎng)絡(luò)邏輯配置調(diào)整

這一塊內(nèi)容就涉及到了具體的操作,你可以手工一步一步操作,也可以借助高大上的工具批量完成,這個(gè)要看企業(yè)的IT建設(shè)的能力。一個(gè)掩碼一個(gè)點(diǎn)錯(cuò)誤都會(huì)導(dǎo)致網(wǎng)絡(luò)連接異常。如果自己有開(kāi)發(fā)能力也可以使用腳本或語(yǔ)言寫(xiě)成成型的東西,平時(shí)多多積累,使用的時(shí)候就會(huì)方便很多。

具體內(nèi)容涉及:

1)配置ip,別名,設(shè)置個(gè)端口監(jiān)聽(tīng),綁定個(gè)網(wǎng)卡,設(shè)置個(gè)路由

2)劃分個(gè)vlan,配置個(gè)trunk

3)測(cè)試個(gè)端口,配置個(gè)監(jiān)控

具體的操作過(guò)程在此不做過(guò)多的介紹,比如做個(gè)網(wǎng)卡綁定啊,測(cè)試個(gè)端口啊,這些操作網(wǎng)上有大批的文檔可以查閱,本節(jié)內(nèi)容就是描述在日常的Linux系統(tǒng)運(yùn)維方面所涉及網(wǎng)絡(luò)方面的操作,有一個(gè)整體的印象。

3.性能分析與優(yōu)化

該部分內(nèi)容相對(duì)不太容易操作,不是隨隨便都可以依葫蘆畫(huà)瓢就能完成,性能穩(wěn)定分析和定位相對(duì)困難一些,很多場(chǎng)景都需要結(jié)合多個(gè)方面進(jìn)行統(tǒng)一分析。這個(gè)需要一些工作經(jīng)驗(yàn)的結(jié)論和沉淀,選擇合適的工具,多方面配合往往會(huì)有比較好的效果。

工欲善其事,必先利其器:

2345截圖20211028093243.png

熟練掌握該圖上面的各種工具,基本上可以解決性能分析99%的工作,那剩下的1%的不是bug就是天災(zāi)。這里其實(shí)在說(shuō)笑了,但這也說(shuō)明一個(gè)好的工具有多么的重要。剩余就是要仔細(xì)認(rèn)真,再好的工具,不會(huì)用也不行,態(tài)度是第一位的。

三、系統(tǒng)運(yùn)維過(guò)程中需要掌握的利器

在上文中分享了一個(gè)圖,該圖涵蓋的面比較廣,本節(jié)內(nèi)容主要針對(duì)網(wǎng)絡(luò)方面進(jìn)行一些梳理,分享一下在工作當(dāng)中經(jīng)常使用的利器。

首先我們來(lái)分享一張目前Linux系統(tǒng)性能查看調(diào)優(yōu)工具圖:

2345截圖20211028093243.png

這張圖片基本上涵蓋了Linux系統(tǒng)各個(gè)方面的性能工具,可以說(shuō)相當(dāng)?shù)娜?,下面我們看一下有關(guān)網(wǎng)絡(luò)方面我們常用的命令或工具有哪些,這樣有助于大家方便查看和使用。

2345截圖20211028093243.png

以上工具基本上在日常工作當(dāng)中經(jīng)常會(huì)使用到,每個(gè)工具都有其側(cè)重點(diǎn),這里列舉的只是大量工具中的一小部分,因?yàn)槊總€(gè)人使用習(xí)慣不一樣,各有側(cè)重,選擇適合自己就好,以上工具僅供參考。

本文內(nèi)容意在梳理分享,不在具體的工具使用方面做更加深入的講解,因?yàn)槊恳粋€(gè)工具如果詳細(xì)講起來(lái)都會(huì)涉及大量篇幅,也不可能面面俱到,有興趣的可以在社區(qū)或搜索引擎搜索之。

推薦小工具:

Dig,ethtool,iperf,iftop,dstat,mtr

比如在你想知道兩個(gè)主機(jī)之間的帶寬是否能夠到達(dá)相應(yīng)的帶寬,請(qǐng)使用iperf。想動(dòng)態(tài)的查看目的地是否可到以及延遲等信息,請(qǐng)使用mtr。

四、故障的診斷與分析

故障診斷處理方面不是一兩句話就可以說(shuō)清楚的,很大程度上在于平時(shí)經(jīng)驗(yàn)的積累,很多故障都是相互關(guān)聯(lián)的,如何順藤摸瓜,找到問(wèn)題的最終原因,有一些方法可以借鑒。這里不具體描述解決那個(gè)問(wèn)題用了什么方法,只是聊聊解決問(wèn)題有哪些經(jīng)驗(yàn)和技巧。

分享一點(diǎn)小小的經(jīng)驗(yàn):

a)平時(shí)要多問(wèn)幾個(gè)為什么

b)故障是否可以重現(xiàn),找到第一個(gè)場(chǎng)景,關(guān)注整體結(jié)合細(xì)節(jié)

c)多方面相互參考,同事之間相互配合

d)可以多做幾個(gè)假設(shè),直到推翻自己的想法

e)自己的工具箱要有幾個(gè)使用順手的TOOLS,包括自己開(kāi)發(fā)的

以上只是一些解決問(wèn)題的方法,具體問(wèn)題還要具體分析。

下面我們結(jié)合一個(gè)真實(shí)的案例來(lái)描述一下:在出現(xiàn)網(wǎng)絡(luò)故障時(shí),。我們?nèi)绾蜗朕k法快速的排除問(wèn)題。

場(chǎng)景描述:

某日下午,公司里內(nèi)部的業(yè)務(wù)系統(tǒng)突然出現(xiàn)反應(yīng)比較慢的問(wèn)題,多個(gè)業(yè)務(wù)管理員過(guò)來(lái)描述問(wèn)題現(xiàn)象。近期一段時(shí)間內(nèi)曾出現(xiàn)過(guò)類似的問(wèn)題,該類問(wèn)題的原因是由于業(yè)務(wù)區(qū)的防火墻老舊,處理能力不足,導(dǎo)致CPU在短時(shí)間內(nèi)使用率激增,超過(guò)了境界閾值很多,導(dǎo)致此類現(xiàn)象的發(fā)生。

解決思路:

1)初步定位

又是類似問(wèn)題的出現(xiàn),肯定不是個(gè)別業(yè)務(wù)系統(tǒng)的問(wèn)題,一看就是有共性的,問(wèn)題應(yīng)該是出現(xiàn)在網(wǎng)絡(luò)設(shè)備上才對(duì),這樣才會(huì)造成大面積的問(wèn)題,可是該防火墻一周前已經(jīng)升級(jí)換代了,不應(yīng)該有此類問(wèn)題了。查看業(yè)務(wù)區(qū)域拓?fù)?,因?yàn)橥負(fù)湟呀?jīng)在心中,直接搞起。

2)逐步排查

首先登錄新的防火墻,查看CPU使用率,一切正常,看來(lái)問(wèn)題不在此。

然后登錄業(yè)務(wù)系統(tǒng)去交換機(jī)查看負(fù)載,一看果然是高,高達(dá)99%,我勒個(gè)去,配合網(wǎng)絡(luò)管理員查看問(wèn)題原因,查看各種性能信息,初步?jīng)]有太合理的線索,不能精準(zhǔn)定位問(wèn)題。收集各種信息準(zhǔn)備發(fā)給廠商支持。

3)協(xié)助排查

多方回憶近期有無(wú)做過(guò)其他操作。

網(wǎng)絡(luò)方面:一周前升級(jí)換代該區(qū)域防護(hù)墻

主機(jī)方面:昨天接入6太新設(shè)備,并做端口綁定bond

4)再次排查

由于該區(qū)域Windows主機(jī)設(shè)備均已經(jīng)安裝殺毒軟件,病毒的可能性不大,Linux病毒可能性就更小了,先初步忽略。由于昨天上線6個(gè)主機(jī)設(shè)備,著重觀察網(wǎng)絡(luò)設(shè)備所連接端口,

通過(guò)交換機(jī)和監(jiān)控性能視圖分析該端口今天出現(xiàn)流量過(guò)大的問(wèn)題,端口飽和。由于影響業(yè)務(wù)面比較廣,需要快速定位問(wèn)題或者暫時(shí)消除影響。初步意見(jiàn),交換機(jī)上線shutdown這6臺(tái)機(jī)器所連端口。持續(xù)觀察了一段時(shí)間,交換機(jī)CPU負(fù)載下來(lái)了,其他業(yè)務(wù)逐漸恢復(fù)。考慮到已經(jīng)下班,暫時(shí)觀察一下,明天看情況再做調(diào)整。并結(jié)合一下廠商意見(jiàn)。

5)第二日上班后,6臺(tái)機(jī)器業(yè)務(wù)恢復(fù),交換機(jī)CPU負(fù)載又上來(lái)了,但是其他業(yè)務(wù)沒(méi)有影響,什么情況?再次進(jìn)行梳理,找問(wèn)題線索。

6)進(jìn)一步排查

網(wǎng)絡(luò)管理員打開(kāi)debug查看信息,經(jīng)過(guò)一段時(shí)間的分析梳理發(fā)現(xiàn)有12個(gè)mac地址頻繁的在兩臺(tái)交換機(jī)來(lái)回出現(xiàn),核對(duì)mac后,可以定位引起CPU過(guò)載的原因是這新上線的6臺(tái)機(jī)器(每臺(tái)機(jī)器兩個(gè)端口bond),果斷拔掉其中一個(gè)端口,交換機(jī)CPU負(fù)載很快下來(lái),那么就可以能定位bond綁定有問(wèn)題。

7)系統(tǒng)進(jìn)一步排查

我做了很多次bond了,就算這次換了一個(gè)高版本操作系統(tǒng)應(yīng)該也沒(méi)有問(wèn)題啊,果斷檢查之,查看綁定模式,一看模式為0,當(dāng)時(shí)一驚,不應(yīng)該啊。進(jìn)一步查看確實(shí)是模式配置錯(cuò)誤了,當(dāng)初我想設(shè)定的是模式6,后來(lái)不知道怎么寫(xiě)成0了,以為其他機(jī)器都是拷貝過(guò)去的,所以都是模式0了,立馬改之。重啟網(wǎng)卡,一切看似正常,重新插入網(wǎng)線觀察交換機(jī)CPU負(fù)載很穩(wěn)定。這次CPU高應(yīng)該是這個(gè)引起的無(wú)疑了,這個(gè)鍋扣到我腦袋上了。

8)下午14:00,問(wèn)題又出現(xiàn)了,這次交換機(jī)的cpu也不高了,什么情況,一臉懵逼的狀態(tài)。

再次排查,這次聚焦交換機(jī),收集大量信息反饋給廠商,很快廠商給出的建議說(shuō)是端口飽和丟包嚴(yán)重,影響了其他業(yè)務(wù)端口的正常使用,經(jīng)過(guò)廠商進(jìn)一步排查確認(rèn),該型號(hào)交換機(jī)雖然以前性能很好,但是已經(jīng)屬于老舊設(shè)備,該型號(hào)端口組背板能力只有1G,該組其他端口帶寬總和已經(jīng)超過(guò)了1G,屬于交換機(jī)處理能力不足。

9)進(jìn)一步協(xié)調(diào)該項(xiàng)目人員,調(diào)整大量交互端口成內(nèi)網(wǎng)私有網(wǎng)段,單獨(dú)使用一個(gè)千兆交換機(jī)做內(nèi)部業(yè)務(wù)交互使用,外部訪問(wèn)還繼續(xù)走這個(gè)交換機(jī)。最終這個(gè)問(wèn)題得到解決。

總結(jié):

此次事件引出三個(gè)問(wèn)題:

1.端口綁定不可馬虎,需要仔細(xì)再仔細(xì),并做驗(yàn)證

2.預(yù)估業(yè)務(wù)端口網(wǎng)絡(luò)流量不足,主機(jī)設(shè)備連線分配不合理

3.交換機(jī)老舊,處理能力不足

后續(xù)應(yīng)該針對(duì)此類事情多多的總結(jié),升級(jí)換代產(chǎn)品,深入了解業(yè)務(wù)特性。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無(wú)評(píng)論