從事互聯(lián)網(wǎng)運(yùn)維的那些發(fā)展方向

全棧生涯
運(yùn)維人員對公司互聯(lián)網(wǎng)所依賴的基礎(chǔ)設(shè)施、基礎(chǔ)服務(wù)、線上業(yè)務(wù)進(jìn)行穩(wěn)定性加強(qiáng),進(jìn)行日常巡檢發(fā)現(xiàn)服務(wù)可能存在的隱患,對整體架構(gòu)進(jìn)行優(yōu)化以屏蔽常見的運(yùn)行故障。多數(shù)據(jù)中心接入提高業(yè)務(wù)的容災(zāi)能力,通過監(jiān)控、日志分析等技術(shù)手段,及時發(fā)現(xiàn)和響應(yīng)服務(wù)故障,減少服務(wù)中斷的時間,使公司的互聯(lián)網(wǎng)業(yè)務(wù)符合預(yù)期的可用性要求,持續(xù)穩(wěn)定地為用戶提供服務(wù)。

運(yùn)維人員對公司互聯(lián)網(wǎng)所依賴的基礎(chǔ)設(shè)施、基礎(chǔ)服務(wù)、線上業(yè)務(wù)進(jìn)行穩(wěn)定性加強(qiáng),進(jìn)行日常巡檢發(fā)現(xiàn)服務(wù)可能存在的隱患,對整體架構(gòu)進(jìn)行優(yōu)化以屏蔽常見的運(yùn)行故障。多數(shù)據(jù)中心接入提高業(yè)務(wù)的容災(zāi)能力,通過監(jiān)控、日志分析等技術(shù)手段,及時發(fā)現(xiàn)和響應(yīng)服務(wù)故障,減少服務(wù)中斷的時間,使公司的互聯(lián)網(wǎng)業(yè)務(wù)符合預(yù)期的可用性要求,持續(xù)穩(wěn)定地為用戶提供服務(wù)。那么互聯(lián)網(wǎng)運(yùn)維都有哪些發(fā)展方向呢?你是否找到了自己的職業(yè)賽道?

一、系統(tǒng)運(yùn)維

負(fù)責(zé)IDC、網(wǎng)絡(luò)、CDN和基礎(chǔ)服務(wù)的建設(shè)(LVS、NTP、DNS);負(fù)責(zé)資產(chǎn)管理、服務(wù)器選型、交付和維修。

IDC數(shù)據(jù)中心建設(shè),收集業(yè)務(wù)需求,預(yù)估未來數(shù)據(jù)中心的發(fā)展規(guī)模,從骨干網(wǎng)的分布、數(shù)據(jù)中心的建筑、internet接入、網(wǎng)絡(luò)攻擊防御能力、擴(kuò)容能力、空間預(yù)留、外接專線能力、現(xiàn)場服務(wù)支撐能力等方面評估選型數(shù)據(jù)中心。負(fù)責(zé)數(shù)據(jù)中心的建設(shè)、現(xiàn)場維護(hù)工作。

網(wǎng)絡(luò)建設(shè),設(shè)計(jì)及規(guī)劃生產(chǎn)網(wǎng)絡(luò)架構(gòu),包括數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)、傳輸網(wǎng)架構(gòu)、CDN網(wǎng)絡(luò)架構(gòu)等,以及網(wǎng)絡(luò)調(diào)優(yōu)等日常工作。

LVS負(fù)載均衡和SNAT建設(shè),LVS是整個站點(diǎn)架構(gòu)中的流量入口,根據(jù)網(wǎng)絡(luò)規(guī)模和業(yè)務(wù)需求,構(gòu)建負(fù)載均衡集群,完成網(wǎng)絡(luò)與業(yè)務(wù)服務(wù)器的銜接,提供高性能、高可用的負(fù)載調(diào)度能力,以及統(tǒng)一的網(wǎng)絡(luò)層防攻擊能力;SNAT集中提供數(shù)據(jù)中心的公網(wǎng)訪問網(wǎng)絡(luò),通過集群化部署,保證出網(wǎng)服務(wù)的高性能與高可用。

CDN規(guī)劃與建設(shè),CDN工作劃分為第三方和自建兩部分。建立第三方CDN的選型和調(diào)度控制;根據(jù)業(yè)務(wù)發(fā)展趨勢,規(guī)劃CDN新節(jié)點(diǎn)建設(shè)布局;完善CDN業(yè)務(wù)及監(jiān)控,保障CDN系統(tǒng)穩(wěn)定、高效運(yùn)行;分析業(yè)務(wù)加速頻道的文件特性和數(shù)量,制定最優(yōu)的加速策略和資源匹配;負(fù)責(zé)用戶劫持CDN日常故障排查工作。

服務(wù)器選型、交付和維護(hù),負(fù)責(zé)服務(wù)器的測試選型,包括服務(wù)器整機(jī)、部件的基礎(chǔ)性測試和業(yè)務(wù)測試,降低整機(jī)功耗,提升機(jī)架部署密度等。結(jié)合對公司業(yè)務(wù)的了解,推廣新硬件、新方案減少業(yè)務(wù)的服務(wù)器投入規(guī)模。負(fù)責(zé)服務(wù)器硬件故障的診斷定位、服務(wù)器硬件監(jiān)控、健康檢查工具的開發(fā)和維護(hù)。

OS、內(nèi)核選型和OS相關(guān)維護(hù)工作,負(fù)責(zé)整體平臺的os選型、定制和內(nèi)核優(yōu)化,以及patch的更新和內(nèi)部版本發(fā)布;建立基礎(chǔ)的yum包管理和分發(fā)中心,提供常用包版本庫;跟進(jìn)日常各類os相關(guān)故障;針對不同的業(yè)務(wù)類型,提供定向的優(yōu)化支持。

資產(chǎn)管理,記錄和管理運(yùn)維相關(guān)的基礎(chǔ)物理信息,包括數(shù)據(jù)中心、網(wǎng)絡(luò)、機(jī)柜、服務(wù)器、ACL、IP等各種資源信息,制定有效的流程,確保信息的準(zhǔn)確性;開放API接口,為自動化運(yùn)維提供數(shù)據(jù)支持。

基礎(chǔ)服務(wù)建設(shè),業(yè)務(wù)對DNS、NTP、Syslog等基礎(chǔ)服務(wù)的依賴非常高,需要設(shè)計(jì)高可用架構(gòu)避免單點(diǎn),提供穩(wěn)定的基礎(chǔ)服務(wù)。

二、應(yīng)用運(yùn)維

負(fù)責(zé)線上服務(wù)的變更、服務(wù)狀態(tài)監(jiān)控、服務(wù)容災(zāi)和數(shù)據(jù)備份等工作,對服務(wù)進(jìn)行例行排查、故障應(yīng)急處理等工作。

設(shè)計(jì)評審,在產(chǎn)品研發(fā)階段,參與產(chǎn)品設(shè)計(jì)評審,從運(yùn)維的角度提出評審意見,使服務(wù)滿足運(yùn)維準(zhǔn)入的高可用要求。

服務(wù)管理,負(fù)責(zé)制定線上業(yè)務(wù)升級變更及回滾方案,并進(jìn)行變更實(shí)施。掌握所負(fù)責(zé)的服務(wù)及服務(wù)間關(guān)聯(lián)關(guān)系、服務(wù)依賴的各種資源。能發(fā)現(xiàn)服務(wù)上缺陷,及時通報并推進(jìn)解決。制定服務(wù)穩(wěn)定性指標(biāo)及準(zhǔn)入標(biāo)準(zhǔn),同時不斷完善和優(yōu)化程序和系統(tǒng)的功能、效率,提高運(yùn)行質(zhì)量。完善監(jiān)控內(nèi)容,提供報警準(zhǔn)確度。在線上服務(wù)出現(xiàn)故障時,第一時間響應(yīng),對已知線上故障能按流程進(jìn)行通報并按預(yù)案執(zhí)行,未知故障組織相關(guān)人員聯(lián)合排障。

資源管理,對各服務(wù)的服務(wù)器進(jìn)行資產(chǎn)管理,梳理服務(wù)器資源狀況、數(shù)據(jù)中心分布情況、網(wǎng)絡(luò)專線及帶寬情況,能夠合理使用服務(wù)器資源,根據(jù)不同服務(wù)要求,分配不同配置的服務(wù)器,確保服務(wù)器資源的充分利用。

例行檢查,制定服務(wù)例行排查點(diǎn),并不斷完善。根據(jù)制定的服務(wù)排查點(diǎn),對服務(wù)進(jìn)行定期檢查。對排查過程中發(fā)現(xiàn)的問題,及時進(jìn)行追查,排除可能存在的隱患。

預(yù)案管理,確定服務(wù)所需的各項(xiàng)監(jiān)控、系統(tǒng)指標(biāo)的閾值或臨界點(diǎn),以及出現(xiàn)該情況后的處理預(yù)案。建立和更新服務(wù)預(yù)案文檔,并根據(jù)日常故障情況不斷補(bǔ)充完善,提高預(yù)案完備性。能制定和評審各類預(yù)案,周期性進(jìn)行預(yù)案演練,確保預(yù)案的可執(zhí)行性。

數(shù)據(jù)備份,指定數(shù)據(jù)備份策略,按規(guī)范進(jìn)行數(shù)據(jù)備份工作。保證數(shù)據(jù)備份的可用性和完整性,定期開展數(shù)據(jù)恢復(fù)性測試。

三、數(shù)據(jù)庫運(yùn)維

負(fù)責(zé)數(shù)據(jù)庫存儲方案設(shè)計(jì)、數(shù)據(jù)庫表設(shè)計(jì)、索引設(shè)計(jì)和SQL優(yōu)化,對數(shù)據(jù)庫進(jìn)行變更、監(jiān)控、備份、高可用設(shè)計(jì)等工作。

設(shè)計(jì)評審,在產(chǎn)品研發(fā)初始階段,參與設(shè)計(jì)方案評審,從DBA角度提出數(shù)據(jù)庫存儲方案、庫表設(shè)計(jì)方案、SQL開發(fā)標(biāo)準(zhǔn)、索引設(shè)計(jì)方案等,使服務(wù)滿足數(shù)據(jù)庫使用的高可用、高性能的要求。

容量規(guī)劃,掌握所負(fù)責(zé)服務(wù)的數(shù)據(jù)庫的容量上限,清楚地了解當(dāng)前瓶頸點(diǎn),當(dāng)服務(wù)還未達(dá)到容量上限時,及時進(jìn)行優(yōu)化、分拆或擴(kuò)容。

數(shù)據(jù)備份或?yàn)?zāi)備,制定數(shù)據(jù)備份與災(zāi)備策略,定期完成數(shù)據(jù)恢復(fù)性測試,保證數(shù)據(jù)備份的可用性和完整性。

數(shù)據(jù)庫監(jiān)控,完善數(shù)據(jù)庫存活和性能監(jiān)控,及時了解數(shù)據(jù)庫運(yùn)行狀態(tài)及故障。

數(shù)據(jù)庫安全,建設(shè)數(shù)據(jù)庫賬號體系,嚴(yán)格控制賬號權(quán)限與開放范圍,降低誤操作和數(shù)據(jù)泄露的風(fēng)險;加強(qiáng)離線備份的數(shù)據(jù)管理,降低數(shù)據(jù)泄露風(fēng)險。

數(shù)據(jù)庫高可用和性能優(yōu)化,對數(shù)據(jù)庫單點(diǎn)風(fēng)險和故障設(shè)計(jì)相應(yīng)的切換方案,降低故障對數(shù)據(jù)庫服務(wù)的影響;不斷對數(shù)據(jù)庫整體性能進(jìn)行優(yōu)化,包括新存儲方案引進(jìn)、硬件優(yōu)化、文件系統(tǒng)優(yōu)化、數(shù)據(jù)庫優(yōu)化、SQL優(yōu)化等,在保障成本不增加或少量增加的情況下,數(shù)據(jù)庫可以支撐更多的業(yè)務(wù)請求。

自動化系統(tǒng)建設(shè),設(shè)計(jì)開發(fā)數(shù)據(jù)庫自動化運(yùn)維系統(tǒng),包括數(shù)據(jù)庫部署、自動擴(kuò)容、分庫分表、權(quán)限管理、備份恢復(fù)、SQL審核和上限、故障切換等功能。

四、運(yùn)維研發(fā)

負(fù)責(zé)通用的運(yùn)維平臺設(shè)計(jì)和研發(fā)工作,如資產(chǎn)管理、監(jiān)控系統(tǒng)、運(yùn)維平臺、數(shù)據(jù)權(quán)限管理系統(tǒng)等。提供各種API供運(yùn)維或研發(fā)人員使用,封裝更高層的自動化運(yùn)維系統(tǒng)。

運(yùn)維平臺,記錄和管理服務(wù)及其關(guān)聯(lián)關(guān)系,協(xié)助運(yùn)維人員自動化、流程化完成日常運(yùn)維操作,包括機(jī)器管理、重啟、改名、初始化、域名管理、流量切換和故障預(yù)案實(shí)施等。

監(jiān)控系統(tǒng),負(fù)責(zé)監(jiān)控系統(tǒng)的設(shè)計(jì)、開發(fā)工作,完成公司服務(wù)器和各種網(wǎng)絡(luò)設(shè)備的資源指標(biāo)、線上業(yè)務(wù)運(yùn)行指標(biāo)的收集、告警、存儲、分析、展示和數(shù)據(jù)挖掘等工作,持續(xù)提高告警的及時性、準(zhǔn)確性和智能性,促進(jìn)公司服務(wù)器資源的合理化調(diào)配。

自動化部署系統(tǒng),參與部署自動化系統(tǒng)的開發(fā),負(fù)責(zé)自動化部署系統(tǒng)所需要的基礎(chǔ)數(shù)據(jù)和信息,負(fù)責(zé)權(quán)限管理、API開發(fā)、Web端開發(fā)。結(jié)合云計(jì)算、研發(fā)和提供PaaS相關(guān)高可用平臺,進(jìn)一步提高服務(wù)的部署速度和用戶體驗(yàn),提升資源利用率。

五、運(yùn)維安全

負(fù)責(zé)網(wǎng)絡(luò)、系統(tǒng)和業(yè)務(wù)等方面的安全加固工作,進(jìn)行常規(guī)的安全掃描、滲透測試,進(jìn)行安全工具和系統(tǒng)研發(fā)以及安全事件應(yīng)急處理。

安全制度的建立,根據(jù)公司內(nèi)部的具體流程,制定切實(shí)可行,且行之有效的安全制度。

安全培訓(xùn),定期向員工提供具有針對性的安全培訓(xùn)和考核,在全公司內(nèi)建立安全負(fù)責(zé)人制度。

風(fēng)險評估,通過黑白盒測試和檢查機(jī)制,定期產(chǎn)生對物理網(wǎng)絡(luò)、服務(wù)器、業(yè)務(wù)應(yīng)用、用戶數(shù)據(jù)等方面總體風(fēng)險評估結(jié)果。

安全建設(shè),根據(jù)風(fēng)險評估結(jié)果,加固最薄弱的環(huán)節(jié),包括設(shè)計(jì)安全防線、部署安全設(shè)備、及時更新補(bǔ)丁、防御病毒、源代碼自動掃描和業(yè)務(wù)產(chǎn)品安全咨詢等。為了降低可能泄露數(shù)據(jù)的價值,通過加密、匿名化、混淆數(shù)據(jù)、乃至定期刪除等技術(shù)手段和流程達(dá)到目的。

安全合規(guī),為了滿足例如支付牌照等合規(guī)性要求,安全團(tuán)隊(duì)承擔(dān)著安全合規(guī)的對外接口人工作。

應(yīng)急響應(yīng),建立安全報警系統(tǒng),通過安全中心收集第三方發(fā)現(xiàn)的安全問題,組織各部門對已經(jīng)發(fā)現(xiàn)的安全問題進(jìn)行修復(fù)、影響面評估、事后安全原因追查。

THEEND

最新評論(評論僅代表用戶觀點(diǎn))

更多
暫無評論