IT運維,到底是做什么的?

達內教育
運維人員對公司互聯(lián)網(wǎng)業(yè)務所依賴的基礎設施、基礎服務、線上業(yè)務進行穩(wěn)定性加強,進行日常巡檢發(fā)現(xiàn)服務可能存在的隱患,對整體架構進行優(yōu)化以屏蔽常見的運行故障,多數(shù)據(jù)中接入提高業(yè)務的容災能力。

互聯(lián)網(wǎng)運維工作,以服務為中心,以穩(wěn)定、安全、高效為三個基本點,確保公司的互聯(lián)網(wǎng)業(yè)務能夠7×24小時為用戶提供高質量的服務。

運維人員對公司互聯(lián)網(wǎng)業(yè)務所依賴的基礎設施、基礎服務、線上業(yè)務進行穩(wěn)定性加強,進行日常巡檢發(fā)現(xiàn)服務可能存在的隱患,對整體架構進行優(yōu)化以屏蔽常見的運行故障,多數(shù)據(jù)中接入提高業(yè)務的容災能力。

運維人員需要保障公司提供的互聯(lián)網(wǎng)業(yè)運行在安全、可控的狀態(tài)下,確保公司業(yè)務數(shù)據(jù)和用戶隱私數(shù)據(jù)的安全,同時還需要具備抵御各種惡意攻擊的能力。

同時,還需要通過各種工具平臺提升內部產(chǎn)品發(fā)布交付的效率,提升公司內運維相關的工作效率。

運維工作分類

運維的工作方向比較多,隨著業(yè)務規(guī)模的不斷發(fā)展,越成熟的互聯(lián)網(wǎng)公司,運維崗位會劃分得越細。

當前很多大型的互聯(lián)網(wǎng)公司,在初創(chuàng)時期只有系統(tǒng)運維,隨著服務規(guī)模、服務質量的要求,也逐漸進行了工作細分。

一般情況下運維團隊的工作分類和職責如下。

系統(tǒng)運維

系統(tǒng)運維負責IDC、網(wǎng)絡、CDN和基礎服務的建設(LVS、NTP、DNS);負責資產(chǎn)管理,服務器選型、交付和維修。詳細的工作職責如下。

1.IDC數(shù)據(jù)中心建設

收集業(yè)務需求,預估未來數(shù)據(jù)中心的發(fā)展規(guī)模,從骨干網(wǎng)的分布,數(shù)據(jù)中心建筑,以及Internet接入、網(wǎng)絡攻擊防御能力、擴容能力、空間預留、外接專線能力、現(xiàn)場服務支撐能力等方面評估選型數(shù)據(jù)中心。負責數(shù)據(jù)中心的建設、現(xiàn)場維護工作。

2.網(wǎng)絡建設

設計及規(guī)劃生產(chǎn)網(wǎng)絡架構,這里面包括:數(shù)據(jù)中心網(wǎng)絡架構、傳輸網(wǎng)架構、CDN網(wǎng)絡架構等,以及網(wǎng)絡調優(yōu)等日常運維工作。

3.LVS負載均衡和SNAT建設

LVS是整個站點架構中的流量入口,根據(jù)網(wǎng)絡規(guī)模和業(yè)務需求,構建負載均衡集群。完成網(wǎng)絡與業(yè)務服務器的銜接,提供高性能、高可用的負載調度能力,以及統(tǒng)一的網(wǎng)絡層防攻擊能力。SNAT.集中提供數(shù)據(jù)中心的公網(wǎng)訪問服務,通過集群化部署,保證出網(wǎng)服務的高性能與高可用。

4.CDN規(guī)劃和建設

CDN工作劃分為第三方和自建兩部分。建立第三方CDN的選型和調度控制;根據(jù)業(yè)務發(fā)展趨勢,規(guī)劃CDN新節(jié)點建設布局;完善CDN業(yè)務及監(jiān)控,保障CDN系統(tǒng)穩(wěn)定、高效運行。分析業(yè)務加速頻道的文件特性和數(shù)量,制定最優(yōu)的加速策略和資源匹配;負責用戶劫持等CDN日常故障排查工作。

5.服務器選型、交付和維護

負責服務器的測試選型,包含服務器整機、部件的基礎性測試和業(yè)務測試,降低整機功率,提升機架部署密度等。

結合對公司業(yè)務的了解,推廣新硬件、新方案減少業(yè)務的服務器投入規(guī)模。負責服務器硬件故障的診斷定位,服務器硬件監(jiān)控、健康檢查工具的開發(fā)和維護。

6.OS、內核選型和OS相關維護工作

負責整體平臺的OS選型、定制和內核優(yōu)化,以及Patch的更新和內部版本發(fā)布;建立基礎的YUM包管理和分發(fā)中心,提供常用包版本庫;跟進日常各類OS相關故障;針對不同的業(yè)務類型,提供定向的優(yōu)化支持。

7.資產(chǎn)管理

記錄和管理運維相關的基礎物理信息,包括數(shù)據(jù)中心、網(wǎng)絡、機柜、服務器、ACL、IP等各種資源信息,制定有效的流程,確保信息的準確性;開放API接口,為自動化運維提供數(shù)據(jù)支持。

8.基礎服務建設

業(yè)務對DNS、NTP、SYSLOG等基礎服務的依賴非常高,需要設計高可用架構避免單點,提供穩(wěn)定的基礎服務。

應用運維

應用運維負責線上服務的變更、服務狀態(tài)監(jiān)控、服務容災和數(shù)據(jù)備份等工作,對服務進行例行排查、故障應急處理等工作。詳細的工作職責如下所述。

1.設計評審

在產(chǎn)品研發(fā)階段,參與產(chǎn)品設計評審,從運維的角度提出評審意見,使服務滿足運維準入的高可用要求。

2.服務管理

負責制定線上業(yè)務升級變更及回滾方案,并進行變更實施。掌握所負責的服務及服務間關聯(lián)關系、服務依賴的各種資源。能夠發(fā)現(xiàn)服務上的缺陷,及時通報并推進解決。制定服務穩(wěn)定性指標及準入標準,同時不斷完善和優(yōu)化程序和系統(tǒng)的功能、效率,提高運行質量。完善監(jiān)控內容,提高報警準確度。在線上服務出現(xiàn)故障時,第一時間響應,對已知線上故障能按流程進行通報并按預案執(zhí)行,未知故障組織相關人員聯(lián)合排障。

3.資源管理

對各服務的服務器資產(chǎn)進行管理,梳理服務器資源狀況、數(shù)據(jù)中心分布情況、網(wǎng)絡專線及帶寬情況,能夠合理使用服務器資源,根據(jù)不同服務的需求,分配不同配置的服務器,確保服務器資源的充分利用。

4.例行檢查

制定服務例行排查點,并不斷完善。根據(jù)制定的服務排查點,對服務進行定期檢查。對排查過程中發(fā)現(xiàn)的問題,及時進行追查,排除可能存在的隱患。

5.預案管理

確定服務所需的各項監(jiān)控、系統(tǒng)指標的閾值或臨界點,以及出現(xiàn)該情況后的處理預案。建立和更新服務預案文檔,并根據(jù)日常故障情況不斷補充完善,提高預案完備性。能夠制定和評審各類預案,周期性進行預案演練,確保預案的可執(zhí)行性。

6.數(shù)據(jù)備份

制定數(shù)據(jù)備份策略,按規(guī)范進行數(shù)據(jù)備份工作。保證數(shù)據(jù)備份的可用性和完整性,定期開展數(shù)據(jù)恢復性測試。

數(shù)據(jù)庫運維

數(shù)據(jù)庫運維負責數(shù)據(jù)存儲方案設計、數(shù)據(jù)庫表設計、索引設計和SQL優(yōu)化,對數(shù)據(jù)庫進行變更、監(jiān)控、備份、高可用設計等工作。詳細的工作職責如下所述。

1.設計評審

在產(chǎn)品研發(fā)初始階段,參與設計方案評審,從DBA的角度提出數(shù)據(jù)存儲方案、庫表設計方案、SQL開發(fā)標準、索引設計方案等,使服務滿足數(shù)據(jù)庫使用的高可用、高性能要求。

2.容量規(guī)劃

掌握所負責服務的數(shù)據(jù)庫的容量上限,清楚地了解當前瓶頸點,當服務還未到達容量上限時,及時進行優(yōu)化、分拆或者擴容。

3.數(shù)據(jù)備份與災備

制定數(shù)據(jù)備份與災備策略,定期完成數(shù)據(jù)恢復性測試,保證數(shù)據(jù)備份的可用性和完整性。

4.數(shù)據(jù)庫監(jiān)控

完善數(shù)據(jù)庫存活和性能監(jiān)控,及時了解數(shù)據(jù)庫運行狀態(tài)及故障。數(shù)據(jù)庫安全建設數(shù)據(jù)庫賬號體系,嚴格控制賬號權限與開放范圍,降低誤操作和數(shù)據(jù)泄露的風險;加強離線備份數(shù)據(jù)的管理,降低數(shù)據(jù)泄露的風險。

5.數(shù)據(jù)庫高可用和性能優(yōu)化

對數(shù)據(jù)庫單點風險和故障設計相應的切換方案,降低故障對數(shù)據(jù)庫服務的影響;不斷對數(shù)據(jù)庫整體性能進行優(yōu)化,包括新存儲方案引進、硬件優(yōu)化、文件系統(tǒng)優(yōu)化、數(shù)據(jù)庫優(yōu)化、SQL優(yōu)化等,在保障成本不增加或者少量增加的情況下,數(shù)據(jù)庫可以支撐更多的業(yè)務請求。

6.自動化系統(tǒng)建設

設計開發(fā)數(shù)據(jù)庫自動化運維系統(tǒng),包括數(shù)據(jù)庫部署、自動擴容、分庫分表、權限管理、備份恢復、SQL審核和上線、故障切換等功能。

7.運維研發(fā)

運維研發(fā)負責通用的運維平臺設計和研發(fā)工作,如:資產(chǎn)管理、監(jiān)控系統(tǒng)、運維平臺、數(shù)據(jù)權限管理系統(tǒng)等。提供各種API供運維或研發(fā)人員使用,封裝更高層的自動化運維系統(tǒng)。詳細的工作職責如下所述。

8.運維平臺

記錄和管理服務及其關聯(lián)關系,協(xié)助運維人員自動化、流程化地完成日常運維操作,包括機器管理、重啟、改名、初始化、域名管理、流量切換和故障預案實施等。

9.監(jiān)控系統(tǒng)

負責監(jiān)控系統(tǒng)的設計、開發(fā)工作,完成公司服務器和各種網(wǎng)絡設備的資源指標、線上業(yè)務運行指標的收集、告警、存儲、分析、展示和數(shù)據(jù)挖掘等工作,持續(xù)提高告警的及時性、準確性和智能性,促進公司服務器資源的合理化調配。

10.自動化部署系統(tǒng)

參與部署自動化系統(tǒng)的開發(fā),負責自動化部署系統(tǒng)所需要的基礎數(shù)據(jù)和信息,負責權限管理、API開發(fā)、Web端開發(fā)。結合云計算,研發(fā)和提供PaaS相關高可用平臺,進一步提高服務的部署速度和用戶體驗,提升資源利用率。

運維安全

運維安全負責網(wǎng)絡、系統(tǒng)和業(yè)務等方面的安全加固工作,進行常規(guī)的安全掃描、滲透測試,進行安全工具和系統(tǒng)研發(fā)以及安全事件應急處理。詳細的工作職責如下所述。

1.安全制度建立

根據(jù)公司內部的具體流程,制定切實可行,且行之有效的安全制度。

2.安全培訓

定期向員工提供具有針對性的安全培訓和考核,在全公司內建立安全負責人制度。

3.風險評估

通過黑白盒測試和檢查機制,定期產(chǎn)生對物理網(wǎng)絡、服務器、業(yè)務應用、用戶數(shù)據(jù)等方面的總體風險評估結果。

4.安全建設

根據(jù)風險評估結果,加固最薄弱的環(huán)節(jié),包括設計安全防線、部署安全設備、及時更新補丁、防御病毒、源代碼自動掃描和業(yè)務產(chǎn)品安全咨詢等。為了降低可能泄露數(shù)據(jù)的價值,通過加密、匿名化、混淆數(shù)據(jù),乃至定期刪除等技術手段和流程來達到目的。

5.安全合規(guī)

為了滿足例如支付牌照等合規(guī)性要求,安全團隊承擔著安全合規(guī)的對外接口人工作。

6.應急響應

建立安全報警系統(tǒng),通過安全中心收集第三方發(fā)現(xiàn)的安全問題,組織各部門對已經(jīng)發(fā)現(xiàn)的安全問題進行修復、影響面評估、事后安全原因追查。

運維工作發(fā)展過程

我們將運維發(fā)展過程劃分為4個階段:

在整個運維的發(fā)展過程中,希望所有的工作都自動化起來,減少人的重復工作,降低知識傳遞的成本,使我們的運維交付更高效、更安全,使產(chǎn)品運行更穩(wěn)定。對于故障的處理,也希望由事后處理變成提前發(fā)現(xiàn),由人工處理變成系統(tǒng)自動容災。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論