鴻雪科技董事長兼CEO鄭乃東:AI加劇網(wǎng)絡(luò)可靠性風(fēng)險,SRE成宕機事件“良藥”

隨著互聯(lián)網(wǎng)軟件功能越來越多,結(jié)構(gòu)越來越復(fù)雜,在日常運營過程中出現(xiàn)問題的概率也會越來越大。一些大型科技公司,如亞馬遜、微軟和谷歌等,每年在系統(tǒng)可靠性上的投入占其整體技術(shù)預(yù)算的15-20%。

本文來自微信公眾號“中國電子報、電子信息產(chǎn)業(yè)網(wǎng)”,作者/宋婧。

近來,全球宕機事件頻發(fā),引發(fā)用戶和業(yè)內(nèi)人士對網(wǎng)絡(luò)穩(wěn)定性與安全性的擔(dān)憂。7月1日,鴻雪科技董事長兼CEO鄭乃東在接受《中國電子報》獨家專訪時表示,隨著大量傳統(tǒng)應(yīng)用變成了互聯(lián)網(wǎng)應(yīng)用,且已深入到工作生活場景中,宕機事件帶來的影響越來越大。推動SRE(網(wǎng)站可靠性工程)是解決可靠性、避免各種宕機的重要路徑。

640.jpg

鴻雪科技董事長兼CEO鄭乃東

宕機事件頻發(fā)加劇系統(tǒng)可靠性擔(dān)憂

4月8日,“騰訊云崩了”沖上熱搜。大量網(wǎng)友反饋,稱騰訊云出現(xiàn)服務(wù)故障,接口響應(yīng)報錯、網(wǎng)頁顯示504錯誤,范圍覆蓋全國各地。6月4日,ChatGPT遭遇近8小時大規(guī)模宕機,包括其網(wǎng)站和應(yīng)用程序在內(nèi)都無法訪問,全球數(shù)百萬用戶受到影響。7月2日,阿里云發(fā)生宕機事件,雖說從發(fā)現(xiàn)故障到解決用時31分鐘,從發(fā)現(xiàn)故障到影響恢復(fù)用時38分鐘,但B站、小紅書、戀與深空、酷安等多家大廠APP均受到波及。

“大家之所以感覺到宕機事件變多了,主要原因是互聯(lián)網(wǎng)應(yīng)用的數(shù)量變多了,像以前的Office和WPS這種單機軟件現(xiàn)在也都連接了云服務(wù),大量傳統(tǒng)應(yīng)用都變成了互聯(lián)網(wǎng)應(yīng)用,僅蘋果商店的互聯(lián)網(wǎng)應(yīng)用數(shù)量就超過200萬個,而且這類互聯(lián)網(wǎng)應(yīng)用已經(jīng)深入到我們的工作生活當(dāng)中,比如微信、嘀嘀、美團、抖音、騰訊會議等,因此我們對宕機的感知也會越來越明顯。”鄭乃東分析說道。

ChatGPT宕機事件

實際上,隨著互聯(lián)網(wǎng)軟件功能越來越多,結(jié)構(gòu)越來越復(fù)雜,在日常運營過程中出現(xiàn)問題的概率也會越來越大。一些大型科技公司,如亞馬遜、微軟和谷歌等,每年在系統(tǒng)可靠性上的投入占其整體技術(shù)預(yù)算的15-20%。而在國內(nèi),很多公司依然存在不重視可靠性、可靠性人才奇缺、沒有可靠性管理、對可靠性認識模糊等問題。

“最要緊的是主觀上的重視程度,不管是云供應(yīng)商、軟件開發(fā)商,還是運維環(huán)節(jié)的服務(wù)廠商等,各方都需要重視線上事故的預(yù)防、發(fā)現(xiàn)、定位、處理、復(fù)盤的全鏈條保障;比如投入專門的資金,設(shè)置專門的崗位來從事可靠性管控方面的工作。”鄭乃東表示。

SRE有望在國內(nèi)市場快速推廣應(yīng)用

SRE全稱是Site Reliability Engineering,指網(wǎng)站可靠性工程,最早由Google提出,旨在提高軟件系統(tǒng)的可用性、低時延、性能、效率、變更管理、監(jiān)控、應(yīng)急響應(yīng)和容量管理等方面的能力。

“SRE主要通過自動化、監(jiān)控、預(yù)防性措施和持續(xù)改進來減少故障發(fā)生的概率,并且降低故障所造成的影響。”鄭乃東向記者介紹說道。首先,SRE能通過監(jiān)控和告警系統(tǒng)提前發(fā)現(xiàn)潛在問題,并快速響應(yīng)和恢復(fù)系統(tǒng)服務(wù);其次,SRE采用軟件工程的方法,與開發(fā)人員緊密合作,倡導(dǎo)構(gòu)建業(yè)務(wù)系統(tǒng)內(nèi)置的可靠性,并在運維過程中使用自動化和標(biāo)準(zhǔn)化的流程,減少人為錯誤,從而進一步提升系統(tǒng)的穩(wěn)定性;此外,通過降低瑣事和持續(xù)優(yōu)化的運營流程,SRE可以減少運維人員的工作負擔(dān),提高運營效率。

近年來,隨著中國互聯(lián)網(wǎng)產(chǎn)業(yè)、云計算快速發(fā)展,系統(tǒng)復(fù)雜性和對可靠性的需求大幅增加,SRE的價值逐漸被廣泛傳播和認可。國內(nèi)互聯(lián)網(wǎng)大廠如百度、阿里巴巴、騰訊、京東等大型互聯(lián)網(wǎng)公司由于業(yè)務(wù)規(guī)模龐大、用戶數(shù)量眾多、系統(tǒng)復(fù)雜度高,率先認識到SRE的重要性,并積極推動SRE的實施。

鄭乃東分析說道:“這些公司需要確保其平臺能夠在高流量情況下穩(wěn)定運行,避免服務(wù)中斷對用戶體驗和公司收入以及聲譽造成的負面影響。因此,SRE成為了它們提升系統(tǒng)可靠性、提高服務(wù)質(zhì)量的重要手段。”

傳統(tǒng)型企業(yè)乃至中小企業(yè)也開始主動關(guān)注,并在生產(chǎn)環(huán)境中應(yīng)用SRE。據(jù)權(quán)威調(diào)研機構(gòu)統(tǒng)計,到2022年,中國約有40%的大型企業(yè)和20%的中小型企業(yè)正在推行SRE實踐,并且這樣的企業(yè)逐年遞增。“未來,隨著技術(shù)的不斷發(fā)展和企業(yè)需求的增加,SRE在全國的應(yīng)用將更加廣泛和深入。”鄭乃東判斷稱。

AI給SRE帶來挑戰(zhàn)與機遇

盡管SRE可以顯著提升系統(tǒng)的可靠性和穩(wěn)定性,但鄭乃東同時也指出,SRE存在局限性,并不能完全消除宕機現(xiàn)象和所有的技術(shù)問題。比如,復(fù)雜的業(yè)務(wù)邏輯問題,SRE主要關(guān)注系統(tǒng)可靠性層面的問題,復(fù)雜的業(yè)務(wù)邏輯錯誤仍需依賴開發(fā)團隊解決。再比如,基礎(chǔ)設(shè)施故障,硬件故障、網(wǎng)絡(luò)中斷等基礎(chǔ)設(shè)施問題可能超出SRE的控制范圍。另外,自然災(zāi)害、突發(fā)事件等不可預(yù)見的災(zāi)難,SRE無法完全避免,但可以通過災(zāi)備方案減小影響。

在他看來,AI的到來既為SRE帶來了新的挑戰(zhàn),也帶來了新的機會。一方面,AI系統(tǒng)本身往往具有很高的復(fù)雜性,復(fù)雜的架構(gòu)與當(dāng)前系統(tǒng)的依賴關(guān)系,使得企業(yè)需要花費很大成本學(xué)習(xí)和駕馭AI技術(shù)。據(jù)調(diào)研,超過60%的企業(yè)認為AI系統(tǒng)的復(fù)雜性是實施過程中最大的挑戰(zhàn)之一。

另一方面,AI系統(tǒng)依賴大量數(shù)據(jù),數(shù)據(jù)質(zhì)量和完整性問題可能導(dǎo)致模型誤差和系統(tǒng)故障,SRE需要通過軟件工程的方法,配合統(tǒng)一的數(shù)據(jù)模型,確保所有管理數(shù)據(jù)管道的穩(wěn)定性和可靠性。利用高質(zhì)量的數(shù)據(jù),才能使AI算法和大模型更加精確和高效。

此外,許多AI應(yīng)用,特別是大語言模型相關(guān)的會話交互型場景里,都需要實時處理和及時響應(yīng)。在一項2023年的研究中,85%的AI應(yīng)用對響應(yīng)時間的要求在毫秒級以內(nèi)。SRE需要確保相關(guān)系統(tǒng)具有足夠的性能和低延遲,以滿足這些實時性要求。

“AI模型管理、數(shù)據(jù)工程、安全性這三點非常重要。”鄭乃東表示。他認為,SRE需要掌握AI模型的部署、監(jiān)控和管理技能,確保模型在生產(chǎn)環(huán)境中的穩(wěn)定性和性能,同時也要增加數(shù)據(jù)工程的能力,確保數(shù)據(jù)、管道的可靠性和數(shù)據(jù)質(zhì)量,以支持AI系統(tǒng)的正常運行。此外,AI系統(tǒng)可能面臨新的安全威脅,SRE還應(yīng)該關(guān)注AI模型和數(shù)據(jù)的安全性,防止內(nèi)部敏感數(shù)據(jù)泄露和受到攻擊。

國內(nèi)SRE產(chǎn)業(yè)生態(tài)建設(shè)亟需提速

隨著新質(zhì)生產(chǎn)力發(fā)展步伐加快,企業(yè)數(shù)字化轉(zhuǎn)型逐漸走向深水區(qū)。在這一過程中,構(gòu)建穩(wěn)定、可靠且高性能的基礎(chǔ)設(shè)施至關(guān)重要。SRE作為基礎(chǔ)設(shè)施戰(zhàn)略的關(guān)鍵組成部分,為業(yè)界提供了實現(xiàn)先進基礎(chǔ)設(shè)施策略的關(guān)鍵思路。

然而,業(yè)內(nèi)人士普遍認為,國內(nèi)SRE產(chǎn)業(yè)生態(tài)建設(shè)仍然面臨人才短缺、技術(shù)積累不足、文化轉(zhuǎn)型難、工具和平臺集成難等多重挑戰(zhàn)。以人才建設(shè)為例,SRE是一個相對較新的領(lǐng)域,具備相關(guān)技能和經(jīng)驗的人才供不應(yīng)求,根據(jù)2023年的數(shù)據(jù)顯示,中國SRE工程師的供需缺口超過30%。這導(dǎo)致企業(yè)在招聘和培養(yǎng)SRE工程師時面臨困難。

640 (1).png

第六期信創(chuàng)工程師高級研修班現(xiàn)場

“相比國外,我國在SRE實踐上的技術(shù)積累相對較少,很多企業(yè)缺乏成熟的SRE實施經(jīng)驗和最佳實踐指導(dǎo)。而與國際上對比,約60%的國外大型企業(yè)已經(jīng)實施了成熟的SRE實踐。”鄭乃東坦言。

為緩解人才短缺的問題,越來越多的培訓(xùn)機構(gòu)正在開設(shè)SRE相關(guān)課程。鴻雪科技便是其中之一。其培訓(xùn)涵蓋了SRE的各個維度,包括自動化、可觀測性、AIOps、平臺工程、高可用、災(zāi)備等,確保學(xué)員能夠全面掌握SRE所需的各項技能。講師團隊皆為行業(yè)內(nèi)資深SRE專家,不僅具備豐富的SRE實踐經(jīng)驗,還參與過許多大型項目的實施,能夠提供深刻的洞見和實用的建議。據(jù)統(tǒng)計,2023年參加了專業(yè)SRE培訓(xùn)的企業(yè)系統(tǒng)可靠性提升20%,運維效率提升15%。

“SRE人才保障了AI以及所有業(yè)務(wù)系統(tǒng)生產(chǎn)環(huán)境的可靠性和性能,通過自動化和可觀測性減少宕機風(fēng)險。他們確保所有服務(wù)在高并發(fā)情況下穩(wěn)定運行,是AI系統(tǒng)和所有其他業(yè)務(wù)的‘守護者’。SRE團隊的存在能夠?qū)⑾到y(tǒng)宕機時間減少50%以上。”鄭乃東強調(diào)。他指出,算法和數(shù)據(jù)提供智能和支持,SRE確保系統(tǒng)可靠運行,三者共同協(xié)作才能實現(xiàn)AI系統(tǒng)的全面成功。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論