零故障平滑遷移核心業(yè)務(wù),小鵬汽車 x86 轉(zhuǎn)向阿里云倚天實例技術(shù)揭秘

生成式AI引發(fā)了計算、開發(fā)、交互范式的全面升級,這既是業(yè)務(wù)創(chuàng)新增長的機會,但同時也讓企業(yè)面臨算力成本壓力。在汽車行業(yè),以端到端大模型量產(chǎn)上車、正在加速走向L4自動駕駛的小鵬汽車,既是領(lǐng)先的國產(chǎn)新能源車廠,也是創(chuàng)新科技公司。2024云棲大會上,小鵬汽車宣布車聯(lián)網(wǎng)、官網(wǎng)、商城、大數(shù)據(jù)等核心業(yè)務(wù)已遷移至阿里云倚天實例,節(jié)省了超過20%的算力成本。

本文來自微信公眾號“CSDN”。

生成式AI引發(fā)了計算、開發(fā)、交互范式的全面升級,這既是業(yè)務(wù)創(chuàng)新增長的機會,但同時也讓企業(yè)面臨算力成本壓力。在汽車行業(yè),以端到端大模型量產(chǎn)上車、正在加速走向L4自動駕駛的小鵬汽車,既是領(lǐng)先的國產(chǎn)新能源車廠,也是創(chuàng)新科技公司。2024云棲大會上,小鵬汽車宣布車聯(lián)網(wǎng)、官網(wǎng)、商城、大數(shù)據(jù)等核心業(yè)務(wù)已遷移至阿里云倚天實例,節(jié)省了超過20%的算力成本。

我們都知道阿里云倚天實例基于平頭哥半導(dǎo)體自研Arm架構(gòu)通用服務(wù)器芯片倚天710芯片,目前已經(jīng)在阿里云數(shù)據(jù)中心大規(guī)模部署。小鵬汽車幾年前就已經(jīng)全面上云,并且在2022年與阿里云在烏蘭察布建成中國最大的自動駕駛智算中心。現(xiàn)在小鵬汽車也將核心業(yè)務(wù)逐步遷移到倚天云服務(wù)器上,再次印證Arm架構(gòu)在數(shù)據(jù)中心的優(yōu)勢,也是重要的技術(shù)風(fēng)向。

CSDN專訪了小鵬汽車副總經(jīng)理譚蔚華,譚蔚華全面負(fù)責(zé)小鵬汽車運維、安全和研發(fā)工作,他分享了小鵬汽車從x86遷移到阿里云倚天實例的寶貴經(jīng)驗。

1.零故障平滑遷移,小鵬汽車計劃全場景遷移至倚天

小鵬汽車是國產(chǎn)新能源車的領(lǐng)跑者之一,過去幾年公司業(yè)務(wù)快速增長并走向全球,為應(yīng)對業(yè)務(wù)快速增長的算力需求,小鵬汽車于2019年開始全面上云并采用容器化部署業(yè)務(wù),為業(yè)務(wù)創(chuàng)新提供了技術(shù)保障。隨著小鵬汽車體系化地應(yīng)用AI技術(shù),底層IT系統(tǒng)需要進(jìn)一步隨業(yè)務(wù)需求快速變化,同時保證極致的穩(wěn)定和安全,并且合理節(jié)省成本,用技術(shù)控本提效。兩年前,為進(jìn)一步降低云上算力成本,小鵬汽車開始探索將核心業(yè)務(wù)的通用算力切換至阿里云倚天實例。

將業(yè)務(wù)從x86架構(gòu)計算體系遷移至Arm架構(gòu)計算體系是一項復(fù)雜的系統(tǒng)工程,為了實現(xiàn)平滑遷移,阿里云和平頭哥技術(shù)團(tuán)隊為倚天實例定制了遷移工具和性能調(diào)優(yōu)工具等,為小鵬汽車業(yè)務(wù)在倚天實例上快速適配提供了基礎(chǔ)保障。

對于架構(gòu)遷移的工作經(jīng)驗,譚蔚華認(rèn)為首先要克服的是兩套架構(gòu)技術(shù)和運維知識的鴻溝,遷移中小鵬汽車技術(shù)團(tuán)隊做了大量性能檢測工具,并且在重要的數(shù)據(jù)庫系統(tǒng)遷移時做到多輪壓測多輪check以確保系統(tǒng)穩(wěn)定,最后團(tuán)隊對系統(tǒng)監(jiān)控重構(gòu)實現(xiàn)對CPU性能負(fù)載的監(jiān)控管理。“我們?yōu)檫@個項目重構(gòu)了整個監(jiān)控報警系統(tǒng)。遷移過程中經(jīng)常收到CPU占用率資源報警消息,按照以往x86的經(jīng)驗我們以為是CPU已經(jīng)到達(dá)極限了。但是實際分析下來,由于倚天物理核的特性,實際上倚天仍然可以在高占用率情況下正常工作。”

微信圖片_20240926113919.png

譚蔚華表示:“盡管業(yè)務(wù)遷移需要涉及中間件重新編譯等繁雜工作,但整個遷移過程實現(xiàn)了零故障平滑遷移。”目前,小鵬汽車車聯(lián)網(wǎng)、官網(wǎng)、商城、大數(shù)據(jù)等業(yè)務(wù)已遷移至阿里云倚天實例,未來還將繼續(xù)切換,最終實現(xiàn)全場景采用基于倚天的云產(chǎn)品和服務(wù)。

2.倚天ECS實例,核心場景性價比提升30%

更加靈活、低功耗的Arm架構(gòu)已經(jīng)受到全球頂級云廠商自研CPU青睞,不過從傳統(tǒng)成熟的x86架構(gòu)遷移過來,對于企業(yè)來說仍是一個重要的決策。譚蔚華思考后認(rèn)為,小鵬汽車決定遷移到倚天芯片和服務(wù)的決策難度并不大,因為小鵬汽車定義在一家科技公司,始終要求技術(shù)創(chuàng)新,另外倚天成本優(yōu)勢明顯。

和傳統(tǒng)的x86架構(gòu)芯片相比,采用ARMv9架構(gòu)的倚天710芯片在處理能力與能源消耗之間實現(xiàn)了平衡,為云計算高效運行提供了有力支持,并在相同場景和算力的情況下,為小鵬節(jié)省了超過20%的成本。“隨著規(guī)模的進(jìn)一步提升,成本的優(yōu)勢會更加明顯。”譚蔚華說。

倚天710芯片是國內(nèi)首個云上規(guī)模應(yīng)用的自研CPU,2024云棲大會上阿里云智能集團(tuán)彈性計算、存儲產(chǎn)品線負(fù)責(zé)人吳結(jié)生在演講中分享了倚天ECS的最新進(jìn)展。通過全棧優(yōu)化,倚天ECS實例在數(shù)據(jù)庫、大數(shù)據(jù)、視頻編解碼等核心場景中的性價比提升30%以上,單位算力功耗降低60%以上,目前已有數(shù)千家企業(yè)遷移至倚天實例。

微信圖片_20240926113942.png

除了兼顧性能和成本,轉(zhuǎn)向阿里云倚天實例后,使小鵬汽車同時具備了x86和Arm兩套架構(gòu)系統(tǒng)運維能力,也讓小鵬汽車技術(shù)團(tuán)隊擁有更靈活的技術(shù)自主性,對x86和Arm優(yōu)勢和先進(jìn)技術(shù)功能,小鵬汽車都能夠更快速上手應(yīng)用。

未來,小鵬汽車將打造全球AI智能云,要實現(xiàn)AI加持、全球一體、端云聯(lián)動、技術(shù)棧統(tǒng)一、全場景控本。譚蔚華表示,阿里云倚天實例的經(jīng)驗將復(fù)制到國際團(tuán)隊,實現(xiàn)多點研發(fā)。

除了通用算力全面向倚天ECS實例遷移,小鵬汽車與阿里云在智算平臺、大模型等領(lǐng)域也在展開全面的合作。在AI引發(fā)的新一波科技變革中,雙方強強聯(lián)手深度合作,還將激發(fā)智能出行領(lǐng)域哪些創(chuàng)新和變化,CSDN將持續(xù)關(guān)注報道。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論