AI 大模型競爭白熱化,算力優(yōu)化才是“超車點”?

凌敏
算力是驅(qū)動人工智能產(chǎn)業(yè)發(fā)展的核心動力。在數(shù)據(jù)、算法和算力三大人工智能要素中,算力是將數(shù)據(jù)和算法真正通過硬件執(zhí)行的基礎(chǔ)單元,并將數(shù)據(jù)、算法轉(zhuǎn)化為最終的生產(chǎn)力。

1.png

本文來自微信公眾號“AI前線”,作者/凌敏。

嘉賓|蔣曉維博士、戴金權(quán)

采訪|凌敏、李冬梅

作者|凌敏

算力是驅(qū)動人工智能產(chǎn)業(yè)發(fā)展的核心動力。在數(shù)據(jù)、算法和算力三大人工智能要素中,算力是將數(shù)據(jù)和算法真正通過硬件執(zhí)行的基礎(chǔ)單元,并將數(shù)據(jù)、算法轉(zhuǎn)化為最終的生產(chǎn)力。

隨著AI技術(shù)的高速發(fā)展,以及AI大模型的廣泛應(yīng)用,AI算力需求正在快速增加,大概每隔3-4個月就會增加一倍。如今,對AI任務(wù)所需算力總量的度量單位已經(jīng)進入PD時代(PetaFlops/s-day),即用每秒千萬億次的計算機完整運行一天消耗的算力總量作為度量單位。比如,特斯拉FSD全自動駕駛系統(tǒng)的融合感知模型訓(xùn)練消耗的算力當量是500個PD。

可以看到,在AI大模型時代,AI領(lǐng)域的“軍備競賽”正從過去算法和數(shù)據(jù)層面的競爭,轉(zhuǎn)變?yōu)榈讓铀懔Φ母偁?。機遇的背后,如何破解算力困局、實現(xiàn)算力優(yōu)化,也是整個行業(yè)需要解決的課題。近日,InfoQ采訪了大禹智芯聯(lián)合創(chuàng)始人/CTO、IEEE國際頂會HPCA名人堂成員蔣曉維博士,英特爾院士、大數(shù)據(jù)技術(shù)全球CTO戴金權(quán),以期探索AI大模型時代下的算力困局破解路徑,尋求算力優(yōu)化最優(yōu)解。

AI大模型時代,

算力需求大爆發(fā)

作為AI的重要子領(lǐng)域,機器學(xué)習(xí)的發(fā)展最早可以追溯至20世紀50年代。2012年,AlexNet首次引起廣泛關(guān)注,使得機器學(xué)習(xí)分支深度學(xué)習(xí)的熱度呈指數(shù)級上升。在傳統(tǒng)的機器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)中,算力作為底層基礎(chǔ)設(shè)施扮演著至關(guān)重要的角色,不斷推動上層技術(shù)迭代創(chuàng)新。使得這些傳統(tǒng)技術(shù)在圖像識別、圖像分類、自然語言處理、廣告推薦、自動駕駛和圖像生成等領(lǐng)域愈加成熟,并在實踐中得到了廣泛應(yīng)用。

在AI領(lǐng)域,大家關(guān)注的焦點主要包括各種各樣的數(shù)據(jù)集,以及諸如Caffe、TensorFlow、PyTorch等深度學(xué)習(xí)框架,還有像Horovod這樣的分布式訓(xùn)練框架。與此同時,底層芯片技術(shù)也在不斷演進發(fā)展。最早企業(yè)使用CPU進行訓(xùn)練;隨后,GPU/GPGPU(通用GPU)成為訓(xùn)練和推理的標準設(shè)備;再到后來開始出現(xiàn)一些專用的AI芯片,比如谷歌的TPU芯片,以及國內(nèi)的寒武紀等等。

2022年,AIGC技術(shù)迎來應(yīng)用大爆發(fā),從OpenAI文本生成圖像系統(tǒng)Dall-E2到AI繪畫神器Stable Diffusion,AIGC迅速火成“頂流”。

戴金權(quán)表示,AIGC技術(shù)主要涵蓋兩類模型:一類是像Stable Diffusion這樣的擴散模型,它可以生成圖片、音頻、視頻等等;另一類是大語言模型,從語言模型角度來生成文本、對話等等。這兩種模型的需求不一樣,擴散模型更多是對計算的需求更高一些,而大語言模型更多是要求內(nèi)存的帶寬和大小能夠支撐。很多時候一個比較大的大語言模型,是無法放到一張顯卡上同時運行的,可能需要更大的內(nèi)存支持。

“從英特爾的角度來看,我們需要對不同的計算、內(nèi)存、Transformer注意力機制算子的要求,以及對模型進行壓縮,不管是稀疏化還是低精度等等,通過多樣化技術(shù)對它進行更好的支持。多模態(tài)是一個非常重要的方向,最終大模型追求的是這個模型不僅可以追求處理文本,還可以處理圖片、視頻等,不再是一個單一的算子,而是很多算子在模型里同時存在,如何來提供這樣的支持,都是一些技術(shù)上的挑戰(zhàn)。”戴金權(quán)說道。

2022年11月,ChatGPT橫空出世,成功掀起了AI大模型熱潮。隨后,國內(nèi)外陸續(xù)發(fā)布了多款A(yù)I大模型。

蔣曉維認為,這一波大語言模型熱潮與之前的機器學(xué)習(xí)和深度學(xué)習(xí)創(chuàng)新相比,確實存在諸多不同,并不斷刷新大家的認知。“從AlexNet、CNN+LSTM、VGG、ResNet,再到后來的GAN和最近的Diffusion Model,以及AIGC領(lǐng)域的Bert、GPT等,這些模型領(lǐng)域的不斷迭代創(chuàng)新已經(jīng)持續(xù)至少9年了。ChatGPT的出現(xiàn)實際上是過去9年各種技術(shù)棧有機結(jié)合后的一個積累和突破的過程。”

參數(shù)規(guī)模方面,GPT-3的參數(shù)規(guī)模是1750億。近日,“天才黑客”喬治·霍茲在接受采訪時透露,GPT-4參數(shù)高達1.76萬億,是GPT-3的10倍。算力需求方面,有數(shù)據(jù)顯示,GPT-3的整個完整訓(xùn)練需要3.14E11(TFLOPS)的每秒浮點運算量。OpenAI首席執(zhí)行官Sam Altman曾在接受采訪時指出,GTP-4需要的計算量為GTP-3的10倍;GTP-5需要的計算量為GTP-3的200-400倍。

大模型的背后離不開龐大算力的支撐,這種支撐通常來自于硬件與軟件兩方面。以英特爾為例,戴金權(quán)在接受采訪時表示,從算力角度來看,英特爾支持生成式AI的計算主要做兩方面工作:

●一是在硬件層面。得益于英特爾的XPU戰(zhàn)略,比如一個筆記本電腦也可以有一個強大的XPU平臺,有CPU、集成顯卡、獨立顯卡,下一代還將有VPU,利用不同的加速來對生成式AI進行運算的支撐。在數(shù)據(jù)中心端也是如此,第四代英特爾至強可擴展處理器內(nèi)置的矩陣運算加速器(英特爾AMX),還有英特爾數(shù)據(jù)中心GPU Ponte Vecchio(PVC)、Gaudi系列專用AI加速器。

●二是在軟件層面,利用軟件的技術(shù)將硬件的計算能力提供出來,包括與TensorFlow、PyTorch、Hybrid Bonding等開源軟件進行了廣泛合作,與OpenAI合作的AI編譯器Triton,以及和微軟合作優(yōu)化的做大規(guī)模分布式訓(xùn)練的軟件棧DeepSpeed等等。

如何破解AI算力困局?

龐大的算力需求也意味著需要高昂的訓(xùn)練成本。根據(jù)英偉達的數(shù)據(jù),GPT-3需要使用1024顆A100芯片訓(xùn)練長達一個月的時間,總成本約為460萬美元。而GPT-4的訓(xùn)練成本大約在1億美元左右,GPT-5的成本會更高。

毫無疑問,AI大模型的訓(xùn)練是一個“非常昂貴的過程”。所以也有觀點認為,算力成本是限制AI大模型和生成式AI發(fā)展的因素之一。

“除了在軟件、模型和算法層面進行多維度的優(yōu)化之外,CPU通用計算領(lǐng)域的發(fā)展歷程可以為大模型算力領(lǐng)域的成本優(yōu)化提供一些借鑒意義”。蔣曉維提到。在CPU通用計算領(lǐng)域,提升算力存在兩種模型,分別是“Scale up”(水平方向上擴展)和“Scale out”(垂直方向上擴展)。“Scale up”是指通過各種方式將一臺機器擴展到像小型機甚至大型機的規(guī)模,而“Scale out”是指通過由CPU、內(nèi)存、存儲等商業(yè)化部件構(gòu)建單臺服務(wù)器,通過復(fù)制這些機器,并將這些機器以高性能的數(shù)據(jù)中心網(wǎng)絡(luò)互聯(lián)起來,再結(jié)合一些系統(tǒng)層面的技術(shù)將其構(gòu)建成類似小型機的解決方案。傳統(tǒng)的小型機是“Scale up”的經(jīng)典案例,以單路和雙路x86服務(wù)器構(gòu)建的數(shù)據(jù)中心則是“Scale out”的代表。

從“Scale up”到“Scale out”是通用計算領(lǐng)域經(jīng)歷的一種發(fā)展過程。在國外,谷歌是一個早期的代表案例,而在國內(nèi),阿里是最著名的代表。阿里有一個著名的故事叫做“去IOE”,即摒棄IBM的小型機、Oracle的數(shù)據(jù)庫以及EMC的存儲,通過商用化的x86服務(wù)器構(gòu)建“Scale out”的數(shù)據(jù)中心。

蔣曉維認為,這或許是大型模型和GPU算力領(lǐng)域未來可能要走的路線。“目前我們?nèi)匀辉谧咦?rsquo;Scale up’這條路線,單GPU服務(wù)器越做越大、也越做越貴。而‘Scale out’的方式,我認為應(yīng)該是維持一個最基本的小單元,可能包含CPU、GPU和高性能互聯(lián)網(wǎng)卡,不同的芯片器件可以由不同的廠家提供。英偉達的Grace-Hopper superchip目前是這種基本單元的代表方案。通過分布式方式和高性能、高效的網(wǎng)絡(luò)將計算單元互聯(lián)起來是一種降低成本的可能途徑?,F(xiàn)如今,數(shù)據(jù)中心的網(wǎng)絡(luò)延遲已經(jīng)達到了亞微秒級別,甚至是納秒級別,完全具備了將計算單元高效互聯(lián)的能力。這是從‘Scale up’方式逐漸演變到‘Scale out’方式的一個維度。我們可以借鑒通用計算領(lǐng)域先前的一些經(jīng)驗。”

此外,通過軟件來承擔一些高可用功能,如容錯等,以及尋找第二供應(yīng)商,都是降低成本的關(guān)鍵手段。

構(gòu)建分布式算力

在降低算力成本之外,如何更好地利用算力、提升算力的效率也是業(yè)界亟待解決的問題。而如何將計算能力分布式化、構(gòu)建分布式計算能力,正是算力優(yōu)化的前提。

在過去,大家對AI芯片領(lǐng)域的關(guān)注點主要集中在推理方面,但現(xiàn)在大模型使得人們更關(guān)注分布式訓(xùn)練,尤其是分布式訓(xùn)練集群的構(gòu)建。因為單張卡無法滿足需求,所以需要構(gòu)建分布式訓(xùn)練集群,通過高效的互聯(lián)將大量GPU連接起來。

除了提升單個GPU芯片的能力之外,另一個核心問題是如何高效地將GPU單卡構(gòu)建成分布式訓(xùn)練能力。這是當前大模型算力構(gòu)建過程中一個非常核心的領(lǐng)域和技術(shù)。這需要超級計算網(wǎng)絡(luò)的能力和高性能網(wǎng)絡(luò),以高效地互聯(lián)單個節(jié)點的GPU計算單元,并且還需要更高效的CPU與GPU協(xié)同能力。最近發(fā)布的英偉達的DGX GH200正是這些技術(shù)的巔峰體現(xiàn)。

蔣曉維認為,英偉達不僅僅是一家GPU算力公司,同時也是一家高性能網(wǎng)絡(luò)和CPU公司。“我們可以看下英偉達的核心技術(shù)。首先,它在芯片功能方面往往是采用最先進的制程技術(shù),同時需要在最先進的制程支持下達到單die面積以及功耗和散熱的極限。因此,對于芯片設(shè)計領(lǐng)域以及制程的各個環(huán)節(jié),都有非常高的要求。我認為這是第一個基礎(chǔ),就是芯片設(shè)計領(lǐng)域,包括先進的制程技術(shù),高計算能力的單卡芯片。在此基礎(chǔ)上,我們再構(gòu)建多機多卡的訓(xùn)練,將高效的單卡互聯(lián)起來。這就需要高性能網(wǎng)絡(luò)的能力,通過這種高性能網(wǎng)絡(luò)能力實現(xiàn)單卡性能的‘線性’理想狀況,同時在擴展性方面也有很高的基本要求。”

在過去的幾十年中,英偉達曾涉足x86芯片組領(lǐng)域,并且在退出該業(yè)務(wù)后一直致力于ARM CPU的研發(fā)。目前,英偉達已經(jīng)推出了基于ARM架構(gòu)的Grace芯片產(chǎn)品,并通過NvLink C2C能力在最近發(fā)布的Grace Hopper超級芯片中實現(xiàn)了高速高效的GPU和CPU之間的互聯(lián)。通過NvLink技術(shù)實現(xiàn)多個CPU芯片之間的互聯(lián),以實現(xiàn)雙路甚至多路CPU架構(gòu)。除此之外,在完成對Mellanox的收購之后,英偉達在高性能網(wǎng)絡(luò)領(lǐng)域的Infiniband、RDMA、GDR等技術(shù)也充分支持了多GPU服務(wù)器節(jié)點直接的互聯(lián),為“Scale out”的部署奠定了基礎(chǔ)。

此外,英特爾和AMD也在同時在CPU、GPU和高性能網(wǎng)絡(luò)互聯(lián)技術(shù)領(lǐng)域具備強大能力。在CPU領(lǐng)域,英特爾和AMD都是行業(yè)領(lǐng)導(dǎo)者。在網(wǎng)絡(luò)領(lǐng)域,英特爾擁有自己的Mount Evans(IPU),而AMD在收購Pansando后在DPU領(lǐng)域也獲得了強大實力。在帶內(nèi)-帶間互聯(lián)方面,英特爾通過QPI或UPI等技術(shù)實現(xiàn)了CPU的多插槽互連能力。同時,它還有像CXL這樣的技術(shù),可以實現(xiàn)加速器與CPU或內(nèi)存與CPU之間的高效互連,以及自身功能所擁有的EMIB(2.5D封裝技術(shù)),實現(xiàn)芯片之間的互聯(lián)。而AMD則擁有Hyper Transport以及基于此的Infinity Fabric等核心技術(shù),可以實現(xiàn)帶內(nèi)-帶間芯片之間的高效互連。所有這些技術(shù)都為構(gòu)建分布式算力提供了必要的基礎(chǔ)。

目前,英偉達的DGX GH200產(chǎn)品已經(jīng)達到了極致水平,其擁有1.8萬個CPU核心、256個GPU和144T內(nèi)存,它們之間通過各種高速互聯(lián)技術(shù)有機地結(jié)合在一起。這種模式已經(jīng)對分布式訓(xùn)練框架和模式產(chǎn)生了重大影響。接下來的問題是,如何支持這種設(shè)備類型的操作系統(tǒng)?如何支持如此大規(guī)模的設(shè)備內(nèi)存?這些都是未來技術(shù)發(fā)展的方向和挑戰(zhàn)。

算力優(yōu)化探索與實踐

在具體的算力優(yōu)化探索與實踐中,蔣曉維表示,作為一家DPU公司,大禹智芯關(guān)注的是分布式集群算力模型領(lǐng)域的優(yōu)化,主要集中在從單機單卡到多機規(guī)模的優(yōu)化。

在分布式訓(xùn)練場景中,尤其是訓(xùn)練大型模型如GPT時,通常需要使用成千上萬個GPU。在這個過程中,大禹智芯將算力或芯片執(zhí)行的計算分為兩個維度:

●第一個維度是純計算,即模型的前向傳播和反向傳播過程,主要在GPU上完成。

●另一個維度是耗費大量算力但不是GPU算力的部分,即訓(xùn)練中的梯度下降過程,在分布式GPU中,需要對參數(shù)進行全局約簡操作,以獲得最終的全局約簡結(jié)果??梢詫⑦@部分稱為訓(xùn)練中的I/O部分,它主要消耗芯片的網(wǎng)絡(luò)資源而不是GPU算力。這部分也是大禹智芯產(chǎn)品關(guān)注的焦點。

在大型模型訓(xùn)練中,當達到2000個GPU時,I/O部分和計算部分的比例已經(jīng)達到1:1。隨著GPU數(shù)量超過2000,I/O部分所花費的時間和算力可能會超過計算部分。因此,大禹智芯專注在分布式訓(xùn)練中優(yōu)化I/O部分,利用核心網(wǎng)絡(luò)技術(shù)能力來進行優(yōu)化。

“在算力優(yōu)化方面,我們有幾個核心技術(shù):首先是我們支持高度靈活且可編程的硬件零擁塞控制技術(shù),用于取代傳統(tǒng)以太網(wǎng)上的RoCE v2協(xié)議。傳統(tǒng)協(xié)議在流量控制方面比較簡單單一,存在一些問題。我們的技術(shù)提供了更靈活和可編程的解決方案,解決了這些問題。第二,我們支持超低延遲特性。第三,我們支持用于分布式訓(xùn)練中的MPI消息傳遞這種集體通信。通過對各個維度進行大量硬件優(yōu)化,并結(jié)合RDMA和MPI,在訓(xùn)練過程中實現(xiàn)與InfiniBand相當?shù)男阅?。這些是我們在從單機單卡到分布式訓(xùn)練的過程中進行的算力網(wǎng)絡(luò)優(yōu)化工作。”蔣曉維介紹道。

據(jù)了解,目前在構(gòu)建GPU算力網(wǎng)絡(luò)方面,大多數(shù)公司仍選擇使用InfiniBand網(wǎng)卡和交換機,其中主要使用兩種核心技術(shù):一種是RDMA(遠程直接內(nèi)存訪問)技術(shù),通過GPUDirect RDMA來消除CPU在I/O層面上的控制角色,從而降低整個訓(xùn)練過程中的I/O消耗。另一種技術(shù)是SHARP(Scalable Hierarchical Aggregation and Reduction Protocol),這也是Mellanox的核心技術(shù),通過SHARP技術(shù)來減少在分布式算力過程中對網(wǎng)絡(luò)帶寬的消耗。

目前,大多數(shù)公司在構(gòu)建算力網(wǎng)絡(luò)時仍基于英偉達的解決方案。然而,一些頭部互聯(lián)網(wǎng)公司已經(jīng)開始在以太網(wǎng)上構(gòu)建GPU算力網(wǎng)絡(luò),不再完全依賴InfiniBand網(wǎng)絡(luò)。在這種情況下,一個核心問題是找到一個能夠完全替代InfiniBand上RDMA的技術(shù)。

英偉達除了在InfiniBand上有RDMA技術(shù)之外,也有以太網(wǎng)上的RDMA技術(shù),稱為RoCE v2。然而,在許多頭部互聯(lián)網(wǎng)公司應(yīng)用中,這種技術(shù)仍然存在一些問題,所以國際國內(nèi)一些頭部互聯(lián)網(wǎng)公司已經(jīng)開始研發(fā)自己的技術(shù),用以取代RoCE v2以太網(wǎng)上的RDMA,并通過自研的方式實現(xiàn)更可靠的運行。他們能夠在有丟包的網(wǎng)絡(luò)環(huán)境中穩(wěn)定地運行RDMA,并將這項技術(shù)應(yīng)用于GPU訓(xùn)練集群中,這是一些行業(yè)內(nèi)領(lǐng)先公司具備的核心能力。

“對于大禹智芯來說,我們的工作完全基于這些頭部公司的實踐和技術(shù)趨勢。我們也在致力于開發(fā)類似的產(chǎn)品,因為我們相信這些頭部公司的核心技術(shù)往往只局限于他們自身的部署。但是,我們認為更廣泛的公司可能并不具備這樣的能力。像大禹智芯這樣的第三方芯片公司的價值就在于通過通用化的技術(shù),為更廣泛的場景提供支持,并通過更普適的方式將這些技術(shù)落地。”蔣曉維說道。

寫在最后:

軟件算法設(shè)計的多樣化亦是關(guān)鍵

在分布式算力構(gòu)建方面,蔣曉維認為,構(gòu)建分布式算力網(wǎng)絡(luò)需要與芯片領(lǐng)域緊密結(jié)合,并且在每個單元上都需要應(yīng)用先進的制程技術(shù),以支持最大規(guī)模的帶寬。未來,需要重點考慮兩方面:

首先是芯片產(chǎn)業(yè)的發(fā)展。這涉及到各種芯片IP,例如SerDes、PCIE控制器等核心IP,還有EDA工具和先進制程技術(shù)。這些都是構(gòu)建各種算力的基本單元能力。

其次是國內(nèi)的各種xPU公司。目前,國內(nèi)的xPU公司仍處于早期階段,各自為政,發(fā)展還比較零散。

“在國內(nèi),要在相對較短的時間內(nèi)集合整個產(chǎn)業(yè)的力量共同實現(xiàn)目標,而不是通過一家公司逐步發(fā)展各個領(lǐng)域的能力,可能需要采取某種方式來結(jié)合產(chǎn)業(yè)力量共同實現(xiàn)目標。在這方面,我認為有一個關(guān)鍵技術(shù)是芯片領(lǐng)域的芯片模塊化(Chiplet)技術(shù),這是一項非常有潛力的技術(shù)。通過芯片模塊化,我們可以通過成本較低的封裝技術(shù)將不同的芯片模塊集成在一顆芯片上,從而實現(xiàn)讓每個領(lǐng)域的專業(yè)公司專注于其擅長的事情。另外,芯片模塊化本身還是一個相對較新的概念,例如芯片模塊化的標準化組織UCIe也剛剛成立不久。因此,在這個領(lǐng)域,國內(nèi)與國外之間肯定存在差距,但差距并不是特別大,仍然有迎頭趕上的機會。”蔣曉維總結(jié)道。

展望未來,戴金權(quán)希望可以做到“AI無所不在”,不管是在本地端、云端還是邊緣端。從這個角度來看,從小尺寸設(shè)備擴展到大規(guī)模數(shù)據(jù)中心的XPU架構(gòu),是一個非常重要的、且能夠支持未來AIGC技術(shù)無所不在的需求的趨勢。從軟件的角度來看,現(xiàn)在的大模型基本上是以Transformer架構(gòu)作為基礎(chǔ)構(gòu)件,目前業(yè)界正在做大量的研究工作,探索Transformer架構(gòu)對內(nèi)存的需求,包括內(nèi)存帶寬、內(nèi)存容量以及計算需求如何進行更好的加速。從發(fā)展的眼光來看,至少Transformer這樣的大模型可能會有更大的尺寸,包括輸入上下文的擴展,將來可能是今天的幾倍、幾十倍甚至更高。這必然會對軟件算法的設(shè)計,比如低精度、低比特、壓縮、稀疏化,包括注意力機制設(shè)計等有不同的需求。

“所以,軟件算法設(shè)計的多樣化,是我們認為未來有助于滿足AIGC和大語言模型的算力需求的重要組成部分。這些需求可能會進一步引導(dǎo)我們未來的訓(xùn)練、推理,以及芯片的架構(gòu)等。此外,大模型還在快速發(fā)展當中,可能在更長的時間段,比如十年、幾十年的時間里有很多的發(fā)展,有不同算法級別的發(fā)展,以及在不同場景適配的發(fā)展,這些都會對AI芯片,包括對所有計算的芯片、計算的能力帶來深遠的影響。”戴金權(quán)總結(jié)道。

采訪嘉賓

蔣曉維博士,大禹智芯聯(lián)合創(chuàng)始人/CTO,入選HPCA名人堂,曾供職英特爾、阿里、谷歌。是英特爾首顆超低功耗處理器Quark D1000首席架構(gòu)師、Edison SoC芯片架構(gòu)師。在阿里工作期間,為國內(nèi)首顆x86 CPU的特性定制化工作帶領(lǐng)人、阿里智能網(wǎng)卡團隊創(chuàng)建人、阿里云倚天710 Arm CPU的IO子系統(tǒng)首席架構(gòu)師。曾擔任谷歌智能網(wǎng)卡團隊技術(shù)負責(zé)人,帶領(lǐng)團隊進行IPU在谷歌云的研發(fā)部署工作。

戴金權(quán),英特爾院士、大數(shù)據(jù)技術(shù)全球CTO。負責(zé)領(lǐng)導(dǎo)英特爾全球(位于硅谷和上海)的工程團隊在高級大數(shù)據(jù)分析、分布式機器學(xué)習(xí)和深度學(xué)習(xí)上的研發(fā)工作,以及和全球領(lǐng)先的研究機構(gòu)(如UC Berkeley AMPLab、RISELab等)的技術(shù)合作。Apache Spark項目的創(chuàng)始committer和項目管理委員會(PMC)委員,Apache MXNet項目導(dǎo)師,BigDL和Analytics Zoo項目創(chuàng)始人。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論