阿里賈揚(yáng)清:新一輪AI爆發(fā)的推動(dòng)機(jī)制是工程化和開(kāi)源

目前AI產(chǎn)業(yè)應(yīng)用有四個(gè)趨勢(shì):云原生的AI工程化平臺(tái)、端到端優(yōu)化的異構(gòu)計(jì)算體系、通過(guò)系統(tǒng)組合打造貼近用戶的智能產(chǎn)品,以及算法的開(kāi)源助力AI在垂直產(chǎn)業(yè)的廣泛應(yīng)用。

本文來(lái)自微信公眾號(hào)“量子位”。

羿閣 整理自 MEET2023

量子位|公眾號(hào)QbitAI

隨著Stable Diffusion、ChatGPT的爆火,AI在今年迎來(lái)了大爆發(fā)。

這不禁讓人想問(wèn),這些創(chuàng)新背后的推動(dòng)機(jī)制究竟是什么?

在MEET2023智能未來(lái)大會(huì)上,阿里巴巴集團(tuán)副總裁、阿里云計(jì)算平臺(tái)事業(yè)部負(fù)責(zé)人賈揚(yáng)清給出了他的答案:AI工程化和開(kāi)源。

工程化,讓開(kāi)發(fā)、迭代到應(yīng)用的路徑變得更加高效;開(kāi)源可以讓工作開(kāi)展更加迅速,實(shí)現(xiàn)市場(chǎng)共贏。

在這個(gè)基礎(chǔ)之上,賈揚(yáng)清還進(jìn)一步指出了AI產(chǎn)業(yè)落地的四大明顯趨勢(shì):AI工程化平臺(tái)、異構(gòu)計(jì)算、智能產(chǎn)品和算法開(kāi)源。

360截圖16251112669372.png

為了完整體現(xiàn)賈揚(yáng)清的分享及思考,在不改變?cè)獾幕A(chǔ)上,量子位對(duì)他的演講內(nèi)容進(jìn)行了編輯整理。

關(guān)于MEET智能未來(lái)大會(huì):MEET大會(huì)是由量子位主辦的智能科技領(lǐng)域頂級(jí)商業(yè)峰會(huì),致力于探討前沿科技技術(shù)的落地與行業(yè)應(yīng)用。今年共有數(shù)十家主流媒體及直播平臺(tái)報(bào)道直播了MEET2023大會(huì),吸引了超過(guò)300萬(wàn)行業(yè)用戶線上參會(huì),全網(wǎng)總曝光量累積超過(guò)2000萬(wàn)。

演講要點(diǎn)

工程化和開(kāi)源是AI普惠最重要的支撐。

目前AI產(chǎn)業(yè)應(yīng)用有四個(gè)趨勢(shì):云原生的AI工程化平臺(tái)、端到端優(yōu)化的異構(gòu)計(jì)算體系、通過(guò)系統(tǒng)組合打造貼近用戶的智能產(chǎn)品,以及算法的開(kāi)源助力AI在垂直產(chǎn)業(yè)的廣泛應(yīng)用。

隨著模型變得越來(lái)越大、訓(xùn)練門(mén)檻越來(lái)越高,我們可以清晰地看見(jiàn),業(yè)界的需求從代碼開(kāi)源往前一步,到了模型的開(kāi)源。

(以下為賈揚(yáng)清演講全文)

AIGC大爆發(fā)

今天我們講AI,繞不過(guò)去的一個(gè)話題就是AIGC的大爆發(fā),像Stable Diffusion、ChatGPT等等。

如果我們溯源可以發(fā)現(xiàn),用統(tǒng)計(jì)和AI方法實(shí)現(xiàn)內(nèi)容的創(chuàng)作和生成,已經(jīng)經(jīng)歷了很長(zhǎng)的演進(jìn)過(guò)程。

往回?cái)?shù)到1999年,也就是二十多年前的時(shí)候,Alexei A.Efros教授提出的基本邏輯是用一個(gè)簡(jiǎn)單的計(jì)算機(jī)視覺(jué)統(tǒng)計(jì)方式,就可以通過(guò)一個(gè)非常小的圖片來(lái)學(xué)習(xí)紋理,并生成更大的內(nèi)容,這可以說(shuō)是AIGC的雛形。

2015年前后,神經(jīng)風(fēng)格遷移開(kāi)始風(fēng)靡,它能夠從畫(huà)作當(dāng)中學(xué)習(xí)繪畫(huà)風(fēng)格,把原始圖片合成為特定風(fēng)格的作品,比如這幅梵高的《星空》。

360截圖16251112669372.png

從1999年的紋理生成,到2015年的神經(jīng)風(fēng)格遷移,再到今天更強(qiáng)語(yǔ)意的AI創(chuàng)作,都在不斷地催生我們探索更有意思的領(lǐng)域。

同時(shí),我們也在思考,這些創(chuàng)新推動(dòng)的機(jī)制是怎么樣的?背后有哪些的支撐?

AI惠普的土壤:工程化+開(kāi)源

我們得出的結(jié)論是,AI普惠的兩個(gè)重要支撐,一個(gè)是AI的工程化,另外一個(gè)是開(kāi)源。

360截圖16251112669372.png

從工程化角度,2019年著名教授Richard Sutton曾經(jīng)說(shuō)過(guò),前面70年的AI研究,我們所得到的最大的經(jīng)驗(yàn)和教訓(xùn)是通過(guò)標(biāo)準(zhǔn)化的方式來(lái)使用大規(guī)模的計(jì)算。

那么怎么樣才能實(shí)現(xiàn)大規(guī)模計(jì)算呢?

無(wú)論是通過(guò)云原生方式,還是通過(guò)更加高效的分布式計(jì)算等,都讓今天從開(kāi)發(fā)到迭代的路徑變得更加簡(jiǎn)單,這都是我們前面幾年所看到的AI大規(guī)模發(fā)展(如大模型、AIGC)背后的工作。

另外一個(gè)方面,開(kāi)源讓工作變得更加迅速。

從最早的時(shí)候我們耳熟能詳?shù)纳疃葘W(xué)習(xí)框架,到今天我們所見(jiàn)到的各種模型,無(wú)論是基礎(chǔ)模型還是應(yīng)用模型,開(kāi)源和開(kāi)放都讓各行各業(yè)的應(yīng)用開(kāi)發(fā)者更加容易觸達(dá)AI算法,并尋找一些需求的匹配。

同時(shí),對(duì)于算法的工作要求。Stack Overflow的創(chuàng)始人Joel Spolsky曾經(jīng)寫(xiě)過(guò)一個(gè)關(guān)于開(kāi)源軟件經(jīng)濟(jì)學(xué)的技術(shù)blog。

他提到,技術(shù)公司都希望讓產(chǎn)品的互補(bǔ)品變得更加容易獲得,開(kāi)源讓整個(gè)市場(chǎng)變得更大,也能夠讓大家實(shí)現(xiàn)共贏的結(jié)果。

在此基礎(chǔ)上,AI產(chǎn)業(yè)落地有四個(gè)非常明顯的趨勢(shì)。

第一是云原生的AI工程化平臺(tái);第二是大規(guī)模端到端的異構(gòu)計(jì)算體系;第三是把前面這些工程產(chǎn)生的算法系統(tǒng)組合后,實(shí)現(xiàn)的更加智能、貼近用戶需求的產(chǎn)品;以及通過(guò)算法的開(kāi)源,助力AI在產(chǎn)業(yè)垂直化落地。

這四個(gè)趨勢(shì)可能是將來(lái)我們無(wú)論是從供給角度還是需求角度,推動(dòng)AI進(jìn)一步往前走的方向。

360截圖16251112669372.png

所以我想從這四個(gè)角度給大家簡(jiǎn)單介紹一下我們現(xiàn)在所看到一些細(xì)節(jié)和所做的事情。

AI工程化平臺(tái)

今天我們看到AI開(kāi)發(fā)有一個(gè)非常清晰的范式,可以分兩個(gè)部分,前半段是開(kāi)發(fā)、數(shù)據(jù)到模型,后半段從模型、迭代到最后的應(yīng)用。

具體地說(shuō),首先,算法工程師會(huì)通過(guò)數(shù)據(jù)平臺(tái)做數(shù)據(jù)采集、清理、標(biāo)注。在開(kāi)發(fā)的時(shí)候,一個(gè)開(kāi)源的、耳熟能詳?shù)沫h(huán)境已經(jīng)成為業(yè)界標(biāo)準(zhǔn),能夠讓算法工程師進(jìn)行開(kāi)發(fā)、迭代。

今天大多數(shù)的模型都需要用到分布式計(jì)算,這些技術(shù)已經(jīng)成為標(biāo)準(zhǔn)底座,讓我們更加高效地做分布式訓(xùn)練、調(diào)度和部署。

產(chǎn)出最開(kāi)始這些模型之后,我們就需要讓業(yè)務(wù)工程師和深度學(xué)習(xí)的算法工程師一塊在實(shí)際當(dāng)中做模型選型、驗(yàn)證等等,再通過(guò)前面提到的開(kāi)發(fā)、迭代、訓(xùn)練這些平臺(tái),來(lái)獲得一個(gè)適合線上服務(wù)的模型。

有一個(gè)很有意思的點(diǎn),大家在實(shí)際做一個(gè)業(yè)務(wù)應(yīng)用的時(shí)候,有很多事情都要考慮。

AI以前想得比較少,但今天一旦開(kāi)始把AI算法部署到應(yīng)用當(dāng)中去,很多需求就都已經(jīng)出來(lái)了,像藍(lán)綠部署等等,因此服務(wù)本身也在開(kāi)始變得更加標(biāo)準(zhǔn)化、原生化。

今天在阿里云,我們就把這些開(kāi)發(fā)范式標(biāo)準(zhǔn)化以后,建設(shè)這樣一個(gè)平臺(tái),支撐我們從零開(kāi)始做模型的全新服務(wù)。

360截圖16251112669372.png

大家經(jīng)常問(wèn)工程化可以實(shí)現(xiàn)怎么樣的效果?

每個(gè)科研院所、公司大家多多少少都在經(jīng)歷這樣一個(gè)過(guò)程:怎樣把AI從科研到普惠的鴻溝填上,用高性能、高可用、低成本的方式把這個(gè)溝跨過(guò)去。

跟大家分享一個(gè)小故事,今年達(dá)摩院和阿里云一起做了一件事情,就是重新審視我們?cè)贏I算法協(xié)同當(dāng)中怎么樣把達(dá)摩院超過(guò)90%的應(yīng)用,不論是訓(xùn)練還是推理服務(wù)的應(yīng)用,都用云原生方式來(lái)實(shí)現(xiàn)。

通過(guò)這樣的方式,我們所見(jiàn)到的是:

從需求的角度,資源更加可用、更容易獲得,無(wú)論是拉起一個(gè)訓(xùn)練還是推理,都比以前更加容易,更快;

從工程細(xì)節(jié)上,算法工程師不再需要進(jìn)行像存儲(chǔ)、管理機(jī)器、調(diào)優(yōu)帶寬等等這些具體的事情;

從供給角度、AI系統(tǒng)管理角度來(lái)說(shuō),無(wú)論是利用率、訓(xùn)練效率,還是服務(wù)成本都變得更好了。

360截圖16251112669372.png

這是我們?cè)诘谝粋€(gè)趨勢(shì)——AI工程化這塊所看見(jiàn)的正向效果,就是專業(yè)人做專業(yè)的事,以達(dá)到一個(gè)更好的效果。

異構(gòu)計(jì)算

AI工程化平臺(tái)之后,第二個(gè)趨勢(shì)是端到端的異構(gòu)計(jì)算與優(yōu)化。

今天講框架講得比較少,傳統(tǒng)的AI框架這一層,無(wú)論是最早的還是今天的框架,方向已經(jīng)變得很成熟了。

同時(shí),在框架上游和框架的下游,我們都開(kāi)始逐漸地需要來(lái)建設(shè)更加豐富的軟件棧。

包括上層怎么樣讓算法科學(xué)家做分布式建模,調(diào)動(dòng)異構(gòu)資源進(jìn)行訓(xùn)練;在框架下層怎么樣通過(guò)AI技術(shù)做軟硬件協(xié)同設(shè)計(jì)和優(yōu)化,最后我們?cè)趺礃咏⑦@樣一個(gè)存儲(chǔ)、網(wǎng)絡(luò)完整的優(yōu)化解決方案。

和大家分享幾個(gè)我們所做的工作。

第一在分布式建模這一塊,我們開(kāi)源了一個(gè)框架EPL,使得算法工程師建模時(shí)能夠更加容易地自動(dòng)化生成分布式訓(xùn)練模型,而不需要自己手工地處理GPU之間怎么樣通訊。

在優(yōu)化領(lǐng)域,我們的框架PAI-Blade,能夠幫助算法工程師在面對(duì)底層硬件時(shí)不需要去擔(dān)心,比如CPU、GPU、非常多的創(chuàng)新建設(shè)出來(lái)的國(guó)產(chǎn)芯片等等,我們可以用這種方式更有效地提升算法效率。

這個(gè)領(lǐng)域最有意思的一點(diǎn)是,我們發(fā)現(xiàn)AI計(jì)算和傳統(tǒng)科學(xué)計(jì)算的需求有很強(qiáng)的共性,無(wú)論是蛋白質(zhì)分子折疊的研究,還是其他物理、化學(xué)等領(lǐng)域,AI for Science這個(gè)趨勢(shì)都很明顯。

我們需要做的工作包括大規(guī)?;诰仃嚨挠?jì)算,以及需要處理海量的領(lǐng)域數(shù)據(jù),而AI系統(tǒng)、數(shù)據(jù)系統(tǒng)所積累下來(lái)的異構(gòu)計(jì)算的能力正好符合這個(gè)需求。

同時(shí),一定程度上說(shuō),這些能力最早也是從HPC這些領(lǐng)域,比如氣象模擬孵化出來(lái)的。

就像鄭院士剛才提到的AII-Reduce并行的范式,這個(gè)范式最早也是在HPC領(lǐng)域有了非常好的理解,在我們看起來(lái)是一個(gè)AI for Science和Science for AI互相迭代的過(guò)程。

360截圖16251112669372.png

這些框架上和框架下的優(yōu)化,最終還是需要把所有的組件協(xié)同起來(lái),帶來(lái)一個(gè)更加完整、更加成熟的,我們稱作“智算”的一個(gè)完整解決方案,這些解決方案能夠達(dá)到軟硬件協(xié)同、算法應(yīng)用協(xié)同等效果。

舉個(gè)例子,在自動(dòng)駕駛這方面,我們和小鵬汽車建設(shè)了一系列自動(dòng)駕駛所需要的海量AI計(jì)算能力技術(shù)。

每個(gè)單點(diǎn)技術(shù)看起來(lái)都比較標(biāo)準(zhǔn),但是端到端連起來(lái)的時(shí)候,我們也碰到一個(gè)挑戰(zhàn),就是怎么樣把存儲(chǔ)、計(jì)算、AI組件更加完整組合在一起,這里面有很多細(xì)致入微的挑戰(zhàn)。

360截圖16251112669372.png

就像剛才鄭院士提到的檢查點(diǎn)怎么樣做讀寫(xiě),怎么樣把存儲(chǔ)帶寬提上來(lái),雖然乍一聽(tīng)是很細(xì)節(jié)的事,但是非常精準(zhǔn)地提到了我們系統(tǒng)所需要解決的問(wèn)題,就是確保一個(gè)木桶沒(méi)有短板,unblock整個(gè)開(kāi)發(fā)訓(xùn)練的流程。

智能產(chǎn)品

我們所見(jiàn)到第三個(gè)趨勢(shì),往往會(huì)涉及到多種模型、多種算法的組合。

各種單點(diǎn)AI算法越來(lái)越成熟之后,我們可以更容易地組合一個(gè)貼近客戶的智能產(chǎn)品,這也是很多用戶實(shí)際需要的一個(gè)AI中臺(tái),因?yàn)槲覀儾⒉恍枰粋€(gè)單體模型,我們需要解決問(wèn)題。

拿“聽(tīng)悟”智能會(huì)議助理舉例,這是達(dá)摩院語(yǔ)音實(shí)驗(yàn)室把語(yǔ)音、自然語(yǔ)言處理和其他的算法組合起來(lái)后建設(shè)而成,因?yàn)闀?huì)議的原因,我在會(huì)前錄了一個(gè)非常簡(jiǎn)短的實(shí)際使用的Demo,請(qǐng)大家來(lái)感受一下。

算法開(kāi)源

最后我覺(jué)得還有一個(gè)非常強(qiáng)的趨勢(shì)就是模型開(kāi)源。

像聽(tīng)悟這樣一個(gè)產(chǎn)品,背后有非常非常多的模型,我們今天說(shuō)AI工程化、異構(gòu)計(jì)算等等,最后就是基于模型來(lái)落地。

這里我重復(fù)一下李笛老師剛剛提到的AI being的概念,將來(lái)也許每一個(gè)人、每一個(gè)公司都多多少少需要有AI being的能力。

那么問(wèn)題來(lái)了,模型變得越來(lái)越大,門(mén)檻越來(lái)越高后,是不是每個(gè)公司都要投入很多的資金和人力?是不是都要先通過(guò)訓(xùn)練再做其他的事情?

我們的回答是“no”,今天代碼開(kāi)源已經(jīng)非常深入人心了,我們可以清晰地看見(jiàn),業(yè)界的需求從代碼的開(kāi)源往前一步,到了模型的開(kāi)源。

今年達(dá)摩院和業(yè)界很多伙伴一起推出了ModelScope,我覺(jué)得它跟以前所見(jiàn)到的學(xué)術(shù)模型不一樣,我們更進(jìn)一步的地方是我們將實(shí)際業(yè)務(wù)當(dāng)中所見(jiàn)到的、訓(xùn)練的、沉淀下來(lái)的實(shí)際場(chǎng)景化的模型都貢獻(xiàn)了出來(lái),今天大家可以在魔搭上面找到300多個(gè)成熟的模型。

舉個(gè)例子,比如像語(yǔ)音可以找到不同方言的、中英混雜的,這種通用的學(xué)術(shù)模型可能不太關(guān)注,但是在應(yīng)用當(dāng)中很需要的模型。

最新的像Stable Diffusion這些模型,你也可以在上面實(shí)現(xiàn)瀏覽、嘗試下載開(kāi)發(fā)、二次開(kāi)發(fā)等等。

360截圖16251112669372.png

這樣一個(gè)社區(qū)能夠讓我們?cè)诠?yīng)和需求兩個(gè)方面都更進(jìn)一步。

從供給角度來(lái)說(shuō),我們希望能夠提供一個(gè)場(chǎng)子,這個(gè)場(chǎng)子讓更多算法開(kāi)發(fā)者能夠更方便地把模型開(kāi)源出來(lái)、共享出來(lái),就像是把代碼放在一個(gè)平臺(tái)上一樣,讓大家更容易分享模型,更容易搭建一個(gè)模型的Demo,把這個(gè)秩序輪轉(zhuǎn)起來(lái)。

第二從需求角度,我們希望能夠給對(duì)AI感興趣的群體找到一個(gè)更容易的方式體驗(yàn)?zāi)P?、思考需求,通過(guò)這樣把很多的想法迭代起來(lái),就是到底這個(gè)模型能做什么,如何把這些產(chǎn)品做得更加豐富。

我們希望這個(gè)平臺(tái)成為一個(gè)連接兩邊需求,把兩邊更好結(jié)合起來(lái),迸發(fā)創(chuàng)新的應(yīng)用。

總結(jié)一下,在開(kāi)源和工程化這樣的大背景下,我們看見(jiàn)AI產(chǎn)業(yè)有四大很明顯的趨勢(shì):云原生的AI工程化平臺(tái)、大規(guī)模端到端的異構(gòu)計(jì)算體系、智能產(chǎn)品,以及最后算法開(kāi)源崛起。因?yàn)闀r(shí)間關(guān)系,每一點(diǎn)可能沒(méi)法更詳細(xì)展開(kāi)。

今天,非常多的專家、企業(yè)、開(kāi)發(fā)者們?cè)诮ㄔO(shè)著上層的AI算法;而在AI底層,如何讓工具變得更加易用、更加普惠,這正是我們?cè)谧龅氖虑椤?/p>

從去年開(kāi)始,我就在做阿里靈杰,無(wú)論從數(shù)據(jù)管理、數(shù)據(jù)治理、算法開(kāi)發(fā),到完整的AI智算解決方案,目的是能夠提供一個(gè)用戶友好、高性能、高彈性的產(chǎn)品和能力。

360截圖16251112669372.png

非常感謝大家今天能夠花15分鐘時(shí)間聽(tīng)我的分享,疫情現(xiàn)在放開(kāi)了,希望有機(jī)會(huì)能夠在線下見(jiàn)面,或者通過(guò)線上進(jìn)行技術(shù)上或業(yè)務(wù)上的一些交流,再次謝謝大家!

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無(wú)評(píng)論