AI、5G、云計(jì)算技術(shù)快速迭代,開發(fā)者如何解決計(jì)算焦慮?

InfoQ大咖說
近幾年,AI 領(lǐng)域許多給人留下深刻印象的技術(shù)突破都是“大力出奇跡”類型,即算法的新鮮度不強(qiáng) ,但是通過使用更多的數(shù)據(jù)、更多的算力,實(shí)現(xiàn)更驚艷的效果 。

近幾年,AI 領(lǐng)域許多給人留下深刻印象的技術(shù)突破都是“大力出奇跡”類型,即算法的新鮮度不強(qiáng) ,但是通過使用更多的數(shù)據(jù)、更多的算力,實(shí)現(xiàn)更驚艷的效果 。以最近火爆全球的 GPT-3 模型為例,其參數(shù)量高達(dá) 1700 億,有行業(yè)人士估計(jì)訓(xùn)練這一份模型需要 1200 萬美金,別說普通人玩不起,就是一般的公司也難以承擔(dān)。人工智能要真正實(shí)現(xiàn)全面落地,還面臨著巨大的鴻溝。

萬物智聯(lián)的時(shí)代就在眼前,數(shù)據(jù)的增長(zhǎng)、算法的發(fā)展將會(huì)給算力帶來越來越大的挑戰(zhàn),提高整個(gè)計(jì)算系統(tǒng)的性能與效率迫在眉睫。面對(duì)算力瓶頸,軟件層面能做些什么?如何進(jìn)一步通過軟件釋放硬件的最大性能?如何更好地滿足對(duì)海量數(shù)據(jù)進(jìn)行實(shí)時(shí)處理和分析的需求?實(shí)現(xiàn)“計(jì)算普惠”還有哪些途徑?

圍繞這些話題,9 月 25 日,在 InfoQ 大咖說直播間(觀看直播回放視頻 https://live.infoq.cn/room/467 ),以“跨越計(jì)算鴻溝:如何通過軟硬件協(xié)同實(shí)現(xiàn)算力的指數(shù)級(jí)提升?”為主題,InfoQ 邀請(qǐng)到英特爾中國(guó)研究院院長(zhǎng)宋繼強(qiáng),英特爾架構(gòu)、圖形和軟件集團(tuán)副總裁兼中國(guó)區(qū)總經(jīng)理謝曉清,南京大學(xué)軟件工程教授張賀,清華大學(xué)計(jì)算機(jī)系長(zhǎng)聘副教授翟季冬,中科院計(jì)算所研究員崔慧敏進(jìn)行分析和探討。

智能互聯(lián)時(shí)代,算力面臨哪些挑戰(zhàn)?

在全球疫情大流行的背景下,互聯(lián)網(wǎng)、數(shù)字經(jīng)濟(jì)、人工智能加速發(fā)展,今年年初這幾個(gè)月的疫情,對(duì)數(shù)字化轉(zhuǎn)型的推動(dòng)甚至超過了過去 10 年。但與此同時(shí),也導(dǎo)致數(shù)字鴻溝的問題進(jìn)一步加劇,這背后反映的是什么問題?當(dāng)前計(jì)算力面臨著哪些方面的挑戰(zhàn)?

英特爾中國(guó)研究院院長(zhǎng)宋繼強(qiáng):

疫情讓我們的數(shù)字化進(jìn)程突然提速,提速帶來的效果是我們更快地實(shí)現(xiàn)了系統(tǒng)或者說終端設(shè)備的聯(lián)網(wǎng)化和智能化。很多數(shù)據(jù)開始從智能設(shè)備不斷往網(wǎng)絡(luò)、往云里去送。不僅數(shù)據(jù)量很大,按照統(tǒng)計(jì)數(shù)字來講是以 25% 的年復(fù)合增長(zhǎng)率在增長(zhǎng),而現(xiàn)在的計(jì)算力只能處理其中很小一部分。數(shù)據(jù)類型也很多樣,而且很多數(shù)據(jù)都需要實(shí)時(shí)處理,這導(dǎo)致我們對(duì)計(jì)算的要求發(fā)生了很大的變化。

另外,很多數(shù)據(jù)處理需要用 AI 模型,AI 模型本身就有很多的參數(shù),也就是元數(shù)據(jù)。這些參數(shù)也需要快速的存取,需要被計(jì)算,這就帶來了非常多的新挑戰(zhàn)。

同時(shí),上下行的帶寬分配也和以前不同了,以前是下載的東西多,現(xiàn)在變成上行的壓力會(huì)越來越大,而且大家希望看到很快速的處理。那么 計(jì)算到底在哪兒做也是一個(gè)問題。在云端做還是在終端做,還是在最新提出的邊緣計(jì)算做?邊緣又在哪里?

數(shù)字鴻溝主要指的是算力、網(wǎng)絡(luò)、帶寬分配不均勻。在發(fā)達(dá)地區(qū),密集的城市地區(qū)會(huì)有比較好的算力和網(wǎng)絡(luò)支持,但到偏遠(yuǎn)地區(qū),西部地區(qū)開發(fā)還比較慢的地區(qū),在這一次疫情來的時(shí)候,就很難馬上享受到數(shù)字化的便捷。上網(wǎng)課缺乏好的網(wǎng)絡(luò),缺乏快的計(jì)算設(shè)備,用 AI 去做加速也很困難。其實(shí)真正的數(shù)字化,對(duì)整個(gè)基礎(chǔ)設(shè)施的建設(shè),終端的硬件能力建設(shè),包括網(wǎng)絡(luò)側(cè)、邊緣計(jì)算的異構(gòu)的加速都還有很大的挑戰(zhàn),還有很多地方需要提升。

清華大學(xué)計(jì)算機(jī)系長(zhǎng)聘副教授翟季冬:

談到應(yīng)用和算力之間的鴻溝,我想分享幾個(gè)數(shù)據(jù)。最近幾年自然語言處理領(lǐng)域發(fā)展非常迅速,2018 年 6 月份推出的 GPT 模型是 1.17 億個(gè)參數(shù),到 2019 年 2 月份,GPT-2 模型是 15 億個(gè)參數(shù),到今年 5 月份最新的 GPT-3 模型參數(shù)已經(jīng)高達(dá) 1750 億個(gè)。從 GPT-1 到 GPT-3,短短兩年時(shí)間,這個(gè)模型的參數(shù)量增長(zhǎng)了 1000 倍。

據(jù) OpenAI 公司的最新統(tǒng)計(jì),OpenAI 在 2019 年計(jì)算了自 2012 年以來所有模型所用的計(jì)算量。他們發(fā)現(xiàn)最大規(guī)模的 AI 模型所需要的算力已經(jīng)增長(zhǎng)了 30 萬倍,平均是每 3.4 個(gè)月翻一倍。而根據(jù)摩爾定律,芯片增長(zhǎng)速度的平均周期是 18 個(gè)月到 24 個(gè)月,而且現(xiàn)在摩爾定律增長(zhǎng)還有放緩的節(jié)奏。

從這些數(shù)據(jù)來看,我覺得 當(dāng)前發(fā)展最主要的問題就是應(yīng)用對(duì)算力的需求在逐漸增加,算力和應(yīng)用之間的鴻溝變得越來越大,算力問題成為當(dāng)前非常重要的一個(gè)矛盾。

南京大學(xué)軟件工程教授張賀:

除了剛剛宋院長(zhǎng)提到的,由算力或者網(wǎng)絡(luò)等資源分布不均勻引起的數(shù)字鴻溝或者說算力鴻溝,實(shí)際上鴻溝還體現(xiàn)在其他方面,比如說核心技術(shù)上。 目前美國(guó)掌握著大部分的關(guān)鍵技術(shù),國(guó)內(nèi)雖然也有像中星微、深鑒科技、寒武紀(jì)這樣的企業(yè),但在數(shù)量上和質(zhì)量上都存在差距,這是一個(gè)比較明顯的差異。

另一方面,在科學(xué)研究和產(chǎn)品落地這兩者之間還存在著一定的鴻溝。 過去我們經(jīng)歷了互聯(lián)網(wǎng)從興起到發(fā)展再到普及的過程,實(shí)際上互聯(lián)網(wǎng)的商業(yè)化是一個(gè)長(zhǎng)期的過程。在這個(gè)過程當(dāng)中,我們前期看到的和我們現(xiàn)在感知到的,我們生活當(dāng)中接觸到的互聯(lián)網(wǎng)可能有很大的不同。在科學(xué)研究,在理論上面,雖然說現(xiàn)在有很多的人在投入,但和實(shí)際的落地中間還是有一定差距的。短期內(nèi)的改善并不是很樂觀?,F(xiàn)在很多人工智能領(lǐng)域的知名人物也有回歸學(xué)術(shù)界的意愿。短期內(nèi)要突破,尤其是在產(chǎn)業(yè)落地的突破,可能需要一個(gè)過程。

還有一個(gè),在教育方面。在人才教育培養(yǎng)方面,國(guó)內(nèi)計(jì)算機(jī)教育的模式也有一定的割裂。近幾年,學(xué)科越分越多、越分越細(xì),這就導(dǎo)致了人學(xué)習(xí)的內(nèi)容局限于一個(gè)比較狹窄的范圍內(nèi)。比如說在計(jì)算機(jī)里,學(xué)硬件的人可能不學(xué)軟件,學(xué)軟件的人對(duì)硬件也了解很少,這樣很難去培養(yǎng)真正落地型的人才,尤其是在 AI 領(lǐng)域,我們需要一些復(fù)合人才。 比如說硬件、軟件、數(shù)據(jù)科學(xué),這也是我們現(xiàn)在所謂數(shù)字鴻溝的一個(gè)表現(xiàn)。

圍繞算力方面的挑戰(zhàn)來談的話:一個(gè)是 對(duì)于算力依賴上的不均衡。比如說在數(shù)據(jù)學(xué)習(xí)當(dāng)中,我們更多依賴于英偉達(dá)的 GPU,它市場(chǎng)占有率高并不僅是硬件的架構(gòu)適合于深度學(xué)習(xí),另一方面它有一個(gè) CUDA 庫,這個(gè)庫也可以幫助我們編寫基于深度學(xué)習(xí)的項(xiàng)目。這兩者實(shí)際上會(huì)形成馬太效應(yīng),也就是說強(qiáng)者恒強(qiáng),別人要搶占這個(gè)市場(chǎng)并不容易。這樣一種一家獨(dú)大的現(xiàn)象,也會(huì)造成對(duì)特定架構(gòu)或者是特定供應(yīng)商的依賴,某種程度上這是一種壟斷的現(xiàn)象。

圍繞算力的另一個(gè)挑戰(zhàn)是成本。 現(xiàn)在神經(jīng)網(wǎng)絡(luò)訓(xùn)練主要使用 CPU 或 GPU,這些硬件的成本是很高的。即便你使用一些類似于谷歌的服務(wù),成本也是很高的。另外模型訓(xùn)練成本也很高,尤其是大規(guī)模模型。雖然目前沒有一個(gè)標(biāo)準(zhǔn)的統(tǒng)計(jì),但是現(xiàn)在有一些單次訓(xùn)練費(fèi)用的統(tǒng)計(jì)。剛剛翟季冬老師提到了 GPT 模型訓(xùn)練,有報(bào)道說,大型的 BERT 模型是在 16 個(gè) Cloud TPU 上進(jìn)行訓(xùn)練,需要訓(xùn)練 4 天時(shí)間。核算一下單價(jià),實(shí)際上這一次訓(xùn)練的成本就已經(jīng)需要 1.2 萬多美金,模型從搭建到最后確定可以使用,至少要進(jìn)行上百次訓(xùn)練,這個(gè)成本是非常高的。

還有使用效率的問題,模型有大量的參數(shù),而且還需要大量的數(shù)據(jù),這些數(shù)據(jù)需要很多存儲(chǔ)空間來保存和進(jìn)行后續(xù)訓(xùn)練。但是單機(jī)設(shè)備存儲(chǔ)空間有限,這就需要并行模型訓(xùn)練。我們要把模型拆分到不同的計(jì)算節(jié)點(diǎn)上,一拆分就會(huì)在不同的設(shè)備之間形成一定的數(shù)據(jù)依賴。數(shù)據(jù)同步或者是通訊傳輸,也需要開銷。極端情況下,在這種網(wǎng)絡(luò)模型的訓(xùn)練上,如果是單機(jī)或者是單卡的利用率,有可能不到 50%。這就需要在分布式情況下有一個(gè)很好的訓(xùn)練策略。訓(xùn)練策略在時(shí)間和空間上可能會(huì)起到一定作用,但是你需要在模型精度上做一些犧牲,也是一個(gè)影響。

中科院計(jì)算所研究員崔慧敏:

我的觀點(diǎn)可以總結(jié)為一個(gè)詞:多樣化,未來像人工智能和超算會(huì)越來越融合。

多樣性又體現(xiàn)在幾個(gè)方面:首先是負(fù)載有多樣化的需求。 不同類型的負(fù)載對(duì)算力有不同的需求。這當(dāng)中有計(jì)算量超級(jí)密集的超算類負(fù)載,也有現(xiàn)在很火的人工智能類的負(fù)載,也有通量非常大但數(shù)據(jù)處理強(qiáng)度不太高的負(fù)載。另外在端側(cè),對(duì)算力的需求就更加多樣化了,像手機(jī)上也是既有圖象處理類的,也有人工智能類的,還有游戲、網(wǎng)頁等等不同的負(fù)載。

負(fù)載的多樣化又帶來了硬件的多樣化設(shè)計(jì)。當(dāng)摩爾定律走到今天,我們已經(jīng)不得不選擇一些專用架構(gòu)持續(xù)獲得性能提升。 在服務(wù)器側(cè)有針對(duì)超算的 GPU 等架構(gòu),針對(duì) AI 有 TPU、寒武紀(jì)等架構(gòu)。針對(duì)網(wǎng)絡(luò)的流式負(fù)載則有路由芯片的架構(gòu)。在手機(jī)側(cè)更是如此,現(xiàn)在我們的手機(jī)基本上都既有大的 CPU 核也有小的 CPU 核,同時(shí)也會(huì)有 GPU 處理器,還會(huì)有 NPU、DSP 等等各種加速單元。整體上呈現(xiàn)出一個(gè)非常明顯的異構(gòu)趨勢(shì)。

由此,上層的多樣化和下層的多樣化給系統(tǒng)軟件帶來了非常大的麻煩。 系統(tǒng)軟件起的是橋梁的作用,把上面的應(yīng)用映射到下面的硬件上。既然現(xiàn)在上面和下面都越來越多樣化和異構(gòu)化了,也就意味著中間的系統(tǒng)軟件的任務(wù)越來越艱巨了。特別是目前的國(guó)際大趨勢(shì)下,系統(tǒng)軟件還有一個(gè)任務(wù)就是把越來越稀缺的硬件資源用到極致。 所以對(duì)做系統(tǒng)軟件的人來說,在上下都極度多樣化差異化的背景下,要努力榨出最后一滴“油水”。

英特爾架構(gòu)、圖形和軟件集團(tuán)副總裁兼中國(guó)區(qū)總經(jīng)理謝曉清:

現(xiàn)在計(jì)算鴻溝其實(shí)就是一個(gè)需求跟我們能夠提供的計(jì)算能力之間的鴻溝。技術(shù)的提高是跟需求密切相關(guān)的。比如說英特爾在 PC 時(shí)代,制造出 PC 之后,也制造出來一些人類的不同需求,包括辦公室應(yīng)用、游戲,其實(shí)很多需求是先有技術(shù)再反過來去影響它的。

現(xiàn)在,我覺得是一個(gè)需求和技術(shù)你追我趕的過程。 中間有一段時(shí)間停滯了,PC 的能力五六年不更新似乎也沒有問題。后來,移動(dòng)互聯(lián)網(wǎng)誕生,又催生了一次指數(shù)級(jí)的算力增長(zhǎng),把用戶的需求釋放出來。 從前幾年開始,我們進(jìn)入到云計(jì)算、人工智能的時(shí)代。很多的用戶需求又到了算力不一定完全跟得上的階段。尤其因?yàn)槟瓿醯囊咔?,有一些原來可能不是非常著急的用戶?chǎng)景,變得非常常見。包括我們現(xiàn)在的視頻會(huì)議,可能在最近的半年當(dāng)中,我們開的視頻會(huì)議比原來 5 年時(shí)間開的都多。這些其實(shí)都是需求和技術(shù)之間互相追趕,互相釋放彼此的潛能。

我相信計(jì)算鴻溝未來還是會(huì)持續(xù)下去,矛盾會(huì)體現(xiàn)在不太一樣的方面,不過這也是一個(gè)動(dòng)力,能夠推動(dòng)我們做技術(shù)的人一步一步向前走。

如何通過軟硬件協(xié)同,實(shí)現(xiàn)算力指數(shù)級(jí)提升?

現(xiàn)在業(yè)界基本上已經(jīng)形成共識(shí),要實(shí)現(xiàn)算力的指數(shù)級(jí)提升需通過軟硬協(xié)同,那么實(shí)現(xiàn)軟硬件協(xié)同的最好方式是什么?需要具備哪些特點(diǎn)才能達(dá)到比較理想的效果?業(yè)界現(xiàn)在有哪些比較好的嘗試?

清華大學(xué)計(jì)算機(jī)系長(zhǎng)聘副教授翟季冬:

現(xiàn)在業(yè)界一個(gè)非常明顯的趨勢(shì)就是摩爾定律逐漸放緩,剛剛崔慧敏老師也提到,現(xiàn)在的負(fù)載是非常多樣化的,最近幾年做得比較多的就是領(lǐng)域定制芯片。2019 年,圖靈獎(jiǎng)獲得者 Hennessy、Patterson 在《計(jì)算機(jī)架構(gòu)的新黃金時(shí)代》一文中強(qiáng)調(diào),隨著摩爾定律的放緩,領(lǐng)域定制芯片是未來發(fā)揮算力的一個(gè)非常重要的方向。

我們看過去十年二十年芯片的發(fā)展,通用處理器在某種程度上來說一直占據(jù)非常重要的地位。通用處理器試圖解決所有應(yīng)用領(lǐng)域的問題,但實(shí)際上像剛剛崔慧敏老師也提到,應(yīng)用有多樣性,不同的負(fù)載有不同的負(fù)載特征,有的可能是計(jì)算密集,有的可能是訪存密集,還有可能很多負(fù)載對(duì)存儲(chǔ)需求壓力會(huì)特別大。

所以我們想做一個(gè)芯片或硬件能適用于所有領(lǐng)域,這個(gè)方向肯定會(huì)很難。但是如果我們可以針對(duì)一個(gè)特定領(lǐng)域的特征,去挖掘這個(gè)領(lǐng)域本身的計(jì)算、訪存、IO 的負(fù)載特征,就可以設(shè)計(jì)一個(gè)非常特定的處理器到上層的存儲(chǔ),到系統(tǒng)軟件,這樣可以帶來很大的算力提升。

英特爾中國(guó)研究院院長(zhǎng)宋繼強(qiáng):

剛剛翟季冬老師講到一個(gè)點(diǎn)非常好,現(xiàn)在通過領(lǐng)域定制芯片的方式去解決各種負(fù)載的多樣性,能比較有效地最大化硬件加速的效率,不管是從計(jì)算、訪存還是從一些中間通信的帶寬、IO 的定制上來說。這是目前從架構(gòu)層面來講非常好且有效的一種方式。但這種方式也存在一些困難,首先,如果領(lǐng)域定制芯片要能夠達(dá)到 ASIC 這種專用加速器的性價(jià)比和能效比,就需要這個(gè)應(yīng)用的量很大,才能支持大家去做一款 ASIC 專門為它服務(wù)。 當(dāng)你的應(yīng)用量沒有那么大的情況時(shí),商業(yè)規(guī)律讓你做不了 ASIC。另外,應(yīng)用多樣性變化的趨勢(shì)很快,要通過做 ASIC 去跟上它的變化太難了。

通過多種不同架構(gòu)的組合,尋求最符合客戶需要的性價(jià)比、能耗比的折中,這是一種最好的通過多架構(gòu)組合的方式去應(yīng)對(duì)應(yīng)用多樣性的方法。需要在不同的架構(gòu)之間,有很好的折中的處理辦法,并且能夠集成一些不同種類的方案。比如說板級(jí)集成,CPU、GPU、FPGA 這些大芯片之間集成?;蛘哒f甚至可以提供像通過封裝級(jí)集成,讓你擁有更小的尺寸和功耗,但是仍然可以提供多種加速功能。

更重要的是,集成起來之后,系統(tǒng)里有了異構(gòu)單元,如何用專業(yè)的軟件去給它提供加速,并且能夠讓上層的軟件開發(fā)人員不用跟著里面很多不同的硬件架構(gòu)換來換去,去試很多種不同的組合。這就需要上層的軟件屏蔽掉底層硬件之間的差異性,但是能夠很好的去對(duì)接上面的應(yīng)用開發(fā)框架,并且利用好不同硬件之間的負(fù)載分配和通訊同步,包括如何在當(dāng)中尋找最好的配比。

這一塊業(yè)界也在尋找更好的完整的軟件解決方案,最近英特爾也和業(yè)界一起推出了一個(gè)開放的跨架構(gòu)編程模型 oneAPI,它可以通過軟件層把很多不同的硬件屏蔽,只在上層暴露出統(tǒng)一的開發(fā)接口,并且在底層能夠支持不同的專用加速庫,快速提升使用不同種類硬件的效能。

軟硬件協(xié)同是目前最好的一種方法,并且需要在不同種類的硬件之間有一些靈活搭配的方案,而不是說只依賴于 DSA 這種領(lǐng)域加速硬件一種方式。

中科院計(jì)算所研究員崔慧敏:

軟硬件協(xié)同設(shè)計(jì)還是針對(duì)特定領(lǐng)域做的,針對(duì)特定領(lǐng)域進(jìn)行深度的資源垂直整合,來發(fā)揮硬件的處理能力。

我覺得有兩個(gè)方面,因?yàn)?軟硬件既分工又合作,首先討論一下它們到底是怎么分工的?軟硬件之間的界面定義要怎么做,這是未來一個(gè)非常重要的問題,也需要根據(jù)不同領(lǐng)域來重新探索。具體來說哪些事情由硬件做,哪些事情由軟件做,它們的邊界如何劃分?這里面其實(shí)是一個(gè)平衡,硬件做的事情越多,意味著硬件資源的使用效率越高,對(duì)應(yīng)付出的代價(jià)就是整個(gè)通用性會(huì)受到影響;反之,如果硬件做的事情少了,通用性就會(huì)改善,但同時(shí)帶來資源使用效率的降低。那么平衡點(diǎn)在哪里,哪些東西需要硬化,哪些東西需要軟化,這是我們協(xié)同設(shè)計(jì)時(shí)需要考慮的第一個(gè)點(diǎn)。

像 AI 在這個(gè)方面就進(jìn)行了很多有趣的探索,不管是谷歌的 TPU,還是寒武紀(jì)大電腦系列,還是很多 AIoT 的智能芯片,其實(shí)都是把人工智能的計(jì)算范式提取出來,根據(jù)這個(gè)范式來設(shè)計(jì)自己應(yīng)用場(chǎng)景的特征。像 TPU 和寒武紀(jì)定義了人工智能比較基礎(chǔ)的指令集,所以對(duì)軟件有很大的靈活性。而很多 AIoT 芯片是犧牲了一定的靈活性以追求更高的性能功耗比。這兩種無所謂優(yōu)劣高下之分,完全是設(shè)計(jì)之初由應(yīng)用的市場(chǎng)確定的。但是這確實(shí)是一個(gè)最初就需要確定好的關(guān)鍵決策,因?yàn)檫@不管對(duì)后期的整個(gè)生態(tài)還是軟件開發(fā)都有很大的影響。

分工完了就是合作了,角色劃分之后如何做協(xié)同。我覺得 在協(xié)同方面,有一個(gè)非常重要的因素可能比以往都重要得多,那就是工具。 因?yàn)?在整個(gè)軟硬協(xié)同的設(shè)計(jì)當(dāng)中,需要一套自上而下完備的工具軟件來支撐。 這當(dāng)中包括仿真器、編譯器以及各種性能、能耗、面積的分析工具。而且就像剛剛宋繼強(qiáng)院長(zhǎng)提到的,因?yàn)榧夹g(shù)和應(yīng)用更迭的周期是很快的,你要很快把這個(gè)東西做出來,要不然做出來的時(shí)候可能就已經(jīng)過時(shí)了。

在這個(gè)過程當(dāng)中就要快速實(shí)現(xiàn)一個(gè)指令集的定義,應(yīng)用到指令集的代碼生成,對(duì)生成的代碼和硬件的量化評(píng)估,這當(dāng)中每一個(gè)步驟都需要快速完成,這對(duì)工具鏈軟件的挑戰(zhàn)還是很大的。

簡(jiǎn)單總結(jié)一下,兩個(gè)永恒的主題,軟硬件如何分工,如何協(xié)作,都有很大的機(jī)會(huì)。

英特爾架構(gòu)、圖形和軟件集團(tuán)副總裁兼中國(guó)區(qū)總經(jīng)理謝曉清:

我想從英特爾公司的角度來談一談這個(gè)問題。英特爾傳統(tǒng)上來講是一家硬件公司,從 PC 時(shí)代開始,其實(shí)是以通用計(jì)算這樣的一個(gè) CPU 算力來成就現(xiàn)在的英特爾的。

但是,人工智能發(fā)展起來之后,其實(shí)有很多人工智能或者是數(shù)據(jù)處理方面的特殊需求,以至于整個(gè)硬件行業(yè)開始向 GPU、FPGA,包括 AI 的 XPU 方向發(fā)展。英特爾目前也在往這個(gè)方向轉(zhuǎn)型。從硬件的多樣化角度出發(fā),異構(gòu)計(jì)算其實(shí)現(xiàn)在已經(jīng)成為了我們的主題,這是跟行業(yè)同步發(fā)展是一樣的道理。

同時(shí),異構(gòu)計(jì)算其實(shí)給研發(fā)人員,或者說軟件開發(fā)者,帶來了很多麻煩。尤其是現(xiàn)在的應(yīng)用程序,用戶場(chǎng)景越來越多,很多上層的軟件開發(fā)者其實(shí)是沒有時(shí)間也沒有精力去學(xué)那么多不同架構(gòu)的硬件的。尤其是現(xiàn)在,基于云計(jì)算平臺(tái)的開發(fā)對(duì)硬件的依賴性,或者對(duì)硬件的透明度越來越往抽象層發(fā)展。

從系統(tǒng)軟件的角度來看,我們會(huì)更多去研究怎么把硬件的每一層抽象做好,以讓開發(fā)者在不同層次上都可以用他們?cè)瓉硎煜さ姆绞椒椒ㄗ鏊麄兊拈_發(fā)工作。

另一方面,怎么提高開發(fā)人員的生產(chǎn)效率也是一個(gè)非常重要的方面。他們?cè)瓉砜赡苄枰獙懞軓?fù)雜的程序才可以解決的問題,如果可以在系統(tǒng)層面提供一套非常用戶友好,并且在抽象層方面能夠做到充分優(yōu)化的解決方案,也可以非常大地提高開發(fā)者的工作效率。

前面宋繼強(qiáng)院長(zhǎng)也提到了 oneAPI,這是英特爾的一個(gè)嘗試。從英特爾的角度來看,傳統(tǒng) PC 行業(yè)有很多的開發(fā)者生態(tài)已經(jīng)在那個(gè)地方了,進(jìn)一步往前走的話,怎么能夠在異構(gòu)計(jì)算這樣一個(gè)世界,比較好滴借鑒原來的經(jīng)驗(yàn),同樣把原來的開發(fā)者生態(tài)挪到異構(gòu)計(jì)算開發(fā)者生態(tài)上來,使得我們的計(jì)算能力能夠指數(shù)級(jí)的增長(zhǎng)。從而做到不僅是在硬件層面上是指數(shù)級(jí)增長(zhǎng)的,在軟件開發(fā)效率上也是一個(gè)指數(shù)級(jí)增長(zhǎng)的過程。

南京大學(xué)軟件工程教授張賀:

我以軟件工程的角度來談?wù)勥@個(gè)問題。這涉及到軟件工程里的一個(gè)概念,也就是軟件定義?,F(xiàn)在是軟件定義一切,這個(gè)“一切”怎么理解?我們可以把硬件虛擬化,用 API 暴露硬件可以操作的部分,或者接受你的調(diào)用管理辦法,實(shí)現(xiàn)硬件按需管理。

通過這樣一種虛擬化的形式去把包括算力、存儲(chǔ)、網(wǎng)絡(luò)這些 IT 資源,進(jìn)行一個(gè)統(tǒng)一的、最優(yōu)化的管理。這當(dāng)中不僅計(jì)算本身是算力,同時(shí)網(wǎng)絡(luò)、存儲(chǔ)也都是算力的表現(xiàn)。

我們可以使用軟件定義硬件功能,比如說通過軟件的形式給硬件進(jìn)行賦能。實(shí)際上我們剛剛提到 API,API 是一個(gè)中間的核心,在 API 之上是軟件可以完成的,也就是一切皆可編程的概念,通過 API 我們可以實(shí)現(xiàn)軟硬件相互之間的解耦,一旦解耦之后,兩者就可以各自獨(dú)立演化。軟件要做的是向個(gè)性化方向發(fā)展,它要滿足的是不同用戶群體對(duì)于算力的個(gè)性化要求;而硬件應(yīng)該是向標(biāo)準(zhǔn)化發(fā)展,它們相互之間可以通過虛擬化的形式結(jié)合起來。 通過一體化的硬件,使用標(biāo)準(zhǔn)化、虛擬化的形式進(jìn)行解耦,這樣硬件就只完成它自己的功能,具體的控制邏輯或業(yè)務(wù)邏輯交給軟件去完成。

在軟件定義的概念當(dāng)中,和算力相關(guān)的一個(gè)是軟件定義算力,或者說分布式算力。本質(zhì)上就是把算力集中起來,通過軟件統(tǒng)一進(jìn)行協(xié)調(diào)使用。還有軟件定義存儲(chǔ),也就是說通過軟件把計(jì)算的結(jié)果進(jìn)行一定的存儲(chǔ)。過去的計(jì)算,可能很多都是算過的,那就沒有必要消耗很多的計(jì)算資源去重新計(jì)算。而是把算過的加上要重新計(jì)算的,或者說增量,然后把它們通過軟件形成來結(jié)合。其他還有剛剛提到軟件定義網(wǎng)絡(luò),還有軟件定義面向用戶的應(yīng)用服務(wù),等等。

如何進(jìn)一步通過軟件釋放硬件最大性能?

在軟硬件協(xié)同的基礎(chǔ)之上,軟件方面還有什么創(chuàng)新思路,能夠進(jìn)一步釋放硬件最大性能?如何通過軟件快速提升算力,滿足對(duì)海量數(shù)據(jù)進(jìn)行實(shí)時(shí)處理和分析的需求?

英特爾架構(gòu)、圖形和軟件集團(tuán)副總裁兼中國(guó)區(qū)總經(jīng)理謝曉清:

其實(shí)有一些新的思路我們也在探討當(dāng)中。從行業(yè)來看,AI 所釋放出來的用戶場(chǎng)景,使得對(duì)我們做軟件也好,做硬件也好,驅(qū)動(dòng)力還是非常大的。

現(xiàn)在軟件從業(yè)人員也特別多,軟件開發(fā)出來的產(chǎn)品在兩年前、五年前根本沒有辦法想到的。所以我覺得,其實(shí)技術(shù)從業(yè)人員的壓力非常大,我們?cè)趺礃訌募夹g(shù)開發(fā)這個(gè)層面滿足不同的需求。從我們現(xiàn)在內(nèi)部看到的情況,通過軟件優(yōu)化讓硬件潛能得到最大程度的發(fā)揮,這些工作我們一直都在做。

舉個(gè)例子來講,比如說 ResNet-50 推理的 Throughput 在過去兩年之內(nèi),硬件一樣的情況之下,我們用軟件優(yōu)化的方式可以把原來的性能提高到 285 倍左右。我們?cè)瓉硐胂癞?dāng)中,軟件的優(yōu)化可能就是 10%、15% 的優(yōu)化,現(xiàn)在我們發(fā)現(xiàn)由于算法、指令集方面的充分利用,這個(gè)潛能是非常大的。毫不夸張地講,軟件優(yōu)化可以使得我們?cè)瓉碜鐾评淼拿爰?jí)延時(shí),提升到現(xiàn)在的毫秒級(jí);原來無法達(dá)到實(shí)時(shí)體驗(yàn)的用戶場(chǎng)景現(xiàn)在完全可以做到實(shí)時(shí)。訓(xùn)練其實(shí)也是一樣的,原來需要幾周的時(shí)間,現(xiàn)在只需要幾個(gè)小時(shí),甚至是分鐘級(jí)別。因?yàn)闀r(shí)間的縮短,使得原來的一些不可能的用戶場(chǎng)景,現(xiàn)在變成可能。

中科院計(jì)算所研究員崔慧敏:

就像我之前提的,系統(tǒng)軟件要榨干硬件當(dāng)中的每一滴“油水”,那么怎么去榨干呢?首先我們要對(duì)資源進(jìn)行非常極致的精細(xì)化管理,這是系統(tǒng)軟件需要解決的最底層的問題。

再往上走一點(diǎn),對(duì)資源使用的動(dòng)態(tài)模型要構(gòu)建起來。這是我從編譯器的角度來說的,以前我們做編譯器都是給你一個(gè)固定硬件,你拿一個(gè)程序去給它生成代碼,這個(gè)芯片上不管是 Cache 還是寄存器,編譯器都認(rèn)為是這一個(gè)程序獨(dú)占的。但是現(xiàn)在不管是數(shù)據(jù)中心還是手機(jī)上,都是同時(shí)運(yùn)行非常多負(fù)載的,這意味著我們?cè)诰幾g一個(gè)程序的時(shí)候,并不知道它運(yùn)行的時(shí)候能拿到多少資源。傳統(tǒng)的編譯優(yōu)化方法拿過來就會(huì)有很多問題。這個(gè)問題其實(shí)之前在數(shù)據(jù)中心剛剛開始實(shí)施混部的時(shí)候,就有非常多的研究人員探討過,也提出了很多方法來解決這個(gè)問題。但是基本上都是通過資源的合理預(yù)留方式來應(yīng)對(duì)的。現(xiàn)在就像我們剛剛提的,資源越來越寶貴了,尤其是考慮到當(dāng)下的形勢(shì),可能我們都只能用比較落后的工藝來做,以前你預(yù)留一部分的方法就玩不轉(zhuǎn)了。我們必須把一個(gè)程序的性能和使用的資源之間建立一個(gè)比較精確的模型,這也是一個(gè)很難的問題,但是我認(rèn)為對(duì)于 DSA 來說是必須要解決的問題,也是我們做編譯的研究人員需要跨越的一個(gè)比較大的鴻溝。

再往上,我覺得 軟件棧需要重新思考。 現(xiàn)在我們的軟件棧很多都是從 CPU 上繼承過來的,它是一個(gè)層次化剝離做得非常好的架構(gòu)。以 GPU 為例,底層是操作系統(tǒng)和 Driver,往上一層有 CUDA 或 OpenCL 的運(yùn)行時(shí),再往上是各種編程框架的運(yùn)行時(shí),比如可能是 Java 的 JVM、TVM 的運(yùn)行時(shí)、TensorFlow 的運(yùn)行時(shí)等等。這種設(shè)計(jì)在 CPU 場(chǎng)景下非常好,因?yàn)槊繉佑忻繉拥某橄?,各層之間實(shí)現(xiàn)一個(gè)互相的協(xié)作,遷移非常簡(jiǎn)單。但是我們也要注意到一個(gè)問題,每層抽象都要付出它的代價(jià),我們不能又要馬兒跑,又要馬兒不吃草,這個(gè)代價(jià)就是性能的犧牲。

當(dāng)我們切換到 DSA 這個(gè)領(lǐng)域追求極致算力的時(shí)候,跑和吃草這件事情就需要重新想一想了。我們是不是還需要這么多分層?各個(gè)分層之間有沒有重復(fù)做的事情?有沒有重新整合的機(jī)會(huì)?這也是我們現(xiàn)在正在開展的一個(gè)很有意思的事情。機(jī)會(huì)還是蠻多的。我覺得 從現(xiàn)在的軟硬協(xié)同提升算力來講,對(duì)系統(tǒng)軟件的研究人員來說也算是一個(gè)黃金時(shí)代。

南京大學(xué)軟件工程教授張賀:

實(shí)際上性能本身天然就是和普遍適用性是一對(duì)矛盾。除了在硬件架構(gòu)上,或者說在芯片層面上我們可以做一些工作之外,或許我們也可以在其他非算力的方面,比如存儲(chǔ)或者是網(wǎng)絡(luò)上,去擠榨一些性能。

一是從存儲(chǔ)的角度來看,因?yàn)楝F(xiàn)在很多大的數(shù)據(jù)中心,都會(huì)有很大的應(yīng)用負(fù)載。比如說像搜索引擎、推薦系統(tǒng),實(shí)際上它們都是以數(shù)據(jù)為中心的,它的數(shù)據(jù)是有一定的局部性特征。

另一方面,現(xiàn)在傳統(tǒng)計(jì)算機(jī)的結(jié)構(gòu)是以計(jì)算為中心,它會(huì)有多層存儲(chǔ)結(jié)構(gòu),如果需要完成這個(gè)任務(wù)的時(shí)候,它就把數(shù)據(jù)從硬盤搬到 SSD,或者說到內(nèi)存再到緩存。從存儲(chǔ)介質(zhì)來說,需要經(jīng)過層層的數(shù)據(jù)搬運(yùn)才可以完成這個(gè)計(jì)算。那么 怎么減少這種數(shù)據(jù)搬運(yùn)的開銷,我們可以通過存儲(chǔ)去擠榨一些。

在存儲(chǔ)量這一塊,我們也可以盡可能的利用存儲(chǔ)介質(zhì)本身有限的內(nèi)置的計(jì)算能力,根據(jù)數(shù)據(jù)存儲(chǔ)的位置以及它提取信息的特征、方式,盡可能在存儲(chǔ)層面完成一定的處理,這樣也可以減少 IO 的開銷。 這是從存儲(chǔ)的角度,看能不能給性能帶來一定貢獻(xiàn)。

還有在網(wǎng)絡(luò)上,就是近云端的計(jì)算形式。現(xiàn)在智能設(shè)備非常多,傳統(tǒng)的集中格式的云計(jì)算方式很難滿足 IoT、無人駕駛這樣的應(yīng)用場(chǎng)景。近些年提出的后云計(jì)算時(shí)代、霧計(jì)算、邊緣計(jì)算、移動(dòng)邊緣計(jì)算,都是對(duì)云計(jì)算的某一種擴(kuò)展。比如說把云計(jì)算設(shè)備部署在離終端用戶比較近的地方,這個(gè)可能是邏輯上比較近,或者物理距離比較近的位置,這樣就可以根據(jù)用戶所在位置去充分利用端的硬件資源。

另外比如邊緣人工智能技術(shù),也就是把人工智能和邊緣計(jì)算進(jìn)行一定結(jié)合,把算法推理這一部分更多放到終端設(shè)備上,就能靠近數(shù)據(jù)源頭提供智能分析、處理的能力。一方面可以減少中心的計(jì)算壓力,提高效率;另一方面,也可以提供更安全的隱私保護(hù)。

清華大學(xué)計(jì)算機(jī)系長(zhǎng)聘副教授翟季冬:

快速分享個(gè)簡(jiǎn)短的例子。我在清華帶學(xué)生參加超算比賽,我們經(jīng)常會(huì)在一個(gè)固定的集群服務(wù)器上去優(yōu)化一個(gè)應(yīng)用程序,當(dāng)硬件不變時(shí),有時(shí)候優(yōu)化后程序性能會(huì)提高幾十到上百倍,這充分說明在軟件優(yōu)化方面還有很多空間。

剛剛很多老師提了在軟件方面的一些辦法,我本身的研究方向和崔慧敏老師比較類似,在編譯器和編程語言方向做過一些工作。從我的角度來說,針對(duì)底層異構(gòu)芯片,或者是領(lǐng)域定制的 AI 芯片,或者是其他的一些領(lǐng)域定制的芯片,要想充分發(fā)揮這些異構(gòu)器件的性能,上層需要一個(gè)非常好的,不但編程容易,而且可以充分發(fā)揮底層硬件性能的,領(lǐng)域定制的編程語言或編程模型,這是軟件層面上一個(gè)比較好的突破點(diǎn)。 比如說我們現(xiàn)在經(jīng)常用到的面向深度學(xué)習(xí)的 TensorFlow、PyTorch,其實(shí)這些都可以說是面向人工智能這個(gè)領(lǐng)域的定制的編程模型。從用戶的角度來說,它簡(jiǎn)化了用戶編程的復(fù)雜度。像剛剛崔慧敏老師提到的,做系統(tǒng)軟件就是要榨干底層硬件的所有性能,這些系統(tǒng)軟件需要交給專業(yè)人士去盡量發(fā)揮底層硬件的性能,這樣就可以更好地隔離普通用戶和底層越來越復(fù)雜的硬件之間的鴻溝。

英特爾中國(guó)研究院院長(zhǎng)宋繼強(qiáng):

除了分層優(yōu)化軟件,上層算法層級(jí)也可以帶來很大的提升。 特別是像 AI,如果算法不經(jīng)優(yōu)化直接去用,硬件的開銷是很大的。通常來講,對(duì)一個(gè)訓(xùn)練好的模型,如果能做很好的壓縮,這個(gè)壓縮既有寬度上的壓縮、參數(shù)的壓縮,還有計(jì)算位寬的壓縮,一般來講都可以達(dá)到百倍的提速比,從內(nèi)存占用到計(jì)算資源占用上都可以達(dá)到很高的提速比。

另外算法設(shè)計(jì)上也有很大的空間。比如說現(xiàn)在很多深度學(xué)習(xí)模型都涉及到歸一化這個(gè)過程。歸一化如果做算法調(diào)優(yōu),有可能把計(jì)算復(fù)雜度降得很低,降得很低以后,實(shí)際上需要硬件做一些調(diào)整。這種算法的調(diào)優(yōu)反過來又可以對(duì)硬件架構(gòu)的創(chuàng)新有指導(dǎo)作用。二者起到了相互促進(jìn)、互相扶持的作用。軟件優(yōu)化可以給硬件提升性能,同時(shí)也可以指導(dǎo)硬件進(jìn)一步增加一些特性,來進(jìn)一步放大軟件優(yōu)化的效果。 我們更希望看到一些跨層合作的案例和創(chuàng)新出現(xiàn)。

同時(shí) 在軟件算法層面,最好我們可以跳出現(xiàn)在的一些框架。 因?yàn)楝F(xiàn)在的框架通常都是已經(jīng)假設(shè)我們應(yīng)用已有的常用架構(gòu),比如 CPU、GPU、FPGA、ASIC 這些架構(gòu)去解決問題,然后對(duì)已有的深度學(xué)習(xí)模型進(jìn)行優(yōu)化。如果我們跳出來去看,可能還有更新的解決問題的辦法。

我們一方面追求把現(xiàn)在的一些問題、算法優(yōu)化好解決好,另一方面我們也要探索看做同樣一件事有沒有另外一種不同的思路。因?yàn)楝F(xiàn)在的做法很多時(shí)候能效比不高,如果我們?nèi)タ聪耦惸X計(jì)算這種全新的硬件架構(gòu)或者說全新的算法會(huì)帶來什么樣的效果,通常也會(huì)有一些驚人的發(fā)現(xiàn)。比如,我們現(xiàn)在初步的一些關(guān)于類腦計(jì)算芯片的研究發(fā)現(xiàn),做同樣的事,類腦芯片只需要比現(xiàn)在用深度學(xué)習(xí)方法少 1000 倍的功耗就可以做到。當(dāng)然這需要硬件架構(gòu)相應(yīng)做很大的改變,同時(shí)軟件算法也要做相應(yīng)的改變。

實(shí)現(xiàn)“計(jì)算普惠”還有哪些新路徑?

我們現(xiàn)在已經(jīng)進(jìn)入萬物智聯(lián)的時(shí)代,身邊很多設(shè)備,包括冰箱、電視,全都會(huì)變成一臺(tái)臺(tái)小型計(jì)算機(jī),不停地產(chǎn)生數(shù)據(jù),我們需要對(duì)這些數(shù)據(jù)進(jìn)行計(jì)算,這個(gè)算力的需求是日益增長(zhǎng)的。還有什么樣的方法或途徑能夠讓算力變得人人可用,不僅是用得起,而且能夠更方便、更容易地去使用?

南京大學(xué)軟件工程教授張賀:

首先是對(duì)于用戶來說,或者說對(duì)于普羅大眾如何提高大家的計(jì)算意識(shí)。計(jì)算意識(shí)一方面是用戶,或者說老百姓能夠有意識(shí)地去利用算力為自己提供個(gè)性化的服務(wù),也就是說他能夠想到這個(gè)事情。另外一個(gè)層面是對(duì)于廠商或基礎(chǔ)設(shè)施來說,他們能夠給這些用戶提供支持他踐行工作或者改善生活品質(zhì)的這些價(jià)值層面的輸出,并不簡(jiǎn)單的只是一個(gè)技術(shù)或者說計(jì)算工具的接口,這樣才能讓民眾直接意識(shí)到計(jì)算對(duì)他生產(chǎn)生活的價(jià)值。

其次,要構(gòu)建一個(gè)計(jì)算的或者說信息的生態(tài)環(huán)境。 現(xiàn)在人工智能并不僅僅是一個(gè)獨(dú)立存在,而是和物聯(lián)網(wǎng)、5G 通信、大數(shù)據(jù)等結(jié)合在一起的,最終要實(shí)現(xiàn)的是人、機(jī)、物智能地融合互動(dòng),讓不同的資源,無論是人類社會(huì)的資源,虛擬空間的資源,還是自然空間的資源都能夠整合到一起,而人是起到中心節(jié)點(diǎn)的作用。整合這些資源為人服務(wù),這需要我們構(gòu)建一個(gè)生態(tài)系統(tǒng),而不僅僅是提高算力就可以做到。

對(duì)于開發(fā)者,從技術(shù)方面來說,AI 領(lǐng)域的門檻還是比較高的,尤其是在算力、數(shù)據(jù)、開發(fā)平臺(tái)等等方面,這就會(huì)影響更多的從業(yè)者進(jìn)入。這和 AI 的普及和現(xiàn)在開發(fā)者的需求增長(zhǎng)是相矛盾的。我們?nèi)绾螌?duì)這些開發(fā)者提供有效的支持,對(duì)他們賦能,提高他們的生產(chǎn)力,這也是一點(diǎn)。

另一方面是數(shù)據(jù),數(shù)據(jù)是我們能夠保證計(jì)算質(zhì)量的一個(gè)重要條件,需要有大量的輸入,但是這些輸入是需要經(jīng)過特征工程的數(shù)據(jù)。如果輸入數(shù)據(jù)的質(zhì)量不理想,產(chǎn)生的模型輸出效果也不會(huì)好,就是我們傳統(tǒng)說的“Garbage in,Garbage out”的概念。雖然現(xiàn)在我們的數(shù)據(jù)量越來越多了,但是數(shù)據(jù)質(zhì)量還是有待提高,從數(shù)據(jù)的來源、數(shù)據(jù)的獲取以及數(shù)據(jù)的高質(zhì)量這些方面,以及是不是能夠開放一些經(jīng)過脫敏的數(shù)據(jù),讓開發(fā)者、民眾去獲取這些數(shù)據(jù),從而降低計(jì)算的數(shù)據(jù)成本。

AI 計(jì)算還需要注意一個(gè)可持續(xù)性的問題,比如我們是不是能夠在提高算力的同時(shí)降低功耗,進(jìn)而減少資源的消耗,減少污染。如果大家都去使用計(jì)算資源,比如每個(gè)用戶都是 7×24 小時(shí)去使用,這個(gè)負(fù)載肯定是超乎想像的負(fù)載量,這樣肯定會(huì)對(duì)其他的方面造成影響,比如會(huì)對(duì)環(huán)境造成影響。如果真正要達(dá)到計(jì)算普惠,我們肯定不能忽略的可持續(xù)計(jì)算的問題。

英特爾中國(guó)研究院院長(zhǎng)宋繼強(qiáng):

純粹通過大規(guī)模的計(jì)算,消耗很多的電來實(shí)現(xiàn)智能計(jì)算的方式顯然是不可持續(xù)的?,F(xiàn)在我們處于一個(gè)萬物智能、萬物智聯(lián)的早期階段,如果以后更多的數(shù)據(jù)都要拿來做 AI 訓(xùn)練的話,我們一定要找到更低能耗消耗的辦法去做智能計(jì)算。這要求一是在算法層面要盡量提升,爭(zhēng)取達(dá)到可以通過類似像人腦這種功耗級(jí)別的算力就可以訓(xùn)練出可用的模型。尤其是對(duì)前端的很多物聯(lián)網(wǎng)設(shè)備,它的持續(xù)學(xué)習(xí)和模型的訓(xùn)練,可能依靠這種超高能效比的訓(xùn)練就可以了,不需要依賴云端大型的集群。

另外,還有一些更高維度的辦法,就是繼續(xù)去開發(fā)量子計(jì)算,因?yàn)榱孔佑?jì)算十分擅長(zhǎng)做那些大規(guī)模并行計(jì)算,它不是什么都能做,但是對(duì)解決某些問題是非常高效的,對(duì)于解決 AI 問題也是很高效的。當(dāng)量子計(jì)算搞定之后,它可以從傳統(tǒng)的高性能計(jì)算那里卸掉很多任務(wù)。

高性能計(jì)算當(dāng)然還需要繼續(xù)去發(fā)展,我們現(xiàn)在的高性能計(jì)算中心不是太多而是太少,還需要在全國(guó)各地部署,把資源云化。通過 5G 網(wǎng)絡(luò)能夠把計(jì)算能力快速輸送到很多人的跟前,可能也需要一些邊緣計(jì)算的加持。這樣能讓每個(gè)人都以比較低的價(jià)格享受到比較充足且隨手可得的算力。屆時(shí),算力就像開關(guān)里的電、水龍頭里的水一樣,我要用它就來了,不需要家里有一臺(tái)很強(qiáng)悍的電腦,或者說小區(qū)里一定要有一個(gè)很強(qiáng)的邊緣計(jì)算中心,未必,只要網(wǎng)絡(luò)可以達(dá)到那種效果,可以隨時(shí)去訪問到它就好了。

這其實(shí)是需要分頭去研究各種不同級(jí)別的計(jì)算資源,也要做更好的部署。

清華大學(xué)計(jì)算機(jī)系長(zhǎng)聘副教授翟季冬:

我從三個(gè)方面來談一下計(jì)算的普惠性。第一個(gè)方面是從個(gè)人層面,大家知道物聯(lián)網(wǎng)現(xiàn)在已經(jīng)逐漸在我們生活中各個(gè)領(lǐng)域發(fā)揮非常重要的作用。比如說自動(dòng)駕駛,其實(shí)現(xiàn)在很多車都有自己的計(jì)算設(shè)備,但自動(dòng)駕駛并不是一輛車自己的事情,而是大家在路上協(xié)調(diào)的過程。所以如果能把不同的物聯(lián)網(wǎng)設(shè)備中的計(jì)算單元協(xié)同起來做一些調(diào)度和管理,對(duì)每個(gè)人來說都是非常有益的。

第二個(gè)方面是從公司層面,現(xiàn)在有很多云公司,公有云或者是私有云的公司,把計(jì)算資源整合以后提供給很多用戶去分散使用。通過云計(jì)算的方式可以讓更多的用戶去共享一些資源,也使很多公司節(jié)省了自己運(yùn)維管理服務(wù)器的開銷,這也可以讓計(jì)算更加充分的發(fā)揮。

第三個(gè)方面是從政府層面,剛剛宋院長(zhǎng)提到中國(guó)的高性能計(jì)算中心其實(shí)并不是很多。最近“新基建”提的比較多,政府可以出資建更多的高性能計(jì)算中心,通過高性能計(jì)算中心云化,讓更多用戶或者普通公司都可以得到便宜的,或者說容易得到的計(jì)算資源,這樣可以做更多的應(yīng)用。

英特爾架構(gòu)、圖形和軟件集團(tuán)副總裁兼中國(guó)區(qū)總經(jīng)理謝曉清:

英特爾提到的實(shí)現(xiàn)普惠計(jì)算的途徑其中有一個(gè)說法叫超異構(gòu)計(jì)算。前面講了很多的異構(gòu)計(jì)算,超異構(gòu)計(jì)算的話,英特爾是比較偏底層的,包括芯片級(jí)、系統(tǒng)級(jí)、軟件級(jí)(oneAPI 層面)。我的想法是第四個(gè)層面,就是怎么樣從云邊端三邊來協(xié)同,這三個(gè)層面其實(shí)都是不同的異構(gòu)架構(gòu)。所以從微觀一直到宏觀,我們都會(huì)有不同的計(jì)算能力組合出來的強(qiáng)大的計(jì)算網(wǎng)絡(luò)。

云邊端這樣的一個(gè)協(xié)同模式從軟件層面也提出了更高的要求,計(jì)算里的編排方面,如何在正確的時(shí)候找到正確的計(jì)算資源,然后把數(shù)據(jù)以最快速、方便、安全的方式實(shí)施處理,這方面有很多人在做研究。另一方面,一個(gè)很大的挑戰(zhàn)是落地,因?yàn)閺闹袊?guó)目前的情況來看,政府驅(qū)動(dòng)的角度下,非常強(qiáng)的執(zhí)行能力是我們的優(yōu)勢(shì),有一些可能在其他國(guó)家落地不太容易的用戶場(chǎng)景,在中國(guó)反而可以很快落地。比如說自動(dòng)駕駛,很有可能在中國(guó)會(huì)首先大規(guī)模商業(yè)化。因?yàn)樵七叾藚f(xié)同,包括車和路這方面的協(xié)同,都會(huì)使得計(jì)算能力能夠最大程度的發(fā)揮出來。

另一方面,在英特爾 oneAPI 部分,希望能夠在業(yè)界產(chǎn)生共鳴。現(xiàn)在中國(guó)也有很多 AI 芯片公司在做自己的異構(gòu)計(jì)算芯片。從異構(gòu)計(jì)算這個(gè)角度來看,我們可能希望說,在他們起步階段,提供給他們系統(tǒng)軟件層面的支持,使得國(guó)家在芯片行業(yè)的發(fā)展、投資不至于有太多重復(fù)。我們最近在業(yè)界希望能夠和大家合作,能夠有一些思維風(fēng)暴,看看哪些部分我們可以利用開源的資源,利用工業(yè)標(biāo)準(zhǔn)的資源,這樣的話,計(jì)算力本身只需要開發(fā)一次就能普惠到更多行業(yè)當(dāng)中的合作伙伴,可以更好的重建生態(tài),這部分的生態(tài)不僅僅是針對(duì)應(yīng)用程序開發(fā)商的生態(tài),也包括系統(tǒng)軟件方面的生態(tài)。

中科院計(jì)算所研究員崔慧敏:

剛剛謝老師提到的端邊云三邊協(xié)同,我由此想到,也可以利用一個(gè)現(xiàn)在云計(jì)算提出的紅利,就是微服務(wù)。亞馬遜提供微服務(wù)之后,用戶就可以把應(yīng)用程序構(gòu)建成一個(gè)個(gè)獨(dú)立的組件,每個(gè)應(yīng)用程序作為一個(gè)服務(wù)來運(yùn)行,這樣就讓用戶云端服務(wù)部署變得非常便捷。如果說我們?cè)倏紤]到將來通信成本可以變得很低,微服務(wù)的紅利就可以不只是在云這邊享受到,在端和邊都可以享受到,這樣就可以真正擴(kuò)散到生活的各個(gè)角落了。邊側(cè)和端側(cè)的應(yīng)用程序開發(fā)和部署都可以享受到微服務(wù)在云這邊所帶來的紅利。我覺得這個(gè)可能會(huì)對(duì)未來計(jì)算普惠有非常大的影響。當(dāng)然這里有很多因素的影響,比如說政府的支持、5G 的發(fā)展速度等等,都會(huì)讓這個(gè)東西變得非常有潛力,我覺得這是將來有可能大一統(tǒng)的超異構(gòu)計(jì)算。

Q&A

在 AI、5G、云計(jì)算等技術(shù)快速迭代的今天,各位老師對(duì)學(xué)校正在學(xué)習(xí)軟件開發(fā)的學(xué)生有哪些建議?

南京大學(xué)軟件工程教授張賀:

首先不能盲目去追趕熱門的話題、熱門的技術(shù)。 因?yàn)槲覀兙褪翘幵诖髮W(xué)當(dāng)中,實(shí)際上很多學(xué)生并不是非常的熟悉 AI 領(lǐng)域具體的技術(shù),但是他可能會(huì)根據(jù)市場(chǎng)熱度做一個(gè)判斷,我想首先是在主觀判斷上應(yīng)該有一個(gè)認(rèn)識(shí)的過程,不能盲目跟風(fēng)。目前這樣一個(gè)時(shí)代,最大的重點(diǎn)應(yīng)該是去培養(yǎng)你的學(xué)習(xí)能力,而不是說你學(xué)一堆熱門技術(shù)。

大學(xué)本科教育實(shí)際上最大的目標(biāo)就是培養(yǎng)自學(xué)能力,也就是說不管你學(xué)的是什么專業(yè),一旦你習(xí)得了自學(xué)能力,你就可以根據(jù)外界的變化,根據(jù)知識(shí)不斷的迭代、更新,能夠更新自己的知識(shí),這個(gè)能力應(yīng)該是最重要的。在這個(gè)基礎(chǔ)之上,像我們軟件工程專業(yè),還非常注重實(shí)踐的能力。比如在 AI 領(lǐng)域當(dāng)中,并不是說我們拿來數(shù)據(jù)和模型,然后我們?nèi)フ{(diào)一些參數(shù),能夠把這個(gè)指標(biāo)刷得多好。至少對(duì)學(xué)生來說,這并沒有太大的意義,就是對(duì)他今后的工程實(shí)踐是沒有太大幫助的。反而像我們剛剛提到的話題,比如說軟硬件的協(xié)同問題,比如說如何解決性能問題,這些實(shí)際上應(yīng)該是更具有實(shí)踐意義和落地價(jià)值。

總結(jié)一下我的觀點(diǎn),一是不要跟風(fēng),能夠進(jìn)行自我更新和知識(shí)迭代,如果你需要學(xué)就去學(xué)它,解決你當(dāng)下的問題;二是能夠去培養(yǎng)、鍛煉,找一切機(jī)會(huì)實(shí)踐你動(dòng)手的能力。

清華大學(xué)計(jì)算機(jī)系長(zhǎng)聘副教授翟季冬:

我在清華上課的時(shí)候,經(jīng)常會(huì)鼓勵(lì)學(xué)生多去看一些新的科技動(dòng)態(tài),包括剛剛談到的 AI、5G、量子計(jì)算、類腦計(jì)算等。大家知道清華大學(xué)的學(xué)生都非常努力,會(huì)把課本的東西學(xué)得非常好。我會(huì)鼓勵(lì)大家多去看一些新的科技洞察,鼓勵(lì)學(xué)生去思考到底這個(gè)技術(shù)本身會(huì)給我們帶來一些什么樣的變化和挑戰(zhàn)。在 5G、AI,或者說新的浪潮下,我會(huì)鼓勵(lì)學(xué)生多去思考這些新應(yīng)用模式會(huì)給底層的系統(tǒng)軟件和硬件帶來哪些新的挑戰(zhàn)?下一步的趨勢(shì)和挑戰(zhàn)在哪里?如何和你學(xué)到的知識(shí),或者說你腦子里已有的知識(shí)結(jié)合起來,創(chuàng)造更好的辦法,去解決當(dāng)前或者是未來幾年的一些技術(shù)挑戰(zhàn)?這些是我們應(yīng)該去思考的。

英特爾中國(guó)研究院院長(zhǎng)宋繼強(qiáng):

現(xiàn)在的學(xué)生們會(huì)比較辛苦,相比 10 年、20 年前,現(xiàn)在的技術(shù)迭代非???,而且各個(gè)領(lǐng)域之間技術(shù)的互相滲透也很多,所以對(duì)他們來講,確實(shí)是壓力比較大。很可能在本科階段學(xué)的東西,到了碩士甚至是博士還沒到的時(shí)候,就已經(jīng)過時(shí)了。那么怎么辦呢?我覺得張老師和翟老師說的都是有道理的,既需要保證自己能夠知道現(xiàn)在業(yè)界發(fā)展技術(shù)的前沿,包括趨勢(shì)是怎么走的;同時(shí)也要能夠靜得下心來,把自己的專長(zhǎng)、技術(shù)能力做扎實(shí),實(shí)踐的能力做好。 那么怎么去應(yīng)對(duì)現(xiàn)在這個(gè)既廣又快的技術(shù)發(fā)展變化呢?我其實(shí)是 建議學(xué)有余力的同學(xué)們,能夠多去找一些機(jī)會(huì),參與到技術(shù)涉及面比較廣的大公司的實(shí)習(xí)活動(dòng)中去。

比如說英特爾,涉及到技術(shù)的方方面面,從硬件到軟件,從通信到人工智能都做,很容易就能接觸到比較多的技術(shù)門類和了解這些技術(shù)之間有什么關(guān)系,不太容易被很多媒體文章里的宣傳所誤導(dǎo),也不容易頭腦發(fā)熱地說一定要從我現(xiàn)在的學(xué)科跳到人工智能。大家還是要更早地把自己學(xué)習(xí)的東西跟業(yè)界的專家多做交流,這樣可以有更好的發(fā)展軌道。

中科院計(jì)算所研究員崔慧敏:

我們特別希望學(xué)生能做一個(gè)上下貫通的開發(fā)和研究,我們國(guó)科大的包云崗老師也牽頭了很有名的“一生一芯”計(jì)劃,國(guó)科大的畢業(yè)生可以帶著自己的芯片畢業(yè)。他們會(huì)學(xué)習(xí)從計(jì)算機(jī)組成原理,到結(jié)構(gòu)、操作系統(tǒng)等多門課程,今年我的編譯原理課也會(huì)加入其中。學(xué)生到大四的時(shí)候就可以做出自己的芯片、操作系統(tǒng)、編譯器,也許有一些他們喜歡的人工智能算法也能真的跑在他們自己做的芯片上,這是很有意思的事情,這對(duì)學(xué)生系統(tǒng)能力的訓(xùn)練確實(shí)是特別有用的。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無評(píng)論