關(guān)于解決大人工智能的能源大問題

CoreCode
為了在人工智能領(lǐng)域取得更多進(jìn)展,民意表明,我們必須做出巨大的環(huán)境權(quán)衡。但事實(shí)并非如此。大模型可以縮小到尺寸,以便在日常工作站或服務(wù)器上運(yùn)行,而無需犧牲準(zhǔn)確性和速度。但首先,讓我們看看為什么機(jī)器學(xué)習(xí)模型一開始就這么大。

似乎人工智能中越是突破性的深度學(xué)習(xí)模型,它們獲得的量就越大。今年夏天最熱門的自然語言處理模型GPT-3就是一個(gè)完美的例子。為了達(dá)到像人類一樣寫作的準(zhǔn)確性和速度水平,該模型需要1750億個(gè)參數(shù)、350GB內(nèi)存和1200萬美元的培訓(xùn)(將培訓(xùn)視為“學(xué)習(xí)”階段)。但是,除了成本本身,像這樣的大型人工智能模型還有巨大的能源問題。

馬薩諸塞州阿默斯特分校的研究人員發(fā)現(xiàn),訓(xùn)練大型人工智能模型所需的計(jì)算能力可以產(chǎn)生超過60萬磅的二氧化碳排放——這是典型汽車壽命的五倍!這些模型通常需要更多的能量在現(xiàn)實(shí)世界的生產(chǎn)環(huán)境中進(jìn)行處理(也稱為推理階段)。NVIDIA估計(jì),運(yùn)行神經(jīng)網(wǎng)絡(luò)模型的成本中,80%-90%來自推理,而不是培訓(xùn)期間。

為了在人工智能領(lǐng)域取得更多進(jìn)展,民意表明,我們必須做出巨大的環(huán)境權(quán)衡。但事實(shí)并非如此。大模型可以縮小到尺寸,以便在日常工作站或服務(wù)器上運(yùn)行,而無需犧牲準(zhǔn)確性和速度。但首先,讓我們看看為什么機(jī)器學(xué)習(xí)模型一開始就這么大。

現(xiàn)在:計(jì)算能力每3.4個(gè)月翻一番

十幾年前,斯坦福大學(xué)的研究人員發(fā)現(xiàn),用于為電子游戲中復(fù)雜圖形供電的處理器,稱為GPU,可用于深度學(xué)習(xí)模型。這一發(fā)現(xiàn)引發(fā)了一場為深度學(xué)習(xí)應(yīng)用程序創(chuàng)建越來越強(qiáng)大的專用硬件的競賽。反過來,科學(xué)家創(chuàng)造的數(shù)據(jù)模型變得越來越大。邏輯是,更大的模型將帶來更準(zhǔn)確的結(jié)果。硬件越強(qiáng)大,這些型號運(yùn)行速度就越快。

OpenAI的研究表明,這一假設(shè)已在該領(lǐng)域得到廣泛采用。從2012年到2018年,深度學(xué)習(xí)模型的計(jì)算能力每3.4個(gè)月翻一番。因此,這意味著在六年的時(shí)間里,用于人工智能的計(jì)算能力增長了驚人的30萬倍。如上所述,這種能力不僅用于訓(xùn)練算法,還用于生產(chǎn)設(shè)置。麻省理工學(xué)院最近的研究表明,我們可能會比我們想象的更快地達(dá)到計(jì)算能力的上限。

此外,資源限制將深度學(xué)習(xí)算法的使用限制在那些負(fù)擔(dān)得起的人身上。當(dāng)深度學(xué)習(xí)可以應(yīng)用于從醫(yī)學(xué)成像中檢測癌細(xì)胞到停止在線仇恨言論的一切時(shí),我們無法限制訪問。再說一遍,我們無法承受使用無限大、更渴望動力的模型所帶來的環(huán)境后果。

未來越來越小

幸運(yùn)的是,研究人員發(fā)現(xiàn)了許多新方法來縮小深度學(xué)習(xí)模型,并通過更智能的算法重新使用訓(xùn)練數(shù)據(jù)集。這樣,大模型可以在生產(chǎn)環(huán)境中以更少的功率運(yùn)行,并且仍然可以根據(jù)用例實(shí)現(xiàn)預(yù)期的結(jié)果。

這些技術(shù)有可能使機(jī)器學(xué)習(xí)民主化,因?yàn)楦嘟M織沒有數(shù)百萬美元投資于培訓(xùn)算法并將其投入生產(chǎn)。這對于“邊緣”用例尤為重要,因?yàn)楦蟮?、專業(yè)的人工智能硬件在物理上不實(shí)用。想想相機(jī)、汽車儀表盤、智能手機(jī)等小型設(shè)備。

研究人員正在縮小模型,刪除神經(jīng)網(wǎng)絡(luò)中一些不需要的連接(修剪),或使其一些數(shù)學(xué)運(yùn)算不那么復(fù)雜(量化)。這些更小、更快的模型可以在任何地方以與大型模型相似的精度和性能運(yùn)行。這意味著我們不再需要爭先恐后地達(dá)到計(jì)算能力的頂峰,從而造成更多的環(huán)境破壞。讓大模型更小、更高效是深度學(xué)習(xí)的未來。

另一個(gè)主要問題是為不同用例在新數(shù)據(jù)集上反復(fù)培訓(xùn)大模型。一種稱為轉(zhuǎn)移學(xué)習(xí)的技術(shù)可以幫助防止這個(gè)問題。轉(zhuǎn)移學(xué)習(xí)以預(yù)訓(xùn)練模型為起點(diǎn)。模型的知識可以使用有限的數(shù)據(jù)集“轉(zhuǎn)移到”到新任務(wù)中,而無需從頭重新培訓(xùn)原始模型。這是朝著削減訓(xùn)練新模型所需的計(jì)算能力、能源和資金邁出的關(guān)鍵一步。

底線?只要有可能,模型可以(也應(yīng)該)縮小,以使用更少的計(jì)算能力。知識可以被回收和重復(fù)使用,而不是從頭開始深度學(xué)習(xí)培訓(xùn)過程。歸根結(jié)底,尋找降低模型大小和相關(guān)計(jì)算能力的方法(在不犧牲性能或準(zhǔn)確性的情況下)將是深度學(xué)習(xí)的下一個(gè)偉大解鎖。這樣,任何人都可以在生產(chǎn)中以更低的成本運(yùn)行這些應(yīng)用程序,而無需進(jìn)行大規(guī)模的環(huán)境權(quán)衡。當(dāng)我們對大型人工智能小事無所事事——甚至是下一個(gè)幫助阻止氣候變化破壞性影響的應(yīng)用程序時(shí),任何事情都是可能的。

360截圖16450626515344.png

THEEND

最新評論(評論僅代表用戶觀點(diǎn))

更多
暫無評論