深度學(xué)習(xí)模型并非“越大越好”,它可能引起氣候變化問題

我愛至尊寶
和當(dāng)今的深度學(xué)習(xí)方法相比,我們大腦的效率高得不可思議。它們只有幾磅重,大概只需要20瓦左右的能量消耗,這個(gè)能耗只能夠給昏暗的燈泡供電。然而,它們代表了已知宇宙中最強(qiáng)大的智力形式。

來源丨Forbes

作者丨Rob Toews

編譯丨科技行者

本月早些時(shí)候,OpenAI宣布已經(jīng)建成史上最大的人工智能模型,該模型規(guī)模驚人,被命名為“GPT-3”,是一項(xiàng)令人印象深刻的技術(shù)成就。然而,它卻凸顯了人工智能領(lǐng)域的一個(gè)隱患。

現(xiàn)代人工智能模型需要消耗大量能量,并且這些能量需求正以驚人的速度增長(zhǎng)。在深度學(xué)習(xí)時(shí)代,產(chǎn)生一流的人工智能模型所需的計(jì)算資源,平均每3.4個(gè)月翻一番;這意味著,能量需求在2012年至2018年之間增加了300,000倍。而“GPT-3”只是這種指數(shù)級(jí)增長(zhǎng)軌跡上的一個(gè)最新節(jié)點(diǎn)。

深度學(xué)習(xí)模型真的越大越好嗎?

在今天,人工智能的碳足跡是有意義的,而如果這個(gè)行業(yè)趨勢(shì)繼續(xù)下去,情況將很快變得糟糕得多。除非我們?cè)敢庵匦略u(píng)估并改革當(dāng)今的人工智能研究方向,否則,人工智能領(lǐng)域可能會(huì)成為我們?cè)谖磥韼啄曛袘?yīng)對(duì)氣候變化的對(duì)手。

GPT-3很好地說明了這種現(xiàn)象。該模型包含多達(dá)1750億個(gè)參數(shù)。如何理解這個(gè)數(shù)字呢?不妨參考一下它的前身模型GPT-2,它在去年發(fā)布時(shí)被認(rèn)為是最先進(jìn)的,GPT-2只有15億個(gè)參數(shù)。去年GPT-2的訓(xùn)練耗費(fèi)了數(shù)十千兆次/天,這個(gè)計(jì)算輸入的數(shù)量已經(jīng)非常龐大了,而GPT-3需要的數(shù)量可能是GPT-2的好幾千倍。

依靠越來越大的模型,來推動(dòng)人工智能技術(shù)進(jìn)步,這種做法的問題在于,構(gòu)建和部署這些模型需要大量的能源消耗,并因此產(chǎn)生碳排放。

在2019年一項(xiàng)被廣泛討論的研究《Energy and Policy Considerations for Deep Learning in NLP(NLP深度學(xué)習(xí)的能源和政策考慮)》中,由Emma Strubell領(lǐng)導(dǎo)的一組研究人員,評(píng)估了訓(xùn)練單個(gè)深度學(xué)習(xí)模型的能量消耗,這個(gè)數(shù)值可能高達(dá)626,155磅的二氧化碳排放量——約相當(dāng)于五輛汽車在整個(gè)生命周期內(nèi)的碳足跡。相比之下,一個(gè)普通的美國(guó)人每年產(chǎn)生的二氧化碳排放量大約是36,156磅。

可以肯定的是,這項(xiàng)評(píng)估針對(duì)的是能耗特別高的模型。如今,訓(xùn)練一個(gè)普通規(guī)模的機(jī)器學(xué)習(xí)模型產(chǎn)生的碳排放量應(yīng)該遠(yuǎn)遠(yuǎn)小于626,155磅。

同時(shí)值得注意的是,在進(jìn)行這項(xiàng)分析時(shí),GPT-2是當(dāng)時(shí)可供研究的、最大的模型,研究人員將其視為模型大小的上限。可僅僅一年之后,GPT-2看上去很袖珍了,比它的后繼產(chǎn)品小了一百倍。

那么,機(jī)器學(xué)習(xí)模型到底為什么會(huì)需要消耗這么多的能量呢?

第一個(gè)原因是,用于訓(xùn)練這些模型的數(shù)據(jù)集的大小在不斷地膨脹。在2018年,BERT模型在使用了30億個(gè)單詞的數(shù)據(jù)集進(jìn)行訓(xùn)練之后,實(shí)現(xiàn)了同類中最佳的NLP(自然語言處理)性能。XLNet使用了320億個(gè)單詞的數(shù)據(jù)集進(jìn)行訓(xùn)練,并且在性能上超過了BERT。不久之后,GPT-2接受了400億個(gè)單詞的數(shù)據(jù)集的訓(xùn)練。而讓之前所有此類工作都相形見絀的是,GPT-3將使用一個(gè)包含5,000億個(gè)單詞的加權(quán)數(shù)據(jù)集進(jìn)行訓(xùn)練。

在訓(xùn)練過程中,神經(jīng)網(wǎng)絡(luò)會(huì)針對(duì)輸入的每條數(shù)據(jù),執(zhí)行一整套冗長(zhǎng)的數(shù)學(xué)運(yùn)算(既包括正向傳播,也包括反向傳播),并且以復(fù)雜的方式更新其參數(shù)。因此,更大的數(shù)據(jù)集,就會(huì)轉(zhuǎn)化為飛速增長(zhǎng)的計(jì)算和能源需求。

導(dǎo)致人工智能巨大能量消耗的另一個(gè)原因是,開發(fā)模型所需要進(jìn)行的大量實(shí)驗(yàn)和調(diào)校。今天的機(jī)器學(xué)習(xí),在很大程度上仍然是反復(fù)試錯(cuò)的練習(xí)。從業(yè)人員通常會(huì)在訓(xùn)練過程中針對(duì)給定模型構(gòu)建數(shù)百個(gè)不同的版本,在確定最佳設(shè)計(jì)之前,他們會(huì)嘗試不同的神經(jīng)體系架構(gòu)和超參數(shù)。

上述提到的那篇2019年研究論文中,描述了一個(gè)案例研究。研究人員們選擇了一個(gè)平均規(guī)模的模型——比GPT-3之類的博人眼球的龐然大物要小得多,并且不僅檢查了訓(xùn)練最終版本所需的能量,還測(cè)量了為了生產(chǎn)這個(gè)最終版本進(jìn)行的各種測(cè)試的總體能量消耗。

在六個(gè)月的過程之中,他們培訓(xùn)了4,789個(gè)不同版本的模型,總共需要花費(fèi)9,998天的GPU時(shí)間(超過27年)??紤]到所有這些因素,這些研究人員估計(jì),構(gòu)建該模型總計(jì)要產(chǎn)生78,000磅的二氧化碳排放量,超過一個(gè)普通美國(guó)成年人兩年的碳排放量。

到此為止,這次討論還僅僅涉及了機(jī)器學(xué)習(xí)模型的訓(xùn)練環(huán)節(jié)。但是訓(xùn)練只是一個(gè)模型生命周期的起點(diǎn)。模型訓(xùn)練完成之后,就會(huì)在現(xiàn)實(shí)世界中得到應(yīng)用。

部署人工智能模型,讓它們?cè)诂F(xiàn)實(shí)環(huán)境中采取行動(dòng)——這個(gè)過程被稱為推理,該過程的能耗比訓(xùn)練環(huán)節(jié)更高。實(shí)際上,英偉達(dá)公司(Nvidia)估計(jì),神經(jīng)網(wǎng)絡(luò)80%至90%的能量消耗出現(xiàn)在推理環(huán)節(jié),而不是訓(xùn)練環(huán)節(jié)。

例如,想想自動(dòng)駕駛汽車中的人工智能。首先必須要對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行培訓(xùn),讓它學(xué)會(huì)駕駛。在訓(xùn)練完成并部署到自動(dòng)駕駛汽車上之后,模型會(huì)不斷地進(jìn)行推理,才能在環(huán)境中行駛,只要汽車還在使用之中,這個(gè)過程就會(huì)日復(fù)一日地持續(xù)下去。

毋庸置疑,模型具有的參數(shù)越多,對(duì)這種持續(xù)不斷的推理的能量需求就越高。

能源使用和碳排放

既然提到了人工智能能量消耗和碳排放之間的關(guān)系。那么思考這種關(guān)系的最好方式是什么呢?

EPA數(shù)據(jù)顯示,在美國(guó),一千瓦時(shí)的能耗平均會(huì)產(chǎn)生0.954磅的二氧化碳排放量。這個(gè)平均值,反應(yīng)了美國(guó)能源網(wǎng)中不同能量來源(例如可再生能源、核能、天然氣、煤炭)的相對(duì)比例和碳足跡的變化。

上述提到的那篇2019年研究分析,采用了全美國(guó)的平均值,以便根據(jù)各種人工智能模型的能量需求來計(jì)算碳排放量。這是一個(gè)比較合理的假設(shè)。例如,亞馬遜網(wǎng)絡(luò)服務(wù)公司(Amazon Web Services)的電力來源組合,大致反應(yīng)了美國(guó)整體的電力來源,而且絕大多數(shù)的人工智能模型都是在云端進(jìn)行訓(xùn)練的。

當(dāng)然,如果使用主要由可再生能源產(chǎn)生的電力訓(xùn)練人工智能模型,那么碳足跡也會(huì)相應(yīng)地降低。例如,與AWS相比,谷歌云平臺(tái)(Google Cloud Platform)使用的電力結(jié)構(gòu)在可再生能源方面的比重更大。(上述那篇2019年研究論文顯示,兩家公司的這一比例分別為56%和17%。)

或者,舉另一個(gè)例子,如果在太平洋西北部的硬件上訓(xùn)練一個(gè)模型,所產(chǎn)生的碳排放量會(huì)低于其他國(guó)家,這是因?yàn)檫@一地區(qū)擁有豐富的清潔水源。而在這方面,每一家云服務(wù)提供商都在鼓吹自己在碳補(bǔ)償方面的投資。

總體而言,使用美國(guó)總體能源平均值,應(yīng)該可以大致準(zhǔn)確地估算出人工智能模型的碳足跡。

效益遞減

通過不斷變大的模型,追求人工智能進(jìn)步的做法,凸顯了模型規(guī)模和模型性能之間的關(guān)系。下列數(shù)據(jù)顯示得很清楚:模型規(guī)模的增加,最終會(huì)導(dǎo)致性能回報(bào)的急劇下降。

比如,ResNet是2015年發(fā)布的一個(gè)著名計(jì)算機(jī)視覺模型。該模型的改進(jìn)版本稱為ResNeXt,于2017年問世。與ResNet相比,ResNeXt所需的計(jì)算資源要多35%(以總浮點(diǎn)運(yùn)算來衡量),準(zhǔn)確度卻只提高了0.5%。

艾倫人工智能研究所(Allen AI Institute)2019年的一篇論文提供了詳細(xì)的數(shù)據(jù),記錄了不同任務(wù)、模型和人工智能子領(lǐng)域中的效益遞減問題。與GPT-2相比,最新發(fā)布的大型模型GPT-3出現(xiàn)了明顯的效益遞減跡象。

如果人工智能社區(qū)仍然繼續(xù)沿著當(dāng)前的研究方向前進(jìn),就會(huì)不斷的構(gòu)建越來越大的模型,耗費(fèi)越來越多的能源,以實(shí)現(xiàn)越來越小的性能提升。任何成本/收益分析都會(huì)變得越來越比例失調(diào)。

既然存在效益遞減的問題,又是什么在推動(dòng)著模型不斷地朝著越來越大的方向發(fā)展呢?一個(gè)主要的原因是,當(dāng)前人工智能社區(qū)對(duì)獲取“最好的”性能基準(zhǔn)測(cè)試結(jié)果非常關(guān)注。構(gòu)建一個(gè)新模型,能夠在性能基準(zhǔn)測(cè)試中創(chuàng)下新的準(zhǔn)確性記錄,即便成績(jī)提升僅僅是微不足道的一點(diǎn),也可以贏得研究人員的認(rèn)可和好評(píng)。

正如加州大學(xué)洛杉磯分校(UCLA)的教授Guy Van den Broeck所說:“我認(rèn)為對(duì)這種情況的一個(gè)最好的比喻,就是某個(gè)富油的國(guó)家能夠建造一座很高的摩天大樓。當(dāng)然,建造這樣的東西需要花很多錢,還有很多的工程工作。你也確實(shí)可以在建造這座高樓的時(shí)候,獲得‘最先進(jìn)的技術(shù)’。但是……這件事在本質(zhì)上并沒有什么科學(xué)上的進(jìn)步。”

在當(dāng)前的人工智能研究領(lǐng)域,占據(jù)主導(dǎo)地位的“越大越好”思路,可能會(huì)在未來幾年對(duì)環(huán)境造成重大的破壞。需要在這個(gè)領(lǐng)域內(nèi)進(jìn)行思慮周詳?shù)执竽懙淖兏铮屓斯ぶ悄芗夹g(shù)的發(fā)展變得更加可持續(xù),并更具生產(chǎn)力。

展望未來

首先,每一位人工智能從業(yè)人員都應(yīng)該考慮,如何在短期內(nèi)“快速制勝”,以減輕其研究對(duì)碳足跡的影響。

重要的第一步是,提高這個(gè)問題的透明度和度量程度。當(dāng)人工智能研究人員們發(fā)布新模型的結(jié)果時(shí),除了性能和準(zhǔn)確性指標(biāo)之外,他們還應(yīng)該公布在模型開發(fā)中消耗了多少能量的數(shù)據(jù)。

經(jīng)過深入徹底的分析,艾倫人工智能研究所的團(tuán)隊(duì)建議,將「浮點(diǎn)運(yùn)算」作為研究人員追蹤的最通用、也是最有效的能效度量標(biāo)準(zhǔn)。另一組研究人員創(chuàng)建了一個(gè)機(jī)器學(xué)習(xí)排放計(jì)算器,從業(yè)人員可以使用這個(gè)計(jì)算器來評(píng)估他們構(gòu)建的模型的碳足跡(根據(jù)硬件、云服務(wù)提供商和地理區(qū)域等因素)。

遵循這些思路,綜合考慮能源成本和性能收益的做法,將成為研究人員們?cè)谟?xùn)練模型時(shí)的最佳實(shí)踐。明確地量化這種關(guān)系,將促使研究人員在面對(duì)效益遞減問題時(shí),對(duì)資源分配做出更明智、更平衡的決定。

隨著可持續(xù)人工智能實(shí)踐的擴(kuò)散,希望人工智能社區(qū)能夠在評(píng)估人工智能研究的時(shí)候,開始考慮這些效率指標(biāo),就像今天我們對(duì)傳統(tǒng)性能指標(biāo)(例如準(zhǔn)確性)采取的做法一樣:在會(huì)議論文提交、演講、學(xué)術(shù)角色中考慮它們。

還有一些已經(jīng)相對(duì)比較成熟的方法,能夠幫助人工智能技術(shù)在近期減少碳足跡:使用更有效的超參數(shù)搜索方法、減少訓(xùn)練過程中不必要的實(shí)驗(yàn)次數(shù)、使用更高能效的硬件等。

但是,單靠這些補(bǔ)救措施并不足以解決這個(gè)問題。人工智能領(lǐng)域需要更根本的長(zhǎng)期轉(zhuǎn)變。

我們需要退后一步,并且承認(rèn),僅僅依靠建立越來越大的神經(jīng)網(wǎng)絡(luò)并非通往通用智能的正確途徑。我們需要推動(dòng)自己去發(fā)現(xiàn)更優(yōu)雅、更有效的方法,來對(duì)機(jī)器中的智能進(jìn)行建模。我們正在持續(xù)不斷地同氣候變化進(jìn)行斗爭(zhēng),這是一場(chǎng)關(guān)乎地球未來的戰(zhàn)爭(zhēng)。

在此引用人工智能傳奇人物、深度學(xué)習(xí)教父Geoff Hinton的話:“未來取決于那些‘對(duì)我所說的一切’都深表懷疑的研究生……我的觀點(diǎn)是將其全部拋棄并重新開始。”

人工智能社區(qū)必須開始致力于開創(chuàng)人工智能的新范例,這些范例應(yīng)該既不需要指數(shù)級(jí)增長(zhǎng)的數(shù)據(jù)集,也不需要龐大的能源消耗。小樣本學(xué)習(xí)(few-shot learning)等新興研究領(lǐng)域,都是有前途的途徑。

人類的大腦——智力的原始來源提供了重要的啟發(fā)。和當(dāng)今的深度學(xué)習(xí)方法相比,我們大腦的效率高得不可思議。它們只有幾磅重,大概只需要20瓦左右的能量消耗,這個(gè)能耗只能夠給昏暗的燈泡供電。然而,它們代表了已知宇宙中最強(qiáng)大的智力形式。

人工智能研究人員Siva Reddy指出:“人類的大腦用很少的能量消耗,就能夠完成令人驚嘆的事情。問題是我們?nèi)绾谓ㄔ斐鲞@樣的機(jī)器來。”

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無評(píng)論