芯片短缺正在影響云中的AI工作負(fù)載

開(kāi)源云中文社區(qū)
如果你發(fā)現(xiàn)很難訪問(wèn)云中的GPU來(lái)訓(xùn)練人工智能模型,你并不孤單。全球芯片短缺和人工智能模型訓(xùn)練需求的增加,可能會(huì)導(dǎo)致一些云GPU用戶等待時(shí)間更長(zhǎng)。Nvidia也表示,目前其整體運(yùn)營(yíng)受到供應(yīng)限制。

如果你發(fā)現(xiàn)很難訪問(wèn)云中的GPU來(lái)訓(xùn)練人工智能模型,你并不孤單。全球芯片短缺和人工智能模型訓(xùn)練需求的增加,可能會(huì)導(dǎo)致一些云GPU用戶等待時(shí)間更長(zhǎng)。Nvidia也表示,目前其整體運(yùn)營(yíng)受到供應(yīng)限制。

Gigaom AI分析師Anand Joshi表示,一些用戶在訪問(wèn)基于云的GPU時(shí)等待的時(shí)間比之前要長(zhǎng)。

Joshi說(shuō):“很多用戶都在抱怨他們很難獲得GPU時(shí)間。一個(gè)作業(yè)在隊(duì)列中,需要一段時(shí)間才能完成。以前只會(huì)說(shuō)有多少個(gè)GPU,現(xiàn)在并不總是有GPU可用,所以需要一段時(shí)間才能進(jìn)入隊(duì)列并運(yùn)行作業(yè)。”

雖然Joshi對(duì)云平臺(tái)的GPU擴(kuò)展計(jì)劃沒(méi)有任何第一手資料,但他表示,客戶所經(jīng)歷的等待時(shí)間表明,云平臺(tái)未能以預(yù)期或想要的速度獲得新的GPU。他說(shuō),這可能會(huì)影響他們擴(kuò)展GPU云環(huán)境以跟上日益增長(zhǎng)的模型訓(xùn)練需求,而模型訓(xùn)練是人工智能生命周期中計(jì)算要求最高的部分。

Joshi推測(cè):“用戶說(shuō)不可用,原因是容量沒(méi)有像云計(jì)算人員希望的那樣增加。這可能意味著他們無(wú)法獲得他們想要的GPU數(shù)量。”

Nvidia生產(chǎn)了許多人工智能應(yīng)用中使用的GPU,在截至2020年1月31日的第四季度實(shí)現(xiàn)了創(chuàng)紀(jì)錄的50億美元的收入。這比去年同期增長(zhǎng)了61%。但在這些增長(zhǎng)數(shù)據(jù)背后,這家市值為3170億美元的芯片制造商似乎無(wú)法跟上對(duì)GPU需求的激增。

“在公司層面,我們的供應(yīng)受到限制。”NVIDIA首席執(zhí)行官Jensen Huang在上個(gè)月的財(cái)報(bào)電話會(huì)議上說(shuō)。

疫情期間,用于電腦、汽車、游戲機(jī)和智能手機(jī)的微芯片需求激增,使供應(yīng)不堪重負(fù),這導(dǎo)致了這些設(shè)備本身的短缺。

與此同時(shí),人工智能的部署激增,因?yàn)槠髽I(yè)試圖提高競(jìng)爭(zhēng)力,應(yīng)對(duì)從物理到數(shù)字化的突然轉(zhuǎn)變,例如使用會(huì)話代理與客戶互動(dòng),或使用機(jī)器學(xué)習(xí)來(lái)提高消費(fèi)品供應(yīng)鏈中供應(yīng)鏈規(guī)劃的準(zhǔn)確性。

根據(jù)畢馬威(KPMG)最近的一項(xiàng)調(diào)查,從2019年到2020年,運(yùn)行中等到全功能人工智能部署的零售商比例增加了29個(gè)百分點(diǎn),占受調(diào)查公司的81%。在金融服務(wù)業(yè),從2019年到2020年,增長(zhǎng)了37個(gè)百分點(diǎn),達(dá)到84%。

當(dāng)對(duì)人工智能模型訓(xùn)練的需求增加,但對(duì)運(yùn)行模型的GPU的供應(yīng)卻沒(méi)有增加時(shí),就會(huì)出現(xiàn)一些用戶在訪問(wèn)GPU時(shí)遇到延遲的情況。

“坦白地說(shuō),沒(méi)有人預(yù)見(jiàn)到這一點(diǎn)。”Gigaom的Joshi表示,“沒(méi)有人看到芯片的需求會(huì)在COVID時(shí)代急劇增長(zhǎng)。每個(gè)人都認(rèn)為它會(huì)下降,但它上升了。所有人突然開(kāi)始爭(zhēng)搶籌碼。”

芯片制造業(yè)的公司屈指可數(shù),對(duì)各種類型芯片(不僅僅是GPU)的需求激增意味著芯片制造廠正在滿負(fù)荷運(yùn)轉(zhuǎn)。作為頂級(jí)芯片制造商,英偉達(dá)可能被其晶圓廠合作伙伴優(yōu)先考慮,但由于其他類型芯片的需求增加,晶圓廠(以及供應(yīng)鏈的其他部分)根本沒(méi)有能力處理超出的訂單。

這種情況也影響了人工智能芯片初創(chuàng)公司,他們無(wú)法讓芯片制造商制造其芯片設(shè)計(jì)。Joshi說(shuō),大約有100家人工智能芯片初創(chuàng)公司擁有各種設(shè)計(jì),比如開(kāi)源RISC-V設(shè)計(jì)。但由于芯片廠和整個(gè)芯片供應(yīng)鏈的產(chǎn)能有限,他們的一些新產(chǎn)品不會(huì)很快上市。Joshi說(shuō):“一些小公司只是被告知要等。”

到目前為止,GPU的定價(jià)還沒(méi)有受到太大影響。但目前GPU是運(yùn)行人工智能工作負(fù)載的最受歡迎的芯片類型,如果對(duì)實(shí)際GPU和云中運(yùn)行的GPU的需求繼續(xù)超過(guò)供應(yīng),那么如果價(jià)格上漲,不要感到驚訝。

谷歌云拒絕就此置評(píng),AWS也沒(méi)有回應(yīng)置評(píng)請(qǐng)求。

原文鏈接:

https://www.datanami.com/2021/03/12/the-chip-shortage-seems-to-be-impacting-ai-workloads-in-the-cloud/

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無(wú)評(píng)論