六大科技巨頭的自研AI芯片進(jìn)程解讀

在當(dāng)前的AI發(fā)展浪潮中,NVIDIA無(wú)疑是AI算力的領(lǐng)跑者。其A100/H100系列芯片已獲得全球人工智能市場(chǎng)頂級(jí)客戶的訂單。

640 (1).png

本文來(lái)自微信公眾號(hào)“半導(dǎo)體產(chǎn)業(yè)縱橫”。

全球科技巨頭紛紛下場(chǎng)卷向AI芯片賽道。

2023年,“生成式人工智能”無(wú)疑是科技行業(yè)最熱門(mén)的術(shù)語(yǔ)。

OpenAI推出的生成應(yīng)用ChatGPT引發(fā)了市場(chǎng)狂熱,促使各科技巨頭紛紛加入競(jìng)爭(zhēng)。

據(jù)TechNews報(bào)道,目前NVIDIA通過(guò)提供AI加速器占據(jù)市場(chǎng)主導(dǎo)地位,但這導(dǎo)致了市場(chǎng)上其AI加速器的短缺。甚至OpenAI也打算開(kāi)發(fā)自己的芯片,以避免受到供應(yīng)鏈緊張的限制。

在當(dāng)前的AI發(fā)展浪潮中,NVIDIA無(wú)疑是AI算力的領(lǐng)跑者。其A100/H100系列芯片已獲得全球人工智能市場(chǎng)頂級(jí)客戶的訂單。

華爾街投資銀行Bernstein Research的分析師Stacy Rasgon表示,使用ChatGPT進(jìn)行的每次查詢的成本約為0.04美元。如果ChatGPT查詢規(guī)模擴(kuò)大到Google搜索量的十分之一,初始部署將需要價(jià)值約481億美元的GPU進(jìn)行計(jì)算,每年需要價(jià)值約160億美元的芯片來(lái)維持運(yùn)營(yíng),以及類似的相關(guān)芯片執(zhí)行任務(wù)的數(shù)量。

因此,無(wú)論是為了降低成本、減少對(duì)NVIDIA的過(guò)度依賴,甚至是進(jìn)一步增強(qiáng)議價(jià)能力,全球科技巨頭都啟動(dòng)了開(kāi)發(fā)自己的AI加速器的計(jì)劃。

據(jù)科技媒體The Information援引行業(yè)消息人士報(bào)道,微軟、OpenAI、特斯拉、谷歌、亞馬遜和Meta等六大全球科技巨頭都在投資開(kāi)發(fā)自己的AI加速器芯片。這些公司預(yù)計(jì)將與NVIDIA的旗艦H100 AI加速器芯片展開(kāi)競(jìng)爭(zhēng)。

科技巨頭自研芯片進(jìn)展

640 (1).png

微軟

2023年11月,微軟在年度IT專業(yè)人士和開(kāi)發(fā)者大會(huì)Ignite上推出兩款自研芯片——云端AI芯片微軟Azure Maia 100、服務(wù)器CPU微軟Azure Cobalt 100。

Maia 100是微軟為微軟云中大語(yǔ)言模型訓(xùn)練和推理而設(shè)計(jì)的第一款A(yù)I芯片,采用臺(tái)積電5nm工藝,擁有1050億顆晶體管,針對(duì)AI和生成式AI進(jìn)行了優(yōu)化,支持微軟首次實(shí)現(xiàn)的低于8位數(shù)據(jù)類型(MX數(shù)據(jù)類型)。微軟已經(jīng)在用搜索引擎Bing和Office AI產(chǎn)品測(cè)試該芯片。

Cobalt 100是微軟為微軟云定制開(kāi)發(fā)的第一款CPU,也是微軟打造的第一款完整的液冷服務(wù)器CPU,采用Arm Neoverse CSS設(shè)計(jì)、128核。

微軟還定制設(shè)計(jì)了一個(gè)AI端到端機(jī)架,并搭配了一個(gè)“助手”液冷器,原理類似于汽車散熱器。

兩款芯片明年年初開(kāi)始在微軟數(shù)據(jù)中心推出,最初為微軟的Copilot或Azure OpenAI Service等服務(wù)提供動(dòng)力。微軟已經(jīng)在設(shè)計(jì)第二代版本的Azure Maia AI芯片和Cobalt CPU系列。

這些芯片代表了微軟交付基礎(chǔ)設(shè)施系統(tǒng)的最后一塊拼圖——從芯片、軟件和服務(wù)器到機(jī)架和冷卻系統(tǒng)的一切,微軟這些系統(tǒng)都是由上到下設(shè)計(jì)的,可以根據(jù)內(nèi)部和客戶的工作負(fù)載進(jìn)行優(yōu)化。

OpenAI

據(jù)悉,OpenAI也正在探索自研AI芯片,同時(shí)開(kāi)始評(píng)估潛在收購(gòu)目標(biāo)。在其招聘網(wǎng)站上,最近也出現(xiàn)了AI硬件共同開(kāi)發(fā)、評(píng)估相關(guān)崗位。OpenAI擬籌建的合資企業(yè)與總部位于阿布扎比的G42和軟銀集團(tuán)等潛在投資者進(jìn)行了討論,旨在解決當(dāng)前和預(yù)期的人工智能相關(guān)芯片供應(yīng)短缺問(wèn)題。

毫無(wú)疑問(wèn),該項(xiàng)目的財(cái)務(wù)和運(yùn)營(yíng)規(guī)模顯然是巨大的。Altman僅與G42的討論就集中在籌集80億至100億美元之間。該項(xiàng)目的全部范圍和合作伙伴名單仍處于早期階段,這表明建立此類設(shè)施網(wǎng)絡(luò)需要大量投資和時(shí)間。

盡管還不清楚Altman是否計(jì)劃購(gòu)買(mǎi)一家成熟的代工廠來(lái)生產(chǎn)AI芯片,或建立一個(gè)全新的晶圓廠網(wǎng)絡(luò)來(lái)滿足OpenAI及其潛在合作伙伴的需求,但此前有人分析Altman可能會(huì)考慮把參與投資的芯片公司納入麾下,包括CerebrasRain NeuromorphicsAtomic SemiCerebras、Rain Neuromorphics、tomic Semi。

特斯拉

電動(dòng)汽車制造商特斯拉也積極參與AI加速器芯片的開(kāi)發(fā)。特斯拉主要圍繞自動(dòng)駕駛需求,迄今為止推出了兩款A(yù)I芯片:全自動(dòng)駕駛(FSD)芯片和Dojo D1芯片。

FSD芯片用于特斯拉汽車的自動(dòng)駕駛系統(tǒng),而Dojo D1芯片則用于特斯拉的超級(jí)計(jì)算機(jī)。它充當(dāng)通用CPU,構(gòu)建AI訓(xùn)練芯片來(lái)為Dojo系統(tǒng)提供動(dòng)力。

谷歌

Google也早在2013年就秘密研發(fā)專注AI機(jī)器學(xué)習(xí)算法芯片,并用于云計(jì)算數(shù)據(jù)中心,取代英偉達(dá)GPU。

這款TPU自研芯片2016年公開(kāi),為深度學(xué)習(xí)模型執(zhí)行大規(guī)模矩陣運(yùn)算,如自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)和推薦系統(tǒng)模型。Google其實(shí)在2020年的資料中心便建構(gòu)AI芯片TPU v4,直到2023年4月才首次公開(kāi)細(xì)節(jié)。

2023年12月6日,谷歌官宣了全新的多模態(tài)大模型Gemini,包含了三個(gè)版本,根據(jù)谷歌的基準(zhǔn)測(cè)試結(jié)果,其中的Gemini Ultra版本在許多測(cè)試中都表現(xiàn)出了“最先進(jìn)的性能”,甚至在大部分測(cè)試中完全擊敗了OpenAI的GPT-4。

而在Gemini出盡了風(fēng)頭的同時(shí),谷歌還丟出了另一個(gè)重磅炸彈——全新的自研芯片TPU v5p,它也是迄今為止功能最強(qiáng)大的TPU。

根據(jù)官方提供的數(shù)據(jù),每個(gè)TPU v5p pod在三維環(huán)形拓?fù)浣Y(jié)構(gòu)中,通過(guò)最高帶寬的芯片間互聯(lián)(ICI),以4800 Gbps/chip的速度將8960個(gè)芯片組合在一起,與TPU v4相比,TPU v5p的FLOPS和高帶寬內(nèi)存(HBM)分別提高了2倍和3倍。

除此之外,TPU v5p訓(xùn)練大型LLM模型的速度比上一代TPU v4快2.8倍,利用第二代SparseCores,TPU v5p訓(xùn)練嵌入密集模型的速度比TPU v4快1.9倍。TPU v5p在每個(gè)pod的總可用FLOPs方面的可擴(kuò)展性也比TPU v4高出4倍,且每秒浮點(diǎn)運(yùn)算次數(shù)(FLOPS)增加了一倍,單個(gè)pod中的芯片數(shù)量也增加了一倍,大大提高了訓(xùn)練速度的相對(duì)性能。

亞馬遜

亞馬遜旗下的云計(jì)算服務(wù)提供商亞馬遜網(wǎng)絡(luò)服務(wù)(AWS),自2013年推出Nitro1芯片以來(lái),它一直是開(kāi)發(fā)自有芯片的先驅(qū)。AWS此后開(kāi)發(fā)了自研芯片的三個(gè)產(chǎn)品線,包括網(wǎng)絡(luò)芯片、服務(wù)器芯片、AI機(jī)器學(xué)習(xí)芯片。

其中,AWS自研AI芯片陣容包括推理芯片Inferentia和訓(xùn)練芯片Trainium。

此外,AWS于2023年初推出了專為人工智能設(shè)計(jì)的Inferentia 2(Inf2)。它將計(jì)算性能提高了三倍,同時(shí)將加速器總內(nèi)存增加了四分之一。

它通過(guò)芯片之間直接超高速連接支持分布式推理,可處理多達(dá)1750億個(gè)參數(shù),使其成為當(dāng)今AI芯片市場(chǎng)上最強(qiáng)大的內(nèi)部制造商。

Meta

Meta在2022年之前繼續(xù)使用專為加速AI算法而定制的CPU和定制芯片組來(lái)執(zhí)行其AI任務(wù)。然而,由于CPU在執(zhí)行AI任務(wù)方面與GPU相比效率較低,Meta放棄了2022年大規(guī)模推出定制設(shè)計(jì)芯片的計(jì)劃,而是選擇購(gòu)買(mǎi)價(jià)值數(shù)十億美元的NVIDIA GPU。

盡管如此,在其他主要廠商開(kāi)發(fā)內(nèi)部人工智能加速器芯片的浪潮中,Meta也涉足內(nèi)部芯片開(kāi)發(fā)。

2023年5月19日,Meta進(jìn)一步公布了其人工智能訓(xùn)練和推理芯片項(xiàng)目。該芯片功耗僅為25瓦,是NVIDIA同類產(chǎn)品功耗的1/20。它采用RISC-V開(kāi)源架構(gòu)。據(jù)市場(chǎng)報(bào)道,該芯片也將采用臺(tái)積電的7納米制造工藝生產(chǎn)。

美國(guó)去年10月擴(kuò)大禁止向中國(guó)出售先進(jìn)人工智能芯片,英偉達(dá)雖然迅速為中國(guó)市場(chǎng)量身訂造新芯片,以符合美國(guó)出口規(guī)定。但近日有消息指出,阿里巴巴、騰訊等中國(guó)云計(jì)算大客戶,并不熱衷購(gòu)買(mǎi)功能降低的減規(guī)版H20芯片,轉(zhuǎn)成國(guó)內(nèi)采購(gòu)。策略轉(zhuǎn)變顯示透過(guò)部分先進(jìn)半導(dǎo)體訂單轉(zhuǎn)給中國(guó)公司,將更依賴中國(guó)本土廠商芯片。

TrendForce表示,中國(guó)云端業(yè)者約八成高階AI芯片購(gòu)自英偉達(dá),五年內(nèi)可能降至50%~60%。若美國(guó)繼續(xù)加強(qiáng)芯片管制,可能對(duì)英偉達(dá)中國(guó)地區(qū)銷售造成額外壓力。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無(wú)評(píng)論