向着胜利前进电视剧,九九99激情视频視頻均是免費的,久久精品视频国产剧情

黑馬Groq單挑英偉達，AI芯片要變天？

2024-02-26 13:40

科技云報到

Groq的出現(xiàn)不僅是對現(xiàn)有芯片架構(gòu)和市場格局的挑戰(zhàn)，也預示著AI芯片及其支撐的大模型發(fā)展方向正在發(fā)生變化——聚焦AI推理。

本文來自微信公眾號“科技云報到”。

近一周來，大模型領域重磅產(chǎn)品接連推出：OpenAI發(fā)布“文字生視頻”大模型Sora；Meta發(fā)布視頻預測大模型V-JEPA；谷歌發(fā)布大模型Gemini 1.5 Pro，更毫無預兆地發(fā)布了開源模型Gemma......

難怪網(wǎng)友們感嘆：“一開年AI發(fā)展的節(jié)奏已經(jīng)如此炸裂了么！”

但更令人意想不到的是，AI芯片領域處于絕對霸主地位的英偉達，竟然也遇到了挑戰(zhàn)，而且挑戰(zhàn)者還是一家初創(chuàng)公司。

在這家名叫Groq的初創(chuàng)芯片及模型公司官網(wǎng)上，它號稱是世界最快大模型，比GPT-4快18倍，測試中最快達到破紀錄的每秒吞吐500 tokens。

這閃電般的速度，來源于Groq自研的LPU（語言處理單元），是一種名為張量流處理器（TSP）的新型處理單元，自然語言處理速度是英偉達GPU 10倍，做到了推理的最低延遲。

“快”字當頭，Groq可謂賺足眼球。Groq還喊話各大公司，揚言在三年內(nèi)超越英偉達。

事實上，在這一波AI熱潮中，“天下苦英偉達久矣”。英偉達GPU芯片價格一再被炒高，而Groq的LPU架構(gòu)能“彎道超車”，顯然是眾望所歸。

因此，不少輿論驚呼Groq要顛覆英偉達，也有業(yè)內(nèi)人士認為Groq想要“平替”英偉達還有很長的路要走。

但無論持哪種觀點，Groq的出現(xiàn)不僅是對現(xiàn)有芯片架構(gòu)和市場格局的挑戰(zhàn)，也預示著AI芯片及其支撐的大模型發(fā)展方向正在發(fā)生變化——聚焦AI推理。

Groq LPU：快字當頭

據(jù)介紹，Groq的芯片采用14nm制程，搭載了230MB大靜態(tài)隨機存儲器（SRAM）以保證內(nèi)存帶寬，片上內(nèi)存帶寬達80TB/s。

在算力方面，該芯片的整型（8位）運算速度為750TOPs，浮點（16位）運算速度為188TFLOPs。

Anyscale的LLMPerf排行顯示，在Groq LPU推理引擎上運行的Llama 2 70B，輸出tokens吞吐量快了18倍，優(yōu)于其他所有云推理供應商。

據(jù)網(wǎng)友測試，面對300多個單詞的“巨型”prompt（AI模型提示詞），Groq在不到一秒鐘的時間里，就為一篇期刊論文創(chuàng)建了初步大綱和寫作計劃。此外，Groq還完全實現(xiàn)了遠程實時的AI對話。

電子郵件初創(chuàng)企業(yè)Otherside AI的首席執(zhí)行官兼聯(lián)合創(chuàng)始人馬特·舒默（Matt Shumer）在體驗Groq后稱贊其快如閃電，能夠在不到一秒鐘的時間內(nèi)生成數(shù)百個單詞的事實性、引用性答案。

更令人驚訝的是，其超過3/4的時間用于搜索信息，而生成答案的時間卻短到只有幾分之一秒。

Groq之所以“快如閃電”，其創(chuàng)新的核心在于LPU。

據(jù)官方信息顯示，LPU推理引擎是一種新型的端到端處理單元系統(tǒng)，它為計算密集型應用提供最快的推理能力，這些應用具有序列組件，例如AI語言應用程序（LLM）。

LPU旨在克服LLM的兩個瓶頸：計算密度和內(nèi)存帶寬。

就LLM而言，LPU比GPU和CPU具有更大的計算能力。這減少了每個單詞的計算時間，從而可以更快地生成文本序列。

同時，與利用高帶寬內(nèi)存（HBM）的GPU不同，Groq的LPU利用SRAM進行數(shù)據(jù)處理，比HBM快約20倍，從而顯著降低能耗并提高效率。

GroqChip的獨特架構(gòu)與其時間指令集相結(jié)合，可實現(xiàn)自然語言和其他順序數(shù)據(jù)的理想順序處理。

消除外部內(nèi)存瓶頸，不僅使LPU推理引擎能夠在LLM上提供比GPU高幾個數(shù)量級的性能。

而且由于LPU只進行推理計算，需要的數(shù)據(jù)量遠小于模型訓練，從外部內(nèi)存讀取的數(shù)據(jù)更少，消耗的電量也低于GPU。

此外，LPU芯片設計實現(xiàn)了多個TSP的無縫連接，避免了GPU集群中的瓶頸問題，顯著地提高了可擴展性。

因此，Groq公司宣稱，其LPU所帶來的AI推理計算是革命性的。

在AI推理領域挑戰(zhàn)GPU

盡管Groq高調(diào)喊話，但想要“平替”英偉達GPU并不容易。從各方觀點來看，Groq的芯片還無法與之分庭抗禮。

原Facebook人工智能科學家、原阿里技術(shù)副總裁賈揚清算了一筆賬，因為Groq小得可憐的內(nèi)存容量，在運行Llama 2 70B模型時，需要305張Groq卡才足夠，而用英偉達的H100則只需要8張卡。

從目前的價格來看，這意味著在同等吞吐量下，Groq的硬件成本是H100的40倍，能耗成本是10倍。

但跳出單純的價格對比，Groq LPU的解決方案依然展現(xiàn)出了不小的應用潛力。

根據(jù)機器學習算法步驟，AI芯片可以劃分為訓練AI芯片和推理AI芯片。

訓練芯片是用于構(gòu)建神經(jīng)網(wǎng)絡模型，需要高算力和通用性，追求的是高計算性能（高吞吐率）、低功耗。

推理芯片是對訓練好的神經(jīng)網(wǎng)絡模型進行運算，利用輸入的新數(shù)據(jù)來一次性獲得正確結(jié)論。

因此完成推理過程的時間要盡可能短、低功耗，更關注用戶體驗方面的優(yōu)化。

雖然現(xiàn)階段GPU利用并行計算的優(yōu)勢在AI領域大獲全勝，但由于英偉達GPU的獨有架構(gòu)，英偉達H100等芯片在推理領域算力要求遠不及訓練端，這也就給Groq等競爭對手留下了機會。

因此，專注于AI推理的Groq LPU，得以在推理這個特定領域挑戰(zhàn)英偉達GPU的地位。從測試結(jié)果上看，Groq能夠達到令人滿意的“秒回”效果。

這也在一定程度上顯示了通用芯片與專用芯片的路徑分歧。

隨著AI和深度學習的不斷發(fā)展，對專用芯片的需求也在增長。

各種專用加速器如FPGA、ASIC以及其他初創(chuàng)公司的AI芯片已經(jīng)不斷涌現(xiàn)，它們在各自擅長的領域內(nèi)展現(xiàn)出了挑戰(zhàn)GPU的可能性。

相比于英偉達通用型AI芯片，自研AI芯片也被稱作ASIC，往往更適合科技公司本身的AI工作負載需求且成本較低。

比如，云巨頭AWS就推出了為生成式AI和機器學習訓練而設計全新自研AI芯片AWS Trainium2，性能比上一代芯片提高到4倍，可提供65ExaFlops超算性能。

微軟也推出第一款定制的自研CPU系列Azure Cobalt和AI加速芯片Azure Maia，后者是微軟首款AI芯片，主要針對大語言模型訓練，預計將于明年初開始在微軟Azure數(shù)據(jù)中心推出。

谷歌云也推出了新版本的TPU芯片TPU v5p，旨在大幅縮減訓練大語言模型時間投入。

無論是大廠自研的AI芯片，還是像Groq LPU這樣的專用芯片，都是為了優(yōu)化特定AI計算任務的性能和成本效率，同時減少對英偉達等外部供應商的依賴。

作為GPU的一個重要補充，專用芯片讓面對緊缺昂貴的GPU芯片的企業(yè)有了一個新的選擇。

AI芯片聚焦推理

隨著AI大模型的快速發(fā)展，尤其是Sora以及即將推出的GPT-5，都需要更強大高效的算力。但GPU在推理方面的不夠高效，已經(jīng)影響到了大模型業(yè)務的發(fā)展。

從產(chǎn)業(yè)發(fā)展趨勢來看，AI算力負載大概率將逐步從訓練全面向推理端遷移。

華爾街大行摩根士丹利在2024年十大投資策略主題中指出，隨著消費類邊緣設備在數(shù)據(jù)處理、存儲端和電池續(xù)航方面的大幅改進，2024年將有更多催化劑促使邊緣AI這一細分領域迎頭趕上，AI行業(yè)的發(fā)展重點也將從“訓練”全面轉(zhuǎn)向“推理”。

高通CEO Amon也指出，芯片制造商們的主要戰(zhàn)場不久后將由“訓練”轉(zhuǎn)向“推理”。

Amon在采訪時表示：“隨著AI大模型變得更精簡、能夠在設備上運行并專注于推理任務，芯片制造商的主要市場將轉(zhuǎn)向‘推理’，即模型應用。預計數(shù)據(jù)中心也將對專門用于已訓練模型推理任務的處理器產(chǎn)生興趣，一切都將助力推理市場規(guī)模超越訓練市場。”

在最新的財報電話會上，英偉達CFO Colette Kress表示，大模型的推理場景已經(jīng)占據(jù)英偉達數(shù)據(jù)中心40%的營收比例。這也是判斷大模型行業(yè)落地前景的重要信號。

事實上，巨頭們的一舉一動也在印證這一趨勢的到來。

據(jù)路透社報道，Meta將推新款自研AI推理芯片Artemis。預計Meta可于年內(nèi)完成該芯片在自有數(shù)據(jù)中心的部署，與英偉達GPU協(xié)同提供算力。

而英偉達也通過強化推理能力，鞏固自身通用GPU市占率。

在下一代芯片H200中，英偉達在H100的基礎上將存儲器HBM進行了一次升級，為的也是提升芯片在推理環(huán)節(jié)中的效率。

不僅如此，隨著各大科技巨頭、芯片設計獨角獸企業(yè)都在研發(fā)更具效率、部分替代GPU的芯片，英偉達也意識到這一點，建立起了定制芯片的業(yè)務部門。

總的來說，以現(xiàn)在AI芯片供不應求的現(xiàn)狀，GPU的增長暫時還不會放緩。但隨著AI發(fā)展趨勢的快速變化，英偉達不可能是永遠的王者，而Groq也絕對不是唯一的挑戰(zhàn)者。

THEEND

免責聲明：凡注明為其它來源的信息均轉(zhuǎn)自其它平臺，由網(wǎng)友自主投稿和發(fā)布、編輯整理上傳，對此類作品本站僅提供交流平臺，不為其版權(quán)負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏，概不負任何法律責任。若有來源標注錯誤或侵犯了您的合法權(quán)益，請作者持權(quán)屬證明與本站聯(lián)系，我們將及時更正、刪除，謝謝。聯(lián)系郵箱：xiali@infoobs.com

本月熱門

云計算的江湖，風云再起

10月8日
揭秘，IOTE國際物聯(lián)網(wǎng)展2025年巡展預告!

10月8日
防勒索病毒攻擊關鍵措施

10月8日
匯聚行業(yè)精英，探討前沿技術(shù) 第十九屆汽車涂裝工藝技術(shù)研討會即將啟幕!

10月8日
網(wǎng)博會革新升級：“區(qū)域頻道”精準選型引領，引領智能制造新風潮

10月8日
萬億賽道!AI算力趨勢發(fā)展深度分析 2024

10月9日

精選文章

熱點資訊

機器學習如何改變數(shù)據(jù)中心管理

黑馬Groq單挑英偉達，AI芯片要變天？

2024 信息化觀察網(wǎng)

長按掃描二維碼閱讀原文

黑馬Groq單挑英偉達，AI芯片要變天？

最新評論（評論僅代表用戶觀點）

芯片大廠爭先布局Wi-Fi 7

蘋果正在開發(fā)AI芯片M5，它到底有什么出奇的？

七項基本網(wǎng)絡安全技能和策略

實現(xiàn)云原生應用程序可移植的夢想

本月熱門

云計算的江湖，風云再起

揭秘，IOTE國際物聯(lián)網(wǎng)展2025年巡展預告!

防勒索病毒攻擊關鍵措施

匯聚行業(yè)精英，探討前沿技術(shù) 第十九屆汽車涂裝工藝技術(shù)研討會即將啟幕!

網(wǎng)博會革新升級：“區(qū)域頻道”精準選型引領，引領智能制造新風潮

萬億賽道!AI算力趨勢發(fā)展深度分析 2024

精選文章

感恩智慧視通每一位伙伴，回顧第十九屆CPSE安博會精彩時刻

大咖邀您來聊ChatGPT和知識管理!China MIKE啟動會倒計時

范春玲：新形勢下的網(wǎng)絡安全等級保護制度

易建超：構(gòu)筑網(wǎng)絡空間的藍天白云

300+廠商齊聚藍凌生態(tài)伙伴大會!共探智能辦公市場共贏之道藍凌攜手阿里云等伙伴加速生態(tài)融和，助力企業(yè)邁向智能時代

毛磊：“數(shù)字商業(yè)”時代下產(chǎn)業(yè)互聯(lián)網(wǎng)全域應用服務賦能企業(yè)升級

熱點資訊

共筑數(shù)字未來|深度解析數(shù)字化轉(zhuǎn)型與建設的戰(zhàn)略指南

數(shù)據(jù)要素X政策寶：引領企業(yè)和政策數(shù)據(jù)服務的新浪潮

政策寶|構(gòu)筑企業(yè)與政策間的高效數(shù)據(jù)通道，跑出惠企助企加速度

政策智能匹配與業(yè)務線索：企業(yè)騰飛的雙重動力引擎!

鼎好DH3煥新顏，美的樓宇科技助力中關村地標綠色新生

機器學習如何改變數(shù)據(jù)中心管理

區(qū)塊鏈在制造業(yè)領域的應用

黑馬Groq單挑英偉達，AI芯片要變天？

最新評論（評論僅代表用戶觀點）

欄目推薦

芯片大廠爭先布局Wi-Fi 7

蘋果正在開發(fā)AI芯片M5，它到底有什么出奇的？

七項基本網(wǎng)絡安全技能和策略

實現(xiàn)云原生應用程序可移植的夢想

本月熱門

精選文章

熱點資訊

機器學習如何改變數(shù)據(jù)中心管理

區(qū)塊鏈在制造業(yè)領域的應用

黑馬Groq單挑英偉達，AI芯片要變天？

蘋果正在開發(fā)AI芯片M5，它到底有什么出奇的？