百度集團執(zhí)行副總裁、百度智能云事業(yè)群總裁沈抖:大模型誰先用起來,誰就搶占先機

中國電子報、電子信息產(chǎn)業(yè)網(wǎng)
宋婧
在百度智能云大會上,百度集團執(zhí)行副總裁、百度智能云事業(yè)群總裁沈抖表示,過去的一年,是大模型從技術變革走向產(chǎn)業(yè)變革的關鍵一年。大模型與云計算緊密結(jié)合,正在成為新型的基礎設施。這樣大范圍的基礎設施升級將帶來生產(chǎn)力的巨大躍遷。大模型給每個企業(yè)提供了平等的增長機會。不管企業(yè)大小、場景多少,誰先用起來,誰就搶占先機。

本文來自中國電子報、電子信息產(chǎn)業(yè)網(wǎng),作者|宋婧。

1.jpg

9月25日,在百度智能云大會上,百度集團執(zhí)行副總裁、百度智能云事業(yè)群總裁沈抖表示,過去的一年,是大模型從技術變革走向產(chǎn)業(yè)變革的關鍵一年。大模型與云計算緊密結(jié)合,正在成為新型的基礎設施。這樣大范圍的基礎設施升級將帶來生產(chǎn)力的巨大躍遷。大模型給每個企業(yè)提供了平等的增長機會。不管企業(yè)大小、場景多少,誰先用起來,誰就搶占先機。

1834年,第一臺現(xiàn)代發(fā)電機誕生;到1882年,美國建成全球第一座現(xiàn)代電廠;再到電力成為全球性的能源基礎設施,用了大約90年。1969年,阿帕網(wǎng)連接了四所美國高校,到互聯(lián)網(wǎng)成為全球信息基礎設施,只用了大約30年。而大模型及其相關系統(tǒng),在短短幾年內(nèi),正在迅速成為為新一代的基礎設施,這次變革的速度前所未有。

如何在這場變革中抓住機遇、引領未來?“相信不少人都聽說過‘萬卡集群’,但深入了解的應該不多,而真正用得上、用得好的,就更少了。其實,GPU集群完全不同于傳統(tǒng)的CPU集群,開啟了全新的計算時代。”沈抖表示。

簡單來說,GPU集群有三個特征:極致規(guī)模、極致高密和極致互聯(lián)。這些“極致”帶來了兩個方面的嚴峻挑戰(zhàn)。一方面是巨額的建設、運營成本,要想建立一個萬卡集群,單是GPU的采購成本就高達幾十億元;另一方面,在如此大規(guī)模的集群上,運維的復雜性急劇增加。

“我們知道,硬件不可避免地會出故障,而規(guī)模越大,出故障的概率就越高。”沈抖分析說道。他舉了個例子,Meta訓練llama3的時候,用了1.6萬張GPU卡的集群,平均每3小時就會出一次故障,而這些故障絕大多數(shù)是由GPU引起的。實際上,GPU是一種很敏感的硬件,連天氣、溫度的波動,都會影響到GPU的故障率。

“這兩個挑戰(zhàn)迫使我們重新思考如何構(gòu)建、管理和維護這樣龐大而復雜的GPU集群,屏蔽硬件層的復雜性,為大模型落地的全流程提供一個簡單、好用的算力平臺,讓用戶能夠更容易地管理GPU算力、低成本地用好算力。”沈抖表示。

過去一年,企業(yè)用戶模型訓練需求猛增,需要的集群規(guī)模也越來越大。與此同時,大家對模型推理成本的持續(xù)下降的預期也越來越高。這些都對GPU管理的穩(wěn)定性和有效性提出了更高要求。

“進入規(guī)?;柧氹A段,最重要的就是穩(wěn)定性。”沈抖指出,“大模型訓練是一個龐大的單一任務,需要齊步走。一個點出錯,整個集群就得停下、回滾到上一個記憶點。而GPU機器又很貴,每停一分鐘都是白白燒錢。這就是為什么‘有效訓練時長’這個指標很關鍵,它指的就是機器真正在工作的時間的占比。在萬卡任務上,百舸4.0可以保障有效訓練時長占比達到99.5%,遠高于行業(yè)內(nèi)公布的相關指標。”

模型訓好了之后就是推理,也就是模型在各個場景被用起來的階段。在這個階段,最重要的兩件事是速度和成本。前者決定用戶體驗,后者決定性價比。而且,現(xiàn)在長文本推理逐漸成為主流,這兩個問題會越來越突出。

“模型在推理的時候,它需要把你的問題都轉(zhuǎn)化成token,算一遍之后才能開始出第一個字。而且這不是一次性的計算,每生成一個字都需要和前面所有字去做注意力計算。雖然這整體上是個串行過程,但通過架構(gòu)分離、KV Cache、負載分配等一系列加速工作,百舸4.0整體上提高了推理效率,降低了成本,讓長文本推理效率提升了1倍以上。”沈抖介紹稱。

同時,他指出,大模型應用的爆發(fā),離不開便捷、高效的大模型工具鏈和應用開發(fā)平臺。百度官方數(shù)據(jù)顯示,目前,在千帆大模型平臺上,文心大模型日均調(diào)用量超過7億次,累計幫助用戶精調(diào)了3萬個大模型,開發(fā)出70多萬個企業(yè)級應用。“這條陡峭的曲線,不僅反映了千帆平臺上大模型的調(diào)用量,也是過去18個月整個國內(nèi)大模型產(chǎn)業(yè)發(fā)展的一個縮影,但這只是一個序幕。”

“過去一年,盡管充滿不確定性,但我們已經(jīng)看到了一個確定的未來。那就是大模型正在加速深入生產(chǎn)力場景,成為企業(yè)獲得競爭優(yōu)勢的關鍵要素。”沈抖表示,“我們相信,大模型給每個企業(yè)提供了平等的增長機會。不管企業(yè)大小、場景多少,誰先用起來,誰就搶占先機。”

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論