久久精品这里热有精品蜜芽,亚洲国产毛片AAAAA无费

異構(gòu)計(jì)算的網(wǎng)，鋪成智能時(shí)代的路

2022-09-21 15:02

CSDN

計(jì)算支持的層面上云計(jì)算、霧計(jì)算、邊緣計(jì)算等相繼而起，從場(chǎng)景層面上，智能家居、工業(yè)制造、交通政務(wù)、環(huán)境勘測(cè)等各自芬芳。我們能看到的算力形態(tài)已開始百花爭(zhēng)艷，而在我們看不到的地方，依然有著旺盛的算力需求。

本文來自CSDN。

從云而上，以邊緣為終。

隨著“十四五”計(jì)劃的不斷落地，加快數(shù)字化發(fā)展，大力發(fā)展數(shù)字經(jīng)濟(jì)，打造具有國(guó)際競(jìng)爭(zhēng)力的數(shù)字產(chǎn)業(yè)集群，全面實(shí)施智能制造行動(dòng)計(jì)劃，業(yè)已成為我國(guó)當(dāng)前發(fā)展的重點(diǎn)之一。而企業(yè)想要從中脫穎而出，如何突破算力的迷局，找到更加高效的算力形態(tài)，就變得至關(guān)重要。據(jù)英特爾預(yù)測(cè)，全球的算力需求預(yù)計(jì)到2025年將提升1000倍。那么算力需求如此旺盛，哪里才能得到這樣的算力呢？算力的形態(tài)如此豐富，最終的答案究竟是什么？是CPU？GPU？ASIC？還是FPGA？近年來，我們看到了一個(gè)更加可靠的答案，那就是：“我全都要。”

異構(gòu)計(jì)算：不僅僅是多面手

“我全都要”并非一種貪心，而是一種趨勢(shì)。

數(shù)字化建設(shè)的根源在數(shù)據(jù)，也在智能。而各行業(yè)日趨復(fù)雜的大數(shù)據(jù)和AI應(yīng)用環(huán)境下，算力需求爆發(fā)式增長(zhǎng)，這不僅是量在增加，形態(tài)也在變化。但是，作為一家企業(yè)，算力與架構(gòu)及系統(tǒng)的綁定關(guān)系使得他們不可能頻繁更換底層，因此，當(dāng)算力的供給增長(zhǎng)無(wú)法跟上算力需求的腳步，多元化算力的概念就被人開始提起。

異構(gòu)計(jì)算是多元算力的典型?？缭綐?biāo)量（CPU）、矢量（GPU）、矩陣（ASIC）、空間（FPGA）的異構(gòu)計(jì)算，如今已經(jīng)成為企業(yè)推動(dòng)IT基礎(chǔ)設(shè)施重構(gòu)的重要力量。其能夠?qū)⒉煌軜?gòu)的運(yùn)算單元整合到一起進(jìn)行并行計(jì)算，以最適合的專用硬件去做最適合的事如密集計(jì)算或外設(shè)管理等，從而達(dá)到性能和成本的最優(yōu)化。因此很多企業(yè)開始嘗試使用異構(gòu)計(jì)算來化解算力瓶頸，挖掘和實(shí)現(xiàn)算力增長(zhǎng)。

多元算力的應(yīng)用場(chǎng)景正在變得越發(fā)廣泛，以快手為例，其在內(nèi)容生產(chǎn)、內(nèi)容理解、內(nèi)容分發(fā)、內(nèi)容消費(fèi)等過程中都多元算力有著大量需求。尤其是在推薦系統(tǒng)方面，快手采用了計(jì)算與存儲(chǔ)分離的架構(gòu)模式，推薦系統(tǒng)中的存儲(chǔ)型服務(wù)主要是用來存儲(chǔ)和實(shí)時(shí)更新上億規(guī)模的用戶畫像、數(shù)十億規(guī)模的短視頻特征、以及千億規(guī)模的排序模型參數(shù)。其中參數(shù)服務(wù)器是一個(gè)容量和帶寬受限的系統(tǒng)，需要支撐每秒數(shù)億次的KV請(qǐng)求；參數(shù)服務(wù)器的KV請(qǐng)求也高達(dá)每秒數(shù)億次，大規(guī)模查表會(huì)消耗大量CPU資源，成為其性能的主要瓶頸。

異構(gòu)計(jì)算正是快手與英特爾聯(lián)手給出的答案，通過將負(fù)載卸載到專門優(yōu)化的芯片上，將有助于消除性能瓶頸，在吞吐量與延時(shí)方面實(shí)現(xiàn)顯著改善。

快手LaoFe NDP異構(gòu)計(jì)算架構(gòu)

快手可提供異構(gòu)加速選項(xiàng)的LaoFe NDP架構(gòu)在計(jì)算層采用英特爾CPU、FPGA、PMEM等器件，實(shí)現(xiàn)了基于LaoFeNDP架構(gòu)的FPGA based KVS實(shí)踐落地，進(jìn)一步提升快手在推薦、搜索、廣告、風(fēng)控等各種場(chǎng)景的應(yīng)用性能。同時(shí)，其通過計(jì)算體系結(jié)構(gòu)創(chuàng)新、軟硬一體化、領(lǐng)域?qū)Ｓ眉铀倨髟O(shè)計(jì)，通過網(wǎng)絡(luò)存、存儲(chǔ)、計(jì)算三重加速來提供低延遲、高并發(fā)、高吞吐、低總體擁有成本（TCO）的基礎(chǔ)資源。

三重加速，正是異構(gòu)計(jì)算獨(dú)有的魅力所在。

快手LaoFe NDP架構(gòu)圖

網(wǎng)絡(luò)方面，LaoFe NDP架構(gòu)將CPU收發(fā)網(wǎng)絡(luò)數(shù)據(jù)操作，卸載到FPGA上。Client發(fā)送的請(qǐng)求包直接發(fā)送給FPGA。相比gRPC基于TCP/IP，功能過于復(fù)雜，性能和延時(shí)方案無(wú)法保證。而使用基于FPGA實(shí)現(xiàn)了一套SD-RDMA協(xié)議，通過應(yīng)用層添加字段的方式，保證了類似gRPC的可靠性傳輸，這大大降低了請(qǐng)求時(shí)延。

存儲(chǔ)方面，LaoFe NDP架構(gòu)將CPU存儲(chǔ)操作也卸載到FPGA上。為了可以最大程度發(fā)揮FPGA的能力，快手基于通用KV存儲(chǔ)場(chǎng)景定制了一套易于FPGA訪問的KV（Key-Value）引擎。同時(shí)，其支持SSD/英特爾®傲騰™持久內(nèi)存/DRAM內(nèi)存、基于hash的Key-Value存儲(chǔ)引擎，能夠有效加速存儲(chǔ)性能。通過實(shí)戰(zhàn)檢驗(yàn)，使用KV查表的吞吐相比CPU方案提升了足足5倍以上。

計(jì)算方面，LaoFe NDP架構(gòu)通過DSA的方式將計(jì)算操作卸載到FPGA上，實(shí)現(xiàn)了一個(gè)領(lǐng)域?qū)Ｓ锰幚砥?。領(lǐng)域?qū)Ｓ锰幚砥魇且活愥槍?duì)特定領(lǐng)域量身定制的處理器。它針對(duì)特定領(lǐng)域可編程，同時(shí)在特定領(lǐng)域問題處理上能帶來顯著的性能和效率的提升。再加上英特爾®至強(qiáng)®可擴(kuò)展處理器、英特爾®FPGA等設(shè)備，可以幫助快手將LaoFe NDP架構(gòu)優(yōu)勢(shì)發(fā)揮到極致。

網(wǎng)絡(luò)、存儲(chǔ)、計(jì)算加速后示意圖

異構(gòu)計(jì)算背后，一場(chǎng)性能的變局

事實(shí)上，異構(gòu)計(jì)算并非新的概念，其早在上世紀(jì)80年代中期就已經(jīng)被踢出，當(dāng)時(shí)便被認(rèn)為有著計(jì)算能力強(qiáng)、可擴(kuò)展性好、資源利用率高等特點(diǎn)。但是，為什么異構(gòu)計(jì)算時(shí)至今日，才再次發(fā)揮出巨大作用呢？

我們知道技術(shù)是發(fā)展的，很多在以往無(wú)法實(shí)現(xiàn)的構(gòu)思，可能在若干年后發(fā)光發(fā)熱。就比如1956年提出的人工智能技術(shù)，在半個(gè)世紀(jì)后才發(fā)展壯大并成為了社會(huì)生活必不可缺的一部分。支撐起其變化的一方面是數(shù)據(jù)處理技術(shù)的成熟，另一方面就是算力自身的發(fā)展。異構(gòu)計(jì)算也是如此，英特爾在其發(fā)展的過程中起到的關(guān)鍵作用。

在快手的LaoFe NDP架構(gòu)中，英特爾®Stratix®10 FPGA表現(xiàn)十分出眾。全新的英特爾Hyperflex™FPGA架構(gòu)相比前一代時(shí)鐘頻率提高了2倍，功耗降低了70%。此外，更快的時(shí)鐘頻率減小了總線寬度和知識(shí)產(chǎn)（IP）的規(guī)模，釋放了更多分FPGA資源，以添加更強(qiáng)大的功能。同時(shí)它采用了超感知設(shè)計(jì)工具，減少了布線擁塞和設(shè)計(jì)迭代，提高了設(shè)計(jì)工作的效率。

一只蝴蝶都可能引發(fā)一場(chǎng)風(fēng)暴，更何況是產(chǎn)品效能的全面提升。當(dāng)英特爾®Stratix®10 FPGA在LaoFe NDP每個(gè)環(huán)節(jié)中頻繁出現(xiàn)，其帶來的影響是巨大的。

通過將負(fù)載從CPU卸載到FPGA中，并采用Hash表查找優(yōu)化、隨機(jī)訪存、讀寫分離等方式，快手將單節(jié)點(diǎn)參數(shù)服務(wù)器的吞吐性能提升了5-6倍，整體請(qǐng)求延時(shí)則降低70%-80%，這有助于提升上層應(yīng)用的實(shí)時(shí)性，提供更佳的用戶交互體驗(yàn)。

由于FPGA based KVS方案能夠在單節(jié)點(diǎn)服務(wù)器中提供遠(yuǎn)超傳統(tǒng)方案的吞吐性能，因此僅需要部署少量的服務(wù)器就能夠滿足特定的性能指標(biāo)要求（替代比可達(dá)1:5），從而降低參數(shù)服務(wù)器的TCO。

通過使用FPGA來進(jìn)行查表，能夠有效地降CPU由于高頻率更新而產(chǎn)生的性能抖動(dòng)。

總結(jié)一下，英特爾®Stratix®10 FPGA為快手LaoFe NDP架構(gòu)提供了富于彈性的可編程硬件能力，減少延時(shí)，實(shí)現(xiàn)精確控制，而且其單位算力功耗低、片上內(nèi)存大，能夠適用于延時(shí)要求高、批處理（Batch）比較小、并發(fā)性和重復(fù)性強(qiáng)的應(yīng)用場(chǎng)景。

FPGA based KVS方案與傳統(tǒng)方案性能對(duì)比

英特爾®至強(qiáng)®可擴(kuò)展處理器針對(duì)眾多工作負(fù)載類型和性能等級(jí)而優(yōu)化的平衡架構(gòu)，其對(duì)于LaoFe NDP非常重要，能夠?yàn)橹峁﹥?nèi)置的人工智能加速和高級(jí)安全功能，可提供無(wú)縫性能基礎(chǔ)，幫助從邊緣到云加快數(shù)據(jù)的變革性影響。除此以外它橫跨計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)的平臺(tái)創(chuàng)新和硬件增強(qiáng)虛擬化，均支持新型內(nèi)存創(chuàng)新，促進(jìn)以經(jīng)濟(jì)實(shí)惠、靈活、可擴(kuò)展的方式實(shí)現(xiàn)邊緣到云的傳輸，從而一致地提供出色的企業(yè)對(duì)企業(yè)（B2B）和企業(yè)對(duì)消費(fèi)者（B2C）體驗(yàn)。同時(shí)英特爾硬件增強(qiáng)的安全性有助于抵御惡意攻擊，同時(shí)保持工作負(fù)載的完整性和性能。

英特爾®傲騰™持久內(nèi)存集高速、高性價(jià)比、大容量、持久數(shù)據(jù)保護(hù)和高級(jí)加密等優(yōu)勢(shì)于一體，在其推出之時(shí)便引發(fā)了巨大反響。它能夠?yàn)長(zhǎng)aoFe NDP增加全新的內(nèi)存和存儲(chǔ)層級(jí)，縮小內(nèi)存和存儲(chǔ)層次架構(gòu)之間的關(guān)鍵差距，從而實(shí)現(xiàn)更智能、更靈活的架構(gòu)。其能實(shí)現(xiàn)每臺(tái)服務(wù)器的內(nèi)存容量翻倍，且每臺(tái)虛擬機(jī)的成本降低達(dá)25%，在進(jìn)行實(shí)時(shí)分析和AI工作負(fù)載等需要處理大量數(shù)據(jù)集的服務(wù)，性能提升可高達(dá)2倍。除此以外它還提供了內(nèi)存模式（Memory Mode）和應(yīng)用直接訪問模式（App Direct Mode）兩種模式。在內(nèi)存模式下，英特爾®傲騰™持久內(nèi)存可作為經(jīng)濟(jì)高效的DRAM替代品。CPU內(nèi)存控制器會(huì)把持久內(nèi)存視作易失性的系統(tǒng)內(nèi)存，表現(xiàn)與DRAM類似，同時(shí)CPU內(nèi)存控制器會(huì)將DRAM內(nèi)存用作持久內(nèi)存的高速緩存。該模式能夠提供更大的內(nèi)存容量，這對(duì)于異構(gòu)計(jì)算的提升效果是巨大的。

軟硬并進(jìn)，異構(gòu)即兼容

你見，或者不見，算力就在那里。異構(gòu)計(jì)算衍生發(fā)展數(shù)十年，其就像一座礦山，等待用戶的去發(fā)掘。寶劍贈(zèng)英雄，開發(fā)者們?nèi)绾纬浞滞诰颥F(xiàn)有異構(gòu)硬件的性能，獲得最優(yōu)性價(jià)比的IT資源才是關(guān)鍵。

“軟硬兼施”才能更好的應(yīng)對(duì)異構(gòu)計(jì)算的需求。

在硬件層面，英特爾提出XPU戰(zhàn)略，完善在CPU、GPU、ASIC、FPGA領(lǐng)域的產(chǎn)品線。不僅通過性能核心和能效核心戰(zhàn)略，使CPU中不同核心負(fù)責(zé)不同工作負(fù)載，實(shí)現(xiàn)CPU集群自身的異構(gòu)，同時(shí)通過AMX、SSE、AVX、AVX-512等指令集擴(kuò)展，大幅度提升CPU的AI運(yùn)算性能。在全新的第四代英特爾®至強(qiáng)®可擴(kuò)展處理器中，加入了更多異構(gòu)加速引擎，比如加速內(nèi)存拷貝的DSA，加速網(wǎng)絡(luò)處理的DLB，加速大數(shù)據(jù)分析的IAA，加速數(shù)據(jù)加解密、壓縮解壓縮的QAT，使CPU彈性進(jìn)一步提升，輕松應(yīng)對(duì)多種工作負(fù)載的性能加速需求。

除了CPU，英特爾還提供面向云游戲、視頻處理、虛擬桌面和AI推理的Flex系列GPU，面向HPC和AI訓(xùn)練/推理的GPU Ponte Vecchio。而針對(duì)特定的AI加速，英特爾還打造了面向AI訓(xùn)練和推理的專用人工智能處理器Habana，豐富ASIC AI芯片的生態(tài)系統(tǒng)。

針對(duì)數(shù)據(jù)中心部署和應(yīng)用中的數(shù)據(jù)流處理、計(jì)算加速和存儲(chǔ)加速等問題，英特爾®Stratix®10和最新的Agilex™FPGA芯片，以編程的靈活性、高并發(fā)、高吞吐性能和低延遲特性，被廣泛使用在各大云計(jì)算公司的數(shù)據(jù)中心中。值得一提的是，為了幫助云服務(wù)提供商轉(zhuǎn)移基礎(chǔ)設(shè)施功能任務(wù)，最大化CPU資源，獲得更多收入，英特爾還提供能夠清晰隔離基礎(chǔ)設(shè)施功能和租戶工作負(fù)載的，且基于FPGA和ASIC的IPU，以滿足用戶的多樣化需求。

在軟件層面，英特爾也在持續(xù)發(fā)力，最大化硬件性能。其重磅推出的oneAPI，作為統(tǒng)一的軟件編程架構(gòu)，可以支持多種異構(gòu)計(jì)算單元，為上層的軟件開發(fā)者提供一套應(yīng)用開發(fā)接口，以解決未來應(yīng)用功能在CPU、GPU等因?yàn)榉植蓟蚴怯布?jí)后需要重寫軟件代碼的問題。OneAPI不局限于支持英特爾硬件，也支持其他廠商的硬件。同時(shí)提供基于API的各種高性能庫(kù)，可以在多種異構(gòu)平臺(tái)上運(yùn)行并提供極高的性能，其中很多庫(kù)將開源，英特爾鼓勵(lì)生態(tài)協(xié)作創(chuàng)新，共同推動(dòng)異構(gòu)計(jì)算的發(fā)展與演進(jìn)。

我們不難發(fā)現(xiàn)，異構(gòu)計(jì)算的網(wǎng)，正在鋪成智能時(shí)代的路。英特爾對(duì)于異構(gòu)計(jì)算架構(gòu)在軟硬件層面不斷進(jìn)行調(diào)優(yōu)與支持，軟硬兼?zhèn)?，幫助開發(fā)者更加高效地進(jìn)行數(shù)據(jù)的存儲(chǔ)與處理，推動(dòng)智能化發(fā)展進(jìn)程。LaoFeNDP架構(gòu)就是英特爾與快手的一次成功嘗試，其證明了通過異構(gòu)計(jì)算來加速不同的負(fù)載，能夠顯著提升在推薦等場(chǎng)景下的系統(tǒng)吞吐與延時(shí)表現(xiàn)。

面向未來，為構(gòu)建高性能、低成本、靈活高效的異構(gòu)計(jì)算平臺(tái)，需要更多的技術(shù)協(xié)同應(yīng)用，共同推進(jìn)數(shù)據(jù)中心升級(jí)。可以預(yù)見，PCIe 5.0、DDR5、Scalable IOV、虛擬內(nèi)存共享技術(shù)SVM、CXL等技術(shù)都將發(fā)光發(fā)熱。當(dāng)CPU、XPU、共享內(nèi)存、共享存儲(chǔ)等技術(shù)將通過智能網(wǎng)絡(luò)架構(gòu)和IPU互聯(lián)，更加強(qiáng)大的異構(gòu)計(jì)算能力和數(shù)據(jù)中心必將為數(shù)字化的世界提供源源不斷的算力支撐。

THEEND

免責(zé)聲明：凡注明為其它來源的信息均轉(zhuǎn)自其它平臺(tái)，由網(wǎng)友自主投稿和發(fā)布、編輯整理上傳，對(duì)此類作品本站僅提供交流平臺(tái)，不為其版權(quán)負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。若有來源標(biāo)注錯(cuò)誤或侵犯了您的合法權(quán)益，請(qǐng)作者持權(quán)屬證明與本站聯(lián)系，我們將及時(shí)更正、刪除，謝謝。聯(lián)系郵箱：xiali@infoobs.com

本月熱門

精選文章

熱點(diǎn)資訊

中國(guó)移動(dòng)高同慶：技術(shù)和市場(chǎng)雙邊驅(qū)動(dòng)，產(chǎn)業(yè)聚焦物聯(lián)網(wǎng)智能微系統(tǒng)

異構(gòu)計(jì)算的網(wǎng)，鋪成智能時(shí)代的路

2024 信息化觀察網(wǎng)

長(zhǎng)按掃描二維碼閱讀原文

異構(gòu)計(jì)算的網(wǎng)，鋪成智能時(shí)代的路

最新評(píng)論（評(píng)論僅代表用戶觀點(diǎn)）

信創(chuàng)云環(huán)境下，企業(yè)存儲(chǔ)應(yīng)用的趨勢(shì)是什么？

Canalys：2022年Q2中國(guó)云基礎(chǔ)設(shè)施服務(wù)支出達(dá)到73億美元同比增長(zhǎng)11%

汽車云，云計(jì)算換擋后的下一個(gè)“賽點(diǎn)”？

云環(huán)境下的存儲(chǔ)架構(gòu)選擇和存儲(chǔ)服務(wù)化實(shí)現(xiàn)

本月熱門

云計(jì)算的江湖，風(fēng)云再起

揭秘，IOTE國(guó)際物聯(lián)網(wǎng)展2025年巡展預(yù)告!

防勒索病毒攻擊關(guān)鍵措施

匯聚行業(yè)精英，探討前沿技術(shù) 第十九屆汽車涂裝工藝技術(shù)研討會(huì)即將啟幕!

網(wǎng)博會(huì)革新升級(jí)：“區(qū)域頻道”精準(zhǔn)選型引領(lǐng)，引領(lǐng)智能制造新風(fēng)潮

萬(wàn)億賽道!AI算力趨勢(shì)發(fā)展深度分析 2024

精選文章

華云數(shù)據(jù)吳濤：筑牢信創(chuàng)云基座助力政企數(shù)字化轉(zhuǎn)型

“2023第七屆中國(guó)軟件和信息服務(wù)業(yè)年度風(fēng)云榜”成果征集已啟動(dòng)

某地?cái)?shù)字化市域社會(huì)治理

Intel Cascade Lake和AMD Rome：誰(shuí)會(huì)掌控2019年的數(shù)據(jù)中心市場(chǎng)？

風(fēng)林火山，八載同行 | 快塑網(wǎng)八周年慶典回顧

自主可控大數(shù)據(jù)存儲(chǔ)管理系統(tǒng)應(yīng)用案例

熱點(diǎn)資訊

共筑數(shù)字未來|深度解析數(shù)字化轉(zhuǎn)型與建設(shè)的戰(zhàn)略指南

數(shù)據(jù)要素X政策寶：引領(lǐng)企業(yè)和政策數(shù)據(jù)服務(wù)的新浪潮

政策寶|構(gòu)筑企業(yè)與政策間的高效數(shù)據(jù)通道，跑出惠企助企加速度

政策智能匹配與業(yè)務(wù)線索：企業(yè)騰飛的雙重動(dòng)力引擎!

鼎好DH3煥新顏，美的樓宇科技助力中關(guān)村地標(biāo)綠色新生

中國(guó)移動(dòng)高同慶：技術(shù)和市場(chǎng)雙邊驅(qū)動(dòng)，產(chǎn)業(yè)聚焦物聯(lián)網(wǎng)智能微系統(tǒng)

中國(guó)數(shù)據(jù)存儲(chǔ)行業(yè)全景調(diào)研及行業(yè)發(fā)展趨勢(shì)報(bào)告

異構(gòu)計(jì)算的網(wǎng)，鋪成智能時(shí)代的路

最新評(píng)論（評(píng)論僅代表用戶觀點(diǎn)）

欄目推薦

信創(chuàng)云環(huán)境下，企業(yè)存儲(chǔ)應(yīng)用的趨勢(shì)是什么？

Canalys：2022年Q2中國(guó)云基礎(chǔ)設(shè)施服務(wù)支出達(dá)到73億美元 同比增長(zhǎng)11%

汽車云，云計(jì)算換擋后的下一個(gè)“賽點(diǎn)”？

云環(huán)境下的存儲(chǔ)架構(gòu)選擇和存儲(chǔ)服務(wù)化實(shí)現(xiàn)

本月熱門

精選文章

熱點(diǎn)資訊

中國(guó)移動(dòng)高同慶：技術(shù)和市場(chǎng)雙邊驅(qū)動(dòng)，產(chǎn)業(yè)聚焦物聯(lián)網(wǎng)智能微系統(tǒng)

中國(guó)數(shù)據(jù)存儲(chǔ)行業(yè)全景調(diào)研及行業(yè)發(fā)展趨勢(shì)報(bào)告

信創(chuàng)云環(huán)境下，企業(yè)存儲(chǔ)應(yīng)用的趨勢(shì)是什么？

Canalys：2022年Q2中國(guó)云基礎(chǔ)設(shè)施服務(wù)支出達(dá)到73億美元同比增長(zhǎng)11%

汽車云，云計(jì)算換擋后的下一個(gè)“賽點(diǎn)”？