亚洲尤物视频,亚洲一区精品国产

人工智能、機器學習和深度學習做好準備的數(shù)據(jù)中心

2020-10-09 13:44

企業(yè)網(wǎng)D1Net

HERO編譯

圍繞圖形處理單元(GPU)計算的生態(tài)系統(tǒng)如今正在迅速發(fā)展，以提高GPU工作負載的效率和可擴展性。然而，在避免存儲和網(wǎng)絡中潛在的瓶頸的同時，也有一些技巧可以最大限度地提高GPU的利用率。

人工智能、機器學習、深度學習應用程序的密集需求對數(shù)據(jù)中心的性能、可靠性和可擴展性提出了挑戰(zhàn)，尤其是在IT架構師模仿公共云的設計以簡化向混合云和內部部署的過渡時。

Excelero公司首席技術官Sven Breuner和首席架構師Kirill Shoikhet為此分享了9個為人工智能、機器學習和深度學習準備數(shù)據(jù)中心的最佳實踐。

數(shù)據(jù)點1：了解目標系統(tǒng)性能、投資回報率和可擴展性計劃。

隨著人工智能成為核心業(yè)務的重要組成部分，大多數(shù)組織都從最初的少量預算和少量培訓數(shù)據(jù)集入手，并為無縫快速的系統(tǒng)增長準備基礎設施。需要構建所選的硬件和軟件基礎設施，以實現(xiàn)靈活的橫向擴展，以避免在每個新的增長階段產(chǎn)生破壞性的變化。數(shù)據(jù)科學家與系統(tǒng)管理員之間的密切協(xié)作對于了解性能要求，并了解基礎設施可能需要隨著時間的發(fā)展而變得至關重要。

數(shù)據(jù)點2：現(xiàn)在或將來評估集群多個GPU系統(tǒng)。

在一臺服務器中采用多個GPU可以在系統(tǒng)內部實現(xiàn)有效的數(shù)據(jù)共享和通信，并具有成本效益，參考設計假定將來可以集群使用，并且在單個服務器中最多支持16個GPU。多個GPU服務器需要準備好以很高的速率讀取傳入的數(shù)據(jù)，以使GPU高效運行，這意味著它需要一個超高速的網(wǎng)絡連接，以及用于訓練數(shù)據(jù)庫的存儲系統(tǒng)。但是在某個時候，單臺服務器將不再足以在合理的時間內處理增長的訓練數(shù)據(jù)庫，因此在設計中構建共享存儲基礎設施將使隨著人工智能、機器學習、深度學習使用的擴展，添加GPU服務器變得更容易。

數(shù)據(jù)點3：評估人工智能工作流程各個階段的瓶頸。

數(shù)據(jù)中心基礎設施需要能夠同時處理人工智能工作流程的所有階段。對于具有成本效益的數(shù)據(jù)中心來說，擁有一個可靠的資源調度和共享概念是至關重要的。因此，盡管數(shù)據(jù)科學家獲得了需要攝取和準備的新數(shù)據(jù)，但其他人將訓練他們的可用數(shù)據(jù)，而其他人則使用先前生成的模型進行訓練用于生產(chǎn)。Kubernetes已成為解決這一問題的一種主要解決方案，使云計算技術易于在內部部署使用，并使混合部署變得可行。

數(shù)據(jù)點4：查看用于優(yōu)化GPU利用率和性能的策略。

許多人工智能、機器學習、深度學習應用程序的計算密集型性質使基于GPU的服務器成為常見選擇。但是，盡管GPU可以有效地從內存加載數(shù)據(jù)，但是訓練數(shù)據(jù)集通常遠遠超過內存，并且涉及的大量文件變得更加難以攝取。在GPU服務器之間以及與存儲基礎設施之間，實現(xiàn)GPU數(shù)量與可用CPU功率、內存和網(wǎng)絡帶寬之間的最佳平衡至關重要。

數(shù)據(jù)點5：支持訓練和推理階段的需求。

在訓練系統(tǒng)“看貓”的經(jīng)典示例中，計算機執(zhí)行一個數(shù)字游戲，需要查看大量不同顏色的貓。由于包含大量并行文件讀取的訪問的性質，NVMe閃存通過提供超低的訪問延遲和每秒的大量讀取操作很好地滿足了這些要求。在推理階段，挑戰(zhàn)是相似的，因為對象識別通常是實時發(fā)生的——另一個使用案例中，NVMe閃存也提供了延遲優(yōu)勢。

數(shù)據(jù)點6：考慮并行文件系統(tǒng)和替代方案。

諸如IBM公司的SpectrumScale或BeeGFS之類的并行文件系統(tǒng)可以幫助有效地處理大量小文件的元數(shù)據(jù)，并通過在網(wǎng)絡上每秒交付數(shù)萬個小文件，從而使機器學習數(shù)據(jù)集的分析速度提高3到4倍。鑒于訓練數(shù)據(jù)的只讀性質，因此在將數(shù)據(jù)卷直接提供給GPU服務器并通過Kubernetes之類的框架以共享方式共享它們時，也可以完全避免使用并行文件系統(tǒng)。

數(shù)據(jù)點7：選擇正確的網(wǎng)絡主干。

人工智能、機器學習、深度學習通常是一種新的工作負載，將其重新安裝到現(xiàn)有的網(wǎng)絡基礎設施中通常無法支持復雜計算和快速高效數(shù)據(jù)傳輸所需的低延遲、高帶寬、高消息速率和智能卸載?；赗DMA的網(wǎng)絡傳輸RoCE(融合以太網(wǎng)上的RDMA)和InfiniBand已成為滿足這些新需求的標準。

數(shù)據(jù)點8：考慮四個存儲系統(tǒng)的性價比杠桿。

(1)高讀取吞吐量和低延遲，不限制混合部署，可以在云平臺或內部部署資源上運行。

(2)數(shù)據(jù)保護。人工智能、機器學習、深度學習存儲系統(tǒng)通常比數(shù)據(jù)中心中的其他系統(tǒng)要快得多，因此在發(fā)生故障后從備份中恢復可能會花費很長時間，并且會中斷正在進行的操作。深度學習訓練的只讀性質使其非常適合于分布式擦除編碼，在這種存儲中，最高容錯能力已經(jīng)內置在主存儲系統(tǒng)中，原始容量和可用容量之間的差異很小。

(3)容量彈性可適應任何大小或類型的驅動器，以便隨著閃存介質的發(fā)展和閃存驅動器特性的擴展，數(shù)據(jù)中心可以在最重要的情況下最大限度地提高性價比。

(4)性能。由于人工智能數(shù)據(jù)集需要隨著時間的推移而增長，以進一步提高模型的準確性，因此存儲基礎設施應實現(xiàn)接近線性的縮放系數(shù)，在這種情況下，每增加一次存儲都會帶來同等的增量性能。這使得組織可以從小規(guī)模開始，并根據(jù)業(yè)務需要而無中斷地增長。

數(shù)據(jù)點9：設置基準和性能指標以幫助實現(xiàn)可擴展性。

例如，對于深度學習存儲，一個重要指標可能是每個GPU每秒處理X個文件(通常為數(shù)千或數(shù)萬個)，其中每個文件的平均大小為Y(從幾十個到數(shù)千個)kB 。預先建立適當?shù)幕鶞屎托阅苤笜擞兄趶囊婚_始就確定架構方法和解決方案，并指導后續(xù)擴展。

THEEND

免責聲明：凡注明為其它來源的信息均轉自其它平臺，由網(wǎng)友自主投稿和發(fā)布、編輯整理上傳，對此類作品本站僅提供交流平臺，不為其版權負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏，概不負任何法律責任。若有來源標注錯誤或侵犯了您的合法權益，請作者持權屬證明與本站聯(lián)系，我們將及時更正、刪除，謝謝。聯(lián)系郵箱：xiali@infoobs.com

本月熱門

云計算的江湖，風云再起

10月8日
揭秘，IOTE國際物聯(lián)網(wǎng)展2025年巡展預告!

10月8日
防勒索病毒攻擊關鍵措施

10月8日
匯聚行業(yè)精英，探討前沿技術第十九屆汽車涂裝工藝技術研討會即將啟幕!

10月8日
網(wǎng)博會革新升級：“區(qū)域頻道”精準選型引領，引領智能制造新風潮

10月8日
萬億賽道!AI算力趨勢發(fā)展深度分析 2024

10月9日

精選文章

熱點資訊

5G+AGV：新基建和“咱們”有啥關系？

人工智能、機器學習和深度學習做好準備的數(shù)據(jù)中心

2024 信息化觀察網(wǎng)

長按掃描二維碼閱讀原文

人工智能、機器學習和深度學習做好準備的數(shù)據(jù)中心

最新評論（評論僅代表用戶觀點）

“讓天下沒有難做的AI應用”，阿里云的底氣在哪？

綜述人工智能芯片領域，分析未來發(fā)展趨勢

ChatGPT重磅升級!新語音和圖像輸入功能，讓ChatGPT能看、能聽、能說

業(yè)主如何適應智慧城市新時代？

本月熱門

云計算的江湖，風云再起

揭秘，IOTE國際物聯(lián)網(wǎng)展2025年巡展預告!

防勒索病毒攻擊關鍵措施

匯聚行業(yè)精英，探討前沿技術第十九屆汽車涂裝工藝技術研討會即將啟幕!

網(wǎng)博會革新升級：“區(qū)域頻道”精準選型引領，引領智能制造新風潮

萬億賽道!AI算力趨勢發(fā)展深度分析 2024

精選文章

2024首屆“數(shù)據(jù)要素×”行業(yè)推進大會回顧篇——國家信息中心公共技術部發(fā)展規(guī)劃處處長王曉冬發(fā)表主題演講

龐潼川：主動信息安全支撐信息化深度與廣度發(fā)展

北信源SOAR為您打造企業(yè)安全運營中心

QuestMobile 2023中國互聯(lián)網(wǎng)核心趨勢年度報告（精華版）：12.24億用戶每月上網(wǎng)160小時，15大巨頭月活破4億

無源風口已來，這份報告揭秘RFID為何是最優(yōu)秀的無源IoT技術

二十余年變革與迭代華磊迅拓MES“進化論”

熱點資訊

政策寶閃耀2024數(shù)智融合應用論壇，榮獲“數(shù)智融合標桿案例”

共筑數(shù)字未來|深度解析數(shù)字化轉型與建設的戰(zhàn)略指南

數(shù)據(jù)要素X政策寶：引領企業(yè)和政策數(shù)據(jù)服務的新浪潮

政策寶|構筑企業(yè)與政策間的高效數(shù)據(jù)通道，跑出惠企助企加速度

政策智能匹配與業(yè)務線索：企業(yè)騰飛的雙重動力引擎!

5G+AGV：新基建和“咱們”有啥關系？

成都5G智慧城先導區(qū)長啥樣？

人工智能、機器學習和深度學習做好準備的數(shù)據(jù)中心

最新評論（評論僅代表用戶觀點）

欄目推薦

“讓天下沒有難做的AI應用”，阿里云的底氣在哪？

綜述人工智能芯片領域，分析未來發(fā)展趨勢

ChatGPT重磅升級!新語音和圖像輸入功能，讓ChatGPT能看、能聽、能說

業(yè)主如何適應智慧城市新時代？

本月熱門

精選文章

熱點資訊

5G+AGV：新基建和“咱們”有啥關系？

成都5G智慧城先導區(qū)長啥樣？

人工智能、機器學習和深度學習做好準備的數(shù)據(jù)中心

“讓天下沒有難做的AI應用”，阿里云的底氣在哪？

ChatGPT重磅升級!新語音和圖像輸入功能，讓ChatGPT能看、能聽、能說

業(yè)主如何適應智慧城市新時代？

5G+AGV：新基建和“咱們”有啥關系？