天天躁人人躁人人躁狂躁,亚洲欧洲日产国码aⅴ,亚洲国产人成在线观看69网站

【干貨】大數(shù)據(jù)入門：SparkCore開發(fā)調(diào)優(yōu)原則

2020-12-10 13:45

搜狐網(wǎng)

加米谷大數(shù)據(jù)張老師

Spark在大數(shù)據(jù)領(lǐng)域，能夠?qū)崿F(xiàn)離線批處理、SQL類處理、流式/實(shí)時(shí)計(jì)算、機(jī)器學(xué)習(xí)、圖計(jì)算等各種不同類型的計(jì)算操作，對(duì)于企業(yè)而言是低成本下的可靠性選擇，但是想要真正用好Spark，實(shí)現(xiàn)真正的高性能，調(diào)優(yōu)是不可或缺的手段。

大數(shù)據(jù)計(jì)算引擎當(dāng)中，Spark受到的重視是越來越多的，尤其是對(duì)數(shù)據(jù)處理實(shí)時(shí)性的要求越來越高，Hadoop原生的MapReduce引擎受到詬病，Spark的性能也需要不斷調(diào)整優(yōu)化。今天的大數(shù)據(jù)入門分享，我們就來講講SparkCore開發(fā)調(diào)優(yōu)原則。

SparkCore開發(fā)調(diào)優(yōu)原則

1、避免創(chuàng)建重復(fù)的RDD

通常來說，我們?cè)陂_發(fā)一個(gè)Spark作業(yè)時(shí)，首先是基于某個(gè)數(shù)據(jù)源（比如Hive表或HDFS文件）創(chuàng)建一個(gè)初始的RDD；接著對(duì)這個(gè)RDD執(zhí)行某個(gè)算子操作，然后得到下一個(gè)RDD；以此類推，循環(huán)往復(fù)，直到計(jì)算出最終我們需要的結(jié)果。

我們?cè)陂_發(fā)過程中要注意：對(duì)于同一份數(shù)據(jù)，只應(yīng)該創(chuàng)建一個(gè)RDD，不能創(chuàng)建多個(gè)RDD來代表同一份數(shù)據(jù)。否則，我們的Spark作業(yè)會(huì)進(jìn)行多次重復(fù)計(jì)算來創(chuàng)建多個(gè)代表相同數(shù)據(jù)的RDD，進(jìn)而增加作業(yè)的性能開銷。

2、盡可能復(fù)用同一個(gè)RDD

除了要避免在開發(fā)過程中對(duì)一份完全相同的數(shù)據(jù)創(chuàng)建多個(gè)RDD之外，在對(duì)不同的數(shù)據(jù)執(zhí)行算子操作時(shí)還要盡可能地復(fù)用一個(gè)RDD。

尤其對(duì)于類似這種多個(gè)RDD的數(shù)據(jù)有重疊或者包含的情況，盡量復(fù)用一個(gè)RDD，這樣可以盡可能地減少RDD的數(shù)量，從而盡可能減少算子執(zhí)行的次數(shù)。

3、對(duì)多次使用的RDD進(jìn)行持久化

Spark中對(duì)于一個(gè)RDD執(zhí)行多次算子的默認(rèn)原理是這樣的：每次你對(duì)一個(gè)RDD執(zhí)行一個(gè)算子操作時(shí)，都會(huì)重新從源頭處計(jì)算一遍，計(jì)算出那個(gè)RDD來，然后再對(duì)這個(gè)RDD執(zhí)行你的算子操作。這種方式的性能是很差的。

而對(duì)多次使用的RDD進(jìn)行持久化，Spark就會(huì)根據(jù)你的持久化策略，將RDD中的數(shù)據(jù)保存到內(nèi)存或者磁盤中。以后每次對(duì)這個(gè)RDD進(jìn)行算子操作時(shí)，都會(huì)直接從內(nèi)存或磁盤中提取持久化的RDD數(shù)據(jù)，然后執(zhí)行算子，而不會(huì)從源頭處重新計(jì)算一遍這個(gè)RDD，再執(zhí)行算子操作。

4、盡量避免使用shuffle類算子

如果有可能的話，要盡量避免使用shuffle類算子。因?yàn)镾park作業(yè)運(yùn)行過程中，最消耗性能的地方就是shuffle過程。shuffle過程，簡單來說，就是將分布在集群中多個(gè)節(jié)點(diǎn)上的同一個(gè)key，拉取到同一個(gè)節(jié)點(diǎn)上，進(jìn)行聚合或join等操作。

比如reduceByKey、join等算子，都會(huì)觸發(fā)shuffle操作。沒有shuffle操作或者僅有較少shuffle操作的Spark作業(yè)，可以大大減少性能開銷。

5、使用map-side預(yù)聚合的shuffle操作

如果因?yàn)闃I(yè)務(wù)需要，一定要使用shuffle操作，無法用map類的算子來替代，那么盡量使用可以map-side預(yù)聚合的算子。

所謂的map-side預(yù)聚合，說的是在每個(gè)節(jié)點(diǎn)本地對(duì)相同的key進(jìn)行一次聚合操作，類似于MapReduce中的本地combiner。map-side預(yù)聚合之后，每個(gè)節(jié)點(diǎn)本地就只會(huì)有一條相同的key，因?yàn)槎鄺l相同的key都被聚合起來了。其他節(jié)點(diǎn)在拉取所有節(jié)點(diǎn)上的相同key時(shí)，就會(huì)大大減少需要拉取的數(shù)據(jù)數(shù)量，從而也就減少了磁盤IO以及網(wǎng)絡(luò)傳輸開銷。

6、使用高性能的算子

除了shuffle相關(guān)的算子有優(yōu)化原則之外，其他的算子也都有著相應(yīng)的優(yōu)化原則。

比如說使用reduceByKey/aggregateByKey替代groupByKey；使用mapPartitions替代普通map；使用foreachPartitions替代foreach；使用filter之后進(jìn)行coalesce操作；使用repartitionAndSortWithinPartitions替代repartition與sort類操作等。

7、廣播大變量

在開發(fā)過程中，有時(shí)會(huì)遇到需要在算子函數(shù)中使用外部變量的場(chǎng)景（尤其是大變量，比如100M以上的大集合），那么此時(shí)就應(yīng)該使用Spark的廣播（Broadcast）功能來提升性能。

在算子函數(shù)中使用到外部變量時(shí)，默認(rèn)情況下，Spark會(huì)將該變量復(fù)制多個(gè)副本，通過網(wǎng)絡(luò)傳輸?shù)絫ask中，此時(shí)每個(gè)task都有一個(gè)變量副本。如果變量本身比較大的話（比如100M，甚至1G），那么大量的變量副本在網(wǎng)絡(luò)中傳輸?shù)男阅荛_銷，以及在各個(gè)節(jié)點(diǎn)的Executor中占用過多內(nèi)存導(dǎo)致的頻繁GC，都會(huì)極大地影響性能。

8、使用Kryo優(yōu)化序列化性能

在Spark中，主要有三個(gè)地方涉及到了序列化：

在算子函數(shù)中使用到外部變量時(shí)，該變量會(huì)被序列化后進(jìn)行網(wǎng)絡(luò)傳輸。

將自定義的類型作為RDD的泛型類型時(shí)（比如JavaRDD，Student是自定義類型），所有自定義類型對(duì)象，都會(huì)進(jìn)行序列化。因此這種情況下，也要求自定義的類必須實(shí)現(xiàn)Serializable接口。

使用可序列化的持久化策略時(shí)（比如MEMORY_ONLY_SER），Spark會(huì)將RDD中的每個(gè)partition都序列化成一個(gè)大的字節(jié)數(shù)組。

對(duì)于這三種出現(xiàn)序列化的地方，我們都可以通過使用Kryo序列化類庫，來優(yōu)化序列化和反序列化的性能。

關(guān)于大數(shù)據(jù)入門，SparkCore開發(fā)調(diào)優(yōu)原則，以上就為大家做了簡單的介紹了。SparkCore作為Spark的核心部分，要真正掌握Spark框架，那么核心部分一定要吃透。

THEEND

免責(zé)聲明：凡注明為其它來源的信息均轉(zhuǎn)自其它平臺(tái)，由網(wǎng)友自主投稿和發(fā)布、編輯整理上傳，對(duì)此類作品本站僅提供交流平臺(tái)，不為其版權(quán)負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。若有來源標(biāo)注錯(cuò)誤或侵犯了您的合法權(quán)益，請(qǐng)作者持權(quán)屬證明與本站聯(lián)系，我們將及時(shí)更正、刪除，謝謝。聯(lián)系郵箱：xiali@infoobs.com

本月熱門

精選文章

熱點(diǎn)資訊

考慮全球云計(jì)算部署的10個(gè)指南

【干貨】大數(shù)據(jù)入門：SparkCore開發(fā)調(diào)優(yōu)原則

2024 信息化觀察網(wǎng)

長按掃描二維碼閱讀原文

【干貨】大數(shù)據(jù)入門：SparkCore開發(fā)調(diào)優(yōu)原則

最新評(píng)論（評(píng)論僅代表用戶觀點(diǎn)）

2024全國兩會(huì)網(wǎng)安之聲產(chǎn)業(yè)發(fā)展、數(shù)據(jù)安全、AI安全、網(wǎng)絡(luò)治理最受關(guān)注

結(jié)婚人數(shù)還在下降嗎？數(shù)據(jù)披露：二季度我國結(jié)婚登記數(shù)量同比增加15.6萬對(duì)

東數(shù)西算全面啟動(dòng)，數(shù)據(jù)存儲(chǔ)面臨全新挑戰(zhàn)

數(shù)據(jù)可視化，到底解決了什么問題？

本月熱門

云計(jì)算的江湖，風(fēng)云再起

揭秘，IOTE國際物聯(lián)網(wǎng)展2025年巡展預(yù)告!

防勒索病毒攻擊關(guān)鍵措施

匯聚行業(yè)精英，探討前沿技術(shù) 第十九屆汽車涂裝工藝技術(shù)研討會(huì)即將啟幕!

網(wǎng)博會(huì)革新升級(jí)：“區(qū)域頻道”精準(zhǔn)選型引領(lǐng)，引領(lǐng)智能制造新風(fēng)潮

萬億賽道!AI算力趨勢(shì)發(fā)展深度分析 2024

精選文章

喜訊|云祺容災(zāi)備份系統(tǒng)獲“2022年度優(yōu)秀產(chǎn)品”獎(jiǎng)項(xiàng)

定了!2023年中國磷化工產(chǎn)業(yè)發(fā)展大會(huì)于4.14-4.15日在湖北宜昌馨島國際酒店舉辦

上市公司三維天地榮獲中國軟件技術(shù)自主創(chuàng)新企業(yè)獎(jiǎng)

向“服務(wù)型”云底座邁進(jìn) 武漢云“五心服務(wù)”全方位支撐武漢智慧城市建設(shè)

湖北某卷煙廠生產(chǎn)控制系統(tǒng)網(wǎng)絡(luò)安全建設(shè)項(xiàng)目

葉超：下一代反病毒引擎——云管端、工業(yè)化、智能化

熱點(diǎn)資訊

自動(dòng)化測(cè)試有哪些常見的挑戰(zhàn)和解決方案？

政策寶閃耀2024數(shù)智融合應(yīng)用論壇，榮獲“數(shù)智融合標(biāo)桿案例”

共筑數(shù)字未來|深度解析數(shù)字化轉(zhuǎn)型與建設(shè)的戰(zhàn)略指南

數(shù)據(jù)要素X政策寶：引領(lǐng)企業(yè)和政策數(shù)據(jù)服務(wù)的新浪潮

政策寶|構(gòu)筑企業(yè)與政策間的高效數(shù)據(jù)通道，跑出惠企助企加速度

考慮全球云計(jì)算部署的10個(gè)指南

全球超過100萬物聯(lián)網(wǎng)設(shè)備受影響安全專家發(fā)現(xiàn)33個(gè)漏洞

【干貨】大數(shù)據(jù)入門：SparkCore開發(fā)調(diào)優(yōu)原則

最新評(píng)論（評(píng)論僅代表用戶觀點(diǎn)）

欄目推薦

2024全國兩會(huì)網(wǎng)安之聲 產(chǎn)業(yè)發(fā)展、數(shù)據(jù)安全、AI安全、網(wǎng)絡(luò)治理最受關(guān)注

結(jié)婚人數(shù)還在下降嗎？數(shù)據(jù)披露：二季度我國結(jié)婚登記數(shù)量同比增加15.6萬對(duì)

東數(shù)西算全面啟動(dòng)，數(shù)據(jù)存儲(chǔ)面臨全新挑戰(zhàn)

數(shù)據(jù)可視化，到底解決了什么問題？

本月熱門

精選文章

熱點(diǎn)資訊

考慮全球云計(jì)算部署的10個(gè)指南

全球超過100萬物聯(lián)網(wǎng)設(shè)備受影響 安全專家發(fā)現(xiàn)33個(gè)漏洞

2024全國兩會(huì)網(wǎng)安之聲產(chǎn)業(yè)發(fā)展、數(shù)據(jù)安全、AI安全、網(wǎng)絡(luò)治理最受關(guān)注

結(jié)婚人數(shù)還在下降嗎？數(shù)據(jù)披露：二季度我國結(jié)婚登記數(shù)量同比增加15.6萬對(duì)

東數(shù)西算全面啟動(dòng)，數(shù)據(jù)存儲(chǔ)面臨全新挑戰(zhàn)

數(shù)據(jù)可視化，到底解決了什么問題？

全球超過100萬物聯(lián)網(wǎng)設(shè)備受影響安全專家發(fā)現(xiàn)33個(gè)漏洞