亚洲aⅤ无码一区二区波多野,亚洲国产成人91,欧美动态美图第1425期

大數(shù)據(jù)技術(shù)在企業(yè)生產(chǎn)中的應(yīng)用

2020-09-15 15:38

精英數(shù)智科技股份有限公司

侯宇輝

有了大量數(shù)據(jù)之后，對于數(shù)據(jù)存儲方式也提出了要求。數(shù)據(jù)存儲分為關(guān)系型數(shù)據(jù)庫存儲、分布式數(shù)據(jù)存儲，數(shù)據(jù)級別較大時可以存儲在分布式文件存儲系統(tǒng)中。對于搭建大數(shù)據(jù)平臺的企業(yè)來說，通常是對業(yè)務(wù)結(jié)果的數(shù)據(jù)存儲于關(guān)系型系統(tǒng)，對于TB級及以上數(shù)據(jù)量存儲至分布式系統(tǒng)中，這兩種數(shù)據(jù)可以使用Sqoop等類似的工具進行數(shù)據(jù)導(dǎo)入導(dǎo)出。

在互聯(lián)網(wǎng)領(lǐng)域，大數(shù)據(jù)應(yīng)用十分廣泛，尤其以企業(yè)為主，企業(yè)作為大數(shù)據(jù)應(yīng)用的主體，數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)可視化、數(shù)據(jù)特征提取、數(shù)據(jù)特征選擇、數(shù)據(jù)清洗、數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)倉庫、數(shù)據(jù)安全等圍繞大數(shù)據(jù)商業(yè)價值的利用焦點已備受關(guān)注。

一、數(shù)據(jù)采集

從數(shù)據(jù)采集層面來看，分為結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)，來源于物聯(lián)網(wǎng)的設(shè)備采集數(shù)據(jù)由于成本低、獲取方式容易，成為企業(yè)大數(shù)據(jù)采集數(shù)據(jù)的主要來源之一，實時性相對強，數(shù)據(jù)量從GB、TB、PB、ZB級擴增。然而對于中小企業(yè)或許會受困于沒有數(shù)據(jù)卻又想轉(zhuǎn)型通過搭建大數(shù)據(jù)平臺來提升競爭力，企業(yè)可以研發(fā)符合市場需求的產(chǎn)品，從新用戶、活躍用戶、粘性用戶到留存用戶，獲取用戶的行為數(shù)據(jù)之后可以進行數(shù)據(jù)分析。此外數(shù)據(jù)采集可以有網(wǎng)絡(luò)爬蟲、ETL抽取等。

二、數(shù)據(jù)存儲

三、數(shù)據(jù)可視化

在實際工業(yè)生產(chǎn)實踐中，對于待處理的大數(shù)據(jù)，首先是數(shù)據(jù)特征探索階段，也就是做數(shù)據(jù)可視化，對數(shù)據(jù)有個初步的了解，才會知道所拿到的數(shù)據(jù)能否解決面臨的實際問題，適用于什么算法。對于無編程能力的人，只需要掌握數(shù)據(jù)分析和處理的能力，即可靈活使用可視化類工具如Tableau，通過拖拉拽形成聯(lián)動，大大縮短數(shù)據(jù)分析流程。從連接數(shù)據(jù)源、建立工作表、構(gòu)建各種圖表、儀表板進行可視化展示，進行交叉分析。對于有編程能力的人可以使用R、Python進行數(shù)據(jù)可視化。

四、數(shù)據(jù)特征提取及清洗

數(shù)據(jù)可視化之后，需要對數(shù)據(jù)進行清洗，對數(shù)據(jù)中的噪聲進行處理以支持后續(xù)數(shù)據(jù)建模。常見的比如進行降維，提取出對實際問題相關(guān)性較高的特征因子后，再回歸到大數(shù)據(jù)，或者做相關(guān)性分析、主成分分析等。

五、數(shù)據(jù)分析及挖掘

數(shù)據(jù)統(tǒng)計及分析主要是基于存儲的海量數(shù)據(jù)進行普通的分析和分類匯總，以滿足大多數(shù)常見的分析需求。數(shù)據(jù)挖掘一般沒有預(yù)先設(shè)定好的主題，主要是在現(xiàn)有數(shù)據(jù)上面進行基于各種算法的計算，從而起到預(yù)測的效果，實現(xiàn)高級別的數(shù)

據(jù)分析的需求，豐富的歷史數(shù)據(jù)是數(shù)據(jù)挖掘的先決條件。比較典型的算法有回歸、分類、聚類、關(guān)聯(lián)分析。機器學(xué)習(xí)正是如此，分為監(jiān)督式學(xué)習(xí)算法、無監(jiān)督式學(xué)習(xí)算法、半監(jiān)督式學(xué)習(xí)算法。

六、機器學(xué)習(xí)

監(jiān)督式學(xué)習(xí)算法是從帶標(biāo)簽(標(biāo)注)的訓(xùn)練樣本中建立的訓(xùn)練樣本中建立模式，并依此推測新的數(shù)據(jù)標(biāo)簽的算法。比如回歸、神經(jīng)網(wǎng)絡(luò)、決策樹、支持向量機、貝葉斯、隨機森林。無監(jiān)督式學(xué)習(xí)算法是在學(xué)習(xí)時并不知道其分類結(jié)果，目的是去對原始資料進行分類，以便了解資料內(nèi)部結(jié)構(gòu)的算法。比如聚類、主成分分析、線性判別分析降維。半監(jiān)督式學(xué)習(xí)算法是利用少量標(biāo)注樣本和大量未標(biāo)注樣本進行機器學(xué)習(xí)，利用數(shù)據(jù)分布上的模型假設(shè),建立學(xué)習(xí)器對未標(biāo)簽樣本進行標(biāo)簽。

機器學(xué)習(xí)正被廣泛應(yīng)用于計算機視覺、語音識別、自然語言處理等方面。其中深度學(xué)習(xí)強調(diào)模型深度，通過逐層特征變換，將樣本在原空間的特征表示變換到一個新特征空間，從而使分類或預(yù)測更容易準(zhǔn)確，更能夠刻畫數(shù)據(jù)的豐富內(nèi)在信息，其實際應(yīng)用對象不僅包含語音、圖像、視頻，同樣也包含文本、語言和語義信息。另外，卷積神經(jīng)網(wǎng)絡(luò)是神經(jīng)網(wǎng)絡(luò)的一種，為識別二維形狀而特殊設(shè)計的多層感知器，擅長處理圖像特別是大圖像的相關(guān)機器學(xué)習(xí)問題，對圖像平移、比例縮放、傾斜或者其他形式的變形具有高度不變性，它的布局更接近于實際的生物神經(jīng)網(wǎng)絡(luò)，被廣泛應(yīng)用。當(dāng)前實現(xiàn)機器學(xué)習(xí)比較常見的兩種主流方式是Spark和Tensorflow框架。機器學(xué)習(xí)作為人工智能的核心，是企業(yè)搭建大數(shù)據(jù)平臺的重要節(jié)點，需要結(jié)合業(yè)務(wù)邏輯，按需選擇合適的算法模型，不斷調(diào)參調(diào)優(yōu)，使機器學(xué)習(xí)服務(wù)于企業(yè)經(jīng)營。

七、數(shù)據(jù)倉庫

數(shù)據(jù)倉庫是為了便于多維分析和多角度展示數(shù)據(jù)按特定模式進行存儲所建立起來的關(guān)系型數(shù)據(jù)庫。在商業(yè)智能系統(tǒng)的設(shè)計中，數(shù)據(jù)倉庫的構(gòu)建是關(guān)鍵，是商業(yè)智能系統(tǒng)的基礎(chǔ)，承擔(dān)對業(yè)務(wù)系統(tǒng)數(shù)據(jù)整合的任務(wù)，為商業(yè)智能系統(tǒng)提供數(shù)據(jù)抽取、轉(zhuǎn)換和加載(ETL)，并按主題對數(shù)據(jù)進行查詢和訪問，為聯(lián)機數(shù)據(jù)分析和數(shù)據(jù)挖掘提供數(shù)據(jù)平臺。海量的數(shù)據(jù)包括社交網(wǎng)絡(luò)、移動設(shè)備和傳感器等新渠道以及新技術(shù)使用所帶來的半結(jié)構(gòu)化或非結(jié)構(gòu)化的數(shù)據(jù)。大數(shù)據(jù)技術(shù)架構(gòu)可分為存儲、處理、應(yīng)用、展示以及整合5個部分，并可根據(jù)數(shù)據(jù)的結(jié)構(gòu)化程度對相關(guān)技術(shù)進行選擇和組合。每個部分包含一些技術(shù)要素，而某些要素又可根據(jù)結(jié)構(gòu)化程度共同作用形成特定的功能。

從企業(yè)角度來說，無論是數(shù)據(jù)庫、數(shù)據(jù)倉庫還是大數(shù)據(jù)都是解決不同需求、處理不同級別數(shù)據(jù)量的技術(shù)，它們之間并無沖突。針對不同需求和現(xiàn)狀進行技術(shù)選擇，各種技術(shù)相互補充、相互協(xié)作。目前階段對于大部分企業(yè)來說，想要開展一個全新的大數(shù)據(jù)項目似乎無從下手。從現(xiàn)有數(shù)據(jù)倉庫建設(shè)理論和經(jīng)驗入手，引入部分大數(shù)據(jù)技術(shù)，特別是實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)的收集、存儲和處理是一種比較可行的方法。

基于云計算的Hadoop大數(shù)據(jù)框架，利用集群的威力高速運算和存儲，實現(xiàn)了一個分布式運行系統(tǒng)，以流的形式提供高傳輸率來訪問數(shù)據(jù)，適應(yīng)了大數(shù)據(jù)的應(yīng)用程序。將Hadoop技術(shù)應(yīng)用于對數(shù)據(jù)的采集、ETL、存儲、處理，開發(fā)提供給傳統(tǒng)的數(shù)據(jù)倉庫BI工具，其架構(gòu)如圖所示。利用Hadoop強大的數(shù)據(jù)處理能力，將各類數(shù)據(jù)處理成結(jié)構(gòu)化數(shù)據(jù)，向上提供給傳統(tǒng)BI工具，對數(shù)據(jù)進行分析和結(jié)果展示。

八、數(shù)據(jù)安全

大數(shù)據(jù)蘊藏著價值信息，但數(shù)據(jù)安全面臨著嚴(yán)峻挑戰(zhàn)。一方面，大數(shù)據(jù)本身的安全防護存在漏洞。雖然云計算對大數(shù)據(jù)提供了便利，但對大數(shù)據(jù)的安全控制力度不夠，API訪問權(quán)限控制以及密鑰生產(chǎn)，存儲和管理方面的不足都可能造成數(shù)據(jù)泄露。另一方面，在用數(shù)據(jù)挖掘和數(shù)據(jù)分析等大數(shù)據(jù)技術(shù)獲取價值信息的同時，攻擊者也在利用這些大數(shù)據(jù)技術(shù)進行攻擊。

當(dāng)然大數(shù)據(jù)也為數(shù)據(jù)安全的發(fā)展提供了機會，對海量數(shù)據(jù)的分析有助于更好的跟蹤網(wǎng)絡(luò)異常行為，對實時安全和應(yīng)用數(shù)據(jù)結(jié)合在一起的數(shù)據(jù)進行預(yù)防性分析，可防止詐騙和黑客入侵。網(wǎng)絡(luò)攻擊行為留下的痕跡數(shù)據(jù)以數(shù)據(jù)的形式隱藏在大數(shù)據(jù)中，從大數(shù)據(jù)的存儲，應(yīng)用和管理方面把關(guān)，可以有針對性的應(yīng)對數(shù)據(jù)安全威脅。企業(yè)需要將大數(shù)據(jù)技術(shù)和安全并行，大數(shù)據(jù)才可以真正成為企業(yè)長遠發(fā)展的驅(qū)動力量。

THEEND

免責(zé)聲明：凡注明為其它來源的信息均轉(zhuǎn)自其它平臺，由網(wǎng)友自主投稿和發(fā)布、編輯整理上傳，對此類作品本站僅提供交流平臺，不為其版權(quán)負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負(fù)任何法律責(zé)任。若有來源標(biāo)注錯誤或侵犯了您的合法權(quán)益，請作者持權(quán)屬證明與本站聯(lián)系，我們將及時更正、刪除，謝謝。聯(lián)系郵箱：xiali@infoobs.com

本月熱門

精選文章

熱點資訊

基于數(shù)字孿生建筑系統(tǒng)集成構(gòu)建數(shù)字孿生城市

大數(shù)據(jù)技術(shù)在企業(yè)生產(chǎn)中的應(yīng)用

2024 信息化觀察網(wǎng)

長按掃描二維碼閱讀原文

大數(shù)據(jù)技術(shù)在企業(yè)生產(chǎn)中的應(yīng)用

最新評論（評論僅代表用戶觀點）

防范企業(yè)內(nèi)部安全威脅的7種“武器”

數(shù)據(jù)的力量：企業(yè)如何利用數(shù)據(jù)驅(qū)動增長？

不容忽視的芯片接口安全

主數(shù)據(jù)管理：企業(yè)數(shù)字化轉(zhuǎn)型的基石

本月熱門

云計算的江湖，風(fēng)云再起

揭秘，IOTE國際物聯(lián)網(wǎng)展2025年巡展預(yù)告!

防勒索病毒攻擊關(guān)鍵措施

匯聚行業(yè)精英，探討前沿技術(shù) 第十九屆汽車涂裝工藝技術(shù)研討會即將啟幕!

網(wǎng)博會革新升級：“區(qū)域頻道”精準(zhǔn)選型引領(lǐng)，引領(lǐng)智能制造新風(fēng)潮

萬億賽道!AI算力趨勢發(fā)展深度分析 2024

精選文章

榮聯(lián)科技集團獲評“2023數(shù)字化轉(zhuǎn)型十大貢獻企業(yè)”

共話央國企數(shù)智化轉(zhuǎn)型，點聚出席慧點科技2023央國企綜合辦公信創(chuàng)研討會

李廣乾：輕裝信息化是理解數(shù)字經(jīng)濟的技術(shù)基礎(chǔ)

聚焦數(shù)據(jù)價值釋放，賦能企業(yè)新質(zhì)成長—— “數(shù)據(jù)資產(chǎn)價值釋放路徑”專題研討活動在武漢大數(shù)據(jù)公司順利舉辦

2022（第七屆）中國網(wǎng)絡(luò)信息安全峰會在京隆重召開

重慶軟件園總裁孫丕宏受邀出席RCEP數(shù)字貿(mào)易合作發(fā)展論壇并作主題演講

熱點資訊

政策寶閃耀2024數(shù)智融合應(yīng)用論壇，榮獲“數(shù)智融合標(biāo)桿案例”

共筑數(shù)字未來|深度解析數(shù)字化轉(zhuǎn)型與建設(shè)的戰(zhàn)略指南

數(shù)據(jù)要素X政策寶：引領(lǐng)企業(yè)和政策數(shù)據(jù)服務(wù)的新浪潮

政策寶|構(gòu)筑企業(yè)與政策間的高效數(shù)據(jù)通道，跑出惠企助企加速度

政策智能匹配與業(yè)務(wù)線索：企業(yè)騰飛的雙重動力引擎!

基于數(shù)字孿生建筑系統(tǒng)集成構(gòu)建數(shù)字孿生城市

數(shù)據(jù)中心基礎(chǔ)設(shè)施沒有實現(xiàn)現(xiàn)代化會增加成本和停機風(fēng)險

大數(shù)據(jù)技術(shù)在企業(yè)生產(chǎn)中的應(yīng)用

最新評論（評論僅代表用戶觀點）

欄目推薦

防范企業(yè)內(nèi)部安全威脅的7種“武器”

數(shù)據(jù)的力量：企業(yè)如何利用數(shù)據(jù)驅(qū)動增長？

不容忽視的芯片接口安全

主數(shù)據(jù)管理：企業(yè)數(shù)字化轉(zhuǎn)型的基石

本月熱門

精選文章

熱點資訊

基于數(shù)字孿生建筑系統(tǒng)集成構(gòu)建數(shù)字孿生城市

數(shù)據(jù)中心基礎(chǔ)設(shè)施沒有實現(xiàn)現(xiàn)代化會增加成本和停機風(fēng)險

數(shù)據(jù)的力量：企業(yè)如何利用數(shù)據(jù)驅(qū)動增長？