欧洲成在人线a免费视频,国产精品久久久久精品亚瑟,亚洲国产综合AV在线观看

15種常見的數(shù)據(jù)科學(xué)技術(shù)

2021-01-14 10:41

企業(yè)網(wǎng)D1Net

Ronald Schmelzer

數(shù)據(jù)科學(xué)家可以做些什么以提供這種變革性的業(yè)務(wù)收益?數(shù)據(jù)科學(xué)領(lǐng)域是一些關(guān)鍵要素的集合：準(zhǔn)確提取可量化數(shù)據(jù)的統(tǒng)計和數(shù)學(xué)方法;使用先進的分析技術(shù)和方法從科學(xué)角度解決數(shù)據(jù)分析的技術(shù)和算法，有助于處理大型數(shù)據(jù)集;以及可以幫助將大量數(shù)據(jù)整理成獲得高質(zhì)量見解的所需格式的工具和方法。

數(shù)據(jù)科學(xué)技術(shù)如今已在許多組織中占有一席之地，數(shù)據(jù)科學(xué)家正迅速成為以數(shù)據(jù)為中心的組織最受歡迎的角色之一。數(shù)據(jù)科學(xué)的應(yīng)用程序利用機器學(xué)習(xí)等技術(shù)和大數(shù)據(jù)的力量來獲取深入的見解和新的功能，其中包括預(yù)測分析、圖像和對象識別、會話人工智能系統(tǒng)等。

事實上，那些沒有在數(shù)據(jù)科學(xué)上進行充分投資的組織可能很快落后于在數(shù)據(jù)科學(xué)方面獲得顯著競爭優(yōu)勢的競爭對手。

以下將更深入地研究數(shù)據(jù)科學(xué)家使用的常見統(tǒng)計和分析技術(shù)。其中一些數(shù)據(jù)科學(xué)技術(shù)植根于數(shù)世紀(jì)的數(shù)學(xué)和統(tǒng)計工作，而另一些技術(shù)則相對較新，利用了機器學(xué)習(xí)、深度學(xué)習(xí)和其他形式的高級分析的研究成果。

數(shù)據(jù)科學(xué)如何發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)系

當(dāng)識別大量數(shù)據(jù)中的信息時，數(shù)據(jù)科學(xué)家首先需要辨別不同的數(shù)據(jù)元素如何相互關(guān)聯(lián)。例如，如果在一張圖上繪制了一堆數(shù)據(jù)點，那么如何知道它們是否有意義?

數(shù)據(jù)科學(xué)家最廣泛使用的有三種統(tǒng)計和分析技術(shù)。也許數(shù)據(jù)表示兩個或多個變量之間的關(guān)系，而其工作是繪制某種最能描述這種關(guān)系的曲線或多維平面?；蛘撸砭哂心撤N親和力的集群。其他數(shù)據(jù)可能代表不同的類別。通過發(fā)現(xiàn)這些關(guān)系，可以使數(shù)據(jù)的其他隨機性具有意義，然后可以對其進行分析和可視化，以提供組織可以用來制定決策或計劃策略的信息。

以下了解可用于執(zhí)行分析的各種數(shù)據(jù)科學(xué)技術(shù)和方法：

分類技術(shù)

在分類問題中，數(shù)據(jù)科學(xué)家要回答的首要問題是：“這些數(shù)據(jù)屬于什么類別?”將數(shù)據(jù)分類的原因很多。也許數(shù)據(jù)是手繪的圖像，人們需要知道圖像代表什么字母或數(shù)字?；蛘叽碣J款申請的數(shù)據(jù)，想知道它應(yīng)該屬于“已批準(zhǔn)”還是“已拒絕”類別。其他分類可以集中在確定患者治療方案或電子郵件是否是垃圾郵件。

數(shù)據(jù)科學(xué)家用來將數(shù)據(jù)過濾到類別中的算法和方法包括：

•決策樹。這些是分支邏輯結(jié)構(gòu)，使用機器生成的參數(shù)和數(shù)值樹將數(shù)據(jù)分類為已定義的類別。

•貝葉斯分類器。利用概率的力量，貝葉斯分類器可以幫助將數(shù)據(jù)分為簡單的類別。

•支持向量機(SVM)。支持向量機的目標(biāo)是繪制一條寬邊距的曲線或平面，將數(shù)據(jù)分成不同的類別。

•K-近鄰算法。該技術(shù)使用一種簡單的“惰性決策”方法，根據(jù)數(shù)據(jù)集中最鄰近的類別來確定數(shù)據(jù)點應(yīng)該屬于哪個類別。

•邏輯回歸。盡管使用了分類技術(shù)，但它使用將數(shù)據(jù)擬合到一條線的想法來區(qū)分每一邊的不同類別。這條線的形狀使數(shù)據(jù)可以移至某個類別。

•神經(jīng)網(wǎng)絡(luò)。這種方法使用訓(xùn)練有素的人工神經(jīng)網(wǎng)絡(luò)，尤其是具有多個隱藏層的深度學(xué)習(xí)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)已經(jīng)顯示出強大的分類能力，其中包含大量的訓(xùn)練數(shù)據(jù)。

回歸技術(shù)

如果不知道數(shù)據(jù)屬于哪一類，而是想知道不同數(shù)據(jù)點之間的關(guān)系該怎么辦?回歸的主要思想是回答以下問題：“這個數(shù)據(jù)的預(yù)測值是多少?”一個簡單的概念來自“均值回歸”的統(tǒng)計概念，它可以是一個獨立變量和一個因變量之間的直接回歸，也可以是一個試圖找到多個變量之間關(guān)系的多維回歸。

例如決策樹支持向量機(SVM)和神經(jīng)網(wǎng)絡(luò)一些分類技術(shù)，也可以用來進行回歸。此外，數(shù)據(jù)科學(xué)家可以使用的回歸技術(shù)包括：

•線性回歸。作為數(shù)據(jù)科學(xué)中應(yīng)用最廣泛的方法之一，這種方法試圖根據(jù)兩個變量之間的相關(guān)性找到最適合所分析數(shù)據(jù)的曲線。

•套索回歸。Lasso(套索)是“最小絕對收縮和選擇算符”的縮寫，是一種通過在最終模型中使用數(shù)據(jù)子集來提高線性回歸模型預(yù)測準(zhǔn)確性的技術(shù)。

•多元回歸。這涉及尋找適合可能包含多個變量的多維數(shù)據(jù)的線或平面的不同方法。

聚類和關(guān)聯(lián)分析技術(shù)

另一組數(shù)據(jù)科學(xué)技術(shù)側(cè)重于回答這樣一個問題：“這些數(shù)據(jù)是如何分組的，不同的數(shù)據(jù)點屬于哪些組?”數(shù)據(jù)科學(xué)家可以發(fā)現(xiàn)相關(guān)數(shù)據(jù)點的聚類，這些數(shù)據(jù)點具有共同的各種特征，從而在分析應(yīng)用程序中產(chǎn)生有用的信息。

可用于聚類用途的方法包括：

•K-均值聚類。K-均值算法確定數(shù)據(jù)集中的一定數(shù)量的聚類，并找到“質(zhì)心”，以標(biāo)識不同聚類的位置，并將數(shù)據(jù)點分配給最接近的聚類。

•均值漂移聚類。另一種基于質(zhì)心的聚類技術(shù)，它可以單獨使用，也可以通過移動指定的質(zhì)心來改進k-均值聚類。

•DBSCAN。DBSCAN是“基于密度的帶噪空間聚類算法DBSCAN”的縮寫，是另一種發(fā)現(xiàn)聚類的技術(shù)，它使用一種更高級的方法來識別聚類的密度。

•高斯混合模型。高斯混合模型通過使用高斯分布將數(shù)據(jù)分組在一起而不是將數(shù)據(jù)視為奇點來幫助找到聚類。

•分層聚類。與決策樹類似，這種技術(shù)使用層次化的分支方法來查找聚類。

關(guān)聯(lián)分析是一種相關(guān)但獨立的技術(shù)。其背后的主要思想是找到描述不同數(shù)據(jù)點之間公共性的關(guān)聯(lián)規(guī)則。與聚類類似，人們正在尋找數(shù)據(jù)所屬的組。但是在這種情況下，試圖確定何時數(shù)據(jù)點一起出現(xiàn)，而不是僅僅識別它們的集群。在聚類中，其目標(biāo)是將大數(shù)據(jù)集劃分為可識別的組，而通過關(guān)聯(lián)分析，人們正在測量數(shù)據(jù)點之間的關(guān)聯(lián)程度。

數(shù)據(jù)科學(xué)應(yīng)用實例

數(shù)據(jù)科學(xué)工具帶中的上述方法和技術(shù)需要適當(dāng)?shù)貞?yīng)用于特定的分析問題以及可用于解決這些問題的數(shù)據(jù)。優(yōu)秀的數(shù)據(jù)科學(xué)家必須能夠理解當(dāng)前問題的本質(zhì)——是聚類、分類還是回歸?以及在給定數(shù)據(jù)特征的情況下可以產(chǎn)生所需答案的最佳算法。這就是數(shù)據(jù)科學(xué)實際上是一個科學(xué)過程而不是具有嚴(yán)格規(guī)則的過程，并允許通過編程解決問題的原因。

使用這些技術(shù)，數(shù)據(jù)科學(xué)家可以處理廣泛的應(yīng)用程序，其中許多應(yīng)用程序通常出現(xiàn)在不同類型的行業(yè)和組織中。以下是一些例子：

·異常檢測。如果可以找到預(yù)期或正常數(shù)據(jù)的模式，那么也可以找到那些不符合模式的數(shù)據(jù)點。金融服務(wù)、醫(yī)療保健、零售和制造業(yè)等行業(yè)組織經(jīng)常采用各種數(shù)據(jù)科學(xué)方法來識別其數(shù)據(jù)中的異常情況，以用于欺詐檢測、客戶分析、網(wǎng)絡(luò)安全和IT系統(tǒng)監(jiān)控。異常檢測還可以用來消除數(shù)據(jù)集中的異常值，以提高分析的準(zhǔn)確性。

·二分類和多分類。分類技術(shù)的一個主要應(yīng)用是確定某物是否屬于某一特定類別。這就是所謂的二分類，因為人們可能會問諸如“圖片中是否有貓?”之類的問題。實際的業(yè)務(wù)應(yīng)用是使用圖像識別在大量文件中識別合同或發(fā)票。在多類分類中，在數(shù)據(jù)集中有許多不同的類別，正在努力尋找最適合數(shù)據(jù)點的類別。例如，美國勞工統(tǒng)計局會對工傷進行自動分類。

·個性化。希望與客戶進行個性化交互或向客戶推薦產(chǎn)品和服務(wù)的組織首先需要將數(shù)據(jù)分組到具有共享特征的數(shù)據(jù)桶中。有效的數(shù)據(jù)科學(xué)工作可以使用推薦引擎和超個性化系統(tǒng)等技術(shù)，根據(jù)個人的具體需求和喜好量身來定制網(wǎng)站，推銷產(chǎn)品及更多內(nèi)容，這些技術(shù)是通過匹配人員詳細(xì)資料中的數(shù)據(jù)來驅(qū)動的。

這只是數(shù)據(jù)科學(xué)應(yīng)用程序的一些示例。通過采用數(shù)據(jù)分析的各種工具和方法，數(shù)據(jù)科學(xué)家可以幫助使用它們的組織獲得戰(zhàn)略和競爭優(yōu)勢。

THEEND

免責(zé)聲明：凡注明為其它來源的信息均轉(zhuǎn)自其它平臺，由網(wǎng)友自主投稿和發(fā)布、編輯整理上傳，對此類作品本站僅提供交流平臺，不為其版權(quán)負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負(fù)任何法律責(zé)任。若有來源標(biāo)注錯誤或侵犯了您的合法權(quán)益，請作者持權(quán)屬證明與本站聯(lián)系，我們將及時更正、刪除，謝謝。聯(lián)系郵箱：xiali@infoobs.com

本月熱門

精選文章

熱點資訊

企業(yè)在開始云計算遷移之旅時應(yīng)該考慮什么?

15種常見的數(shù)據(jù)科學(xué)技術(shù)

2024 信息化觀察網(wǎng)

長按掃描二維碼閱讀原文

15種常見的數(shù)據(jù)科學(xué)技術(shù)

最新評論（評論僅代表用戶觀點）

“望聞問切”數(shù)據(jù)要素，卡點在哪？

2022年全球數(shù)據(jù)存儲行業(yè)市場數(shù)據(jù)預(yù)測分析

華為數(shù)據(jù)存儲亮相第七屆數(shù)字中國建設(shè)峰會

2022 智能制造與工業(yè)大數(shù)據(jù)國際會議將于12月10日線上開幕!

本月熱門

云計算的江湖，風(fēng)云再起

揭秘，IOTE國際物聯(lián)網(wǎng)展2025年巡展預(yù)告!

防勒索病毒攻擊關(guān)鍵措施

匯聚行業(yè)精英，探討前沿技術(shù) 第十九屆汽車涂裝工藝技術(shù)研討會即將啟幕!

網(wǎng)博會革新升級：“區(qū)域頻道”精準(zhǔn)選型引領(lǐng)，引領(lǐng)智能制造新風(fēng)潮

萬億賽道!AI算力趨勢發(fā)展深度分析 2024

精選文章

美云智數(shù)魏曉剛：“業(yè)權(quán)一體”重塑組織管理機制數(shù)字化轉(zhuǎn)型需立規(guī)矩、定權(quán)限

重磅發(fā)布!微柏軟件《市政基礎(chǔ)設(shè)施建設(shè)綜合管理平臺》正式上線

還在擔(dān)心定位不準(zhǔn)？美國將發(fā)射新一代GPS衛(wèi)星

關(guān)于入選《2021中國數(shù)字化轉(zhuǎn)型優(yōu)秀方案集》的決定

基于資金查控合規(guī)要求 CFCA解決方案助力電子數(shù)據(jù)證據(jù)轉(zhuǎn)化安全落地

中國信息協(xié)會大數(shù)據(jù)分會數(shù)據(jù)創(chuàng)新大講堂第二期直播圓滿成功

熱點資訊

政策寶閃耀2024數(shù)智融合應(yīng)用論壇，榮獲“數(shù)智融合標(biāo)桿案例”

共筑數(shù)字未來|深度解析數(shù)字化轉(zhuǎn)型與建設(shè)的戰(zhàn)略指南

數(shù)據(jù)要素X政策寶：引領(lǐng)企業(yè)和政策數(shù)據(jù)服務(wù)的新浪潮

政策寶|構(gòu)筑企業(yè)與政策間的高效數(shù)據(jù)通道，跑出惠企助企加速度

政策智能匹配與業(yè)務(wù)線索：企業(yè)騰飛的雙重動力引擎!

企業(yè)在開始云計算遷移之旅時應(yīng)該考慮什么?

保護數(shù)字生態(tài)系統(tǒng)的五個新安全挑戰(zhàn)

15種常見的數(shù)據(jù)科學(xué)技術(shù)

最新評論（評論僅代表用戶觀點）

欄目推薦

“望聞問切”數(shù)據(jù)要素，卡點在哪？

2022年全球數(shù)據(jù)存儲行業(yè)市場數(shù)據(jù)預(yù)測分析

華為數(shù)據(jù)存儲亮相第七屆數(shù)字中國建設(shè)峰會

2022 智能制造與工業(yè)大數(shù)據(jù)國際會議將于12月10日線上開幕!

本月熱門

精選文章

熱點資訊

企業(yè)在開始云計算遷移之旅時應(yīng)該考慮什么?

保護數(shù)字生態(tài)系統(tǒng)的五個新安全挑戰(zhàn)

“望聞問切”數(shù)據(jù)要素，卡點在哪？