基于物聯(lián)網(wǎng)的智慧城市數(shù)據(jù)分析框架

Saumitra Jagdale
數(shù)據(jù)科學(xué)在各種物聯(lián)網(wǎng)領(lǐng)域的應(yīng)用,包括工業(yè)物聯(lián)網(wǎng)、智慧城市、醫(yī)療保健和農(nóng)業(yè)。確定了未來的研究和發(fā)展方向,包括理解機(jī)器學(xué)習(xí)模型,隱私和安全問題,以及物聯(lián)網(wǎng)中數(shù)據(jù)科學(xué)的倫理影響。

640 (1).png

本文來自千家網(wǎng),作者:Saumitra Jagdale。

物聯(lián)網(wǎng)設(shè)備的快速增長(zhǎng)以及由此產(chǎn)生的數(shù)據(jù)泛濫給管理、處理和分析物聯(lián)網(wǎng)數(shù)據(jù)帶來了獨(dú)特的挑戰(zhàn)。龐大的數(shù)據(jù)量、速度和多樣性需要能夠處理和提取有意義的見解的先進(jìn)數(shù)據(jù)科學(xué)技術(shù)。當(dāng)數(shù)據(jù)科學(xué)被應(yīng)用時(shí),在物聯(lián)網(wǎng)領(lǐng)域有很大的創(chuàng)新和價(jià)值創(chuàng)造空間。除了強(qiáng)調(diào)其好處外,它還研究了在使用數(shù)據(jù)科學(xué)技術(shù)評(píng)估物聯(lián)網(wǎng)數(shù)據(jù)時(shí)要考慮的困難和因素。

數(shù)據(jù)科學(xué)在各種物聯(lián)網(wǎng)領(lǐng)域的應(yīng)用,包括工業(yè)物聯(lián)網(wǎng)、智慧城市、醫(yī)療保健和農(nóng)業(yè)。確定了未來的研究和發(fā)展方向,包括理解機(jī)器學(xué)習(xí)模型,隱私和安全問題,以及物聯(lián)網(wǎng)中數(shù)據(jù)科學(xué)的倫理影響。

數(shù)據(jù)科學(xué)的實(shí)施和應(yīng)用伴隨著物聯(lián)網(wǎng)框架,強(qiáng)調(diào)與檢查和利用物聯(lián)網(wǎng)數(shù)據(jù)相關(guān)的方法、目的和障礙??紤]到這類數(shù)據(jù)的特殊性,研究了處理物聯(lián)網(wǎng)數(shù)據(jù)的數(shù)據(jù)科學(xué)技術(shù)的獨(dú)特特征,包括異常檢測(cè)、融合、機(jī)器學(xué)習(xí)和預(yù)處理過程。此外,它還強(qiáng)調(diào)了分布式和可擴(kuò)展數(shù)據(jù)處理系統(tǒng)對(duì)于處理大量實(shí)時(shí)物聯(lián)網(wǎng)數(shù)據(jù)的重要性。

物聯(lián)網(wǎng)數(shù)據(jù)預(yù)處理和清理中使用的技術(shù)

數(shù)據(jù)清洗技術(shù)通過消除未處理物聯(lián)網(wǎng)數(shù)據(jù)中的噪聲、異常和不規(guī)則性,提高數(shù)據(jù)的準(zhǔn)確性和質(zhì)量。它涉及識(shí)別和管理缺失值、修復(fù)錯(cuò)誤以及確保數(shù)據(jù)完整性。丟失的數(shù)據(jù)處理主要集中在傳感器故障、網(wǎng)絡(luò)中斷和設(shè)備故障上,導(dǎo)致物聯(lián)網(wǎng)數(shù)據(jù)流中的值丟失。數(shù)據(jù)科學(xué)家使用均值插補(bǔ)和插值等成像技術(shù)通過查找模式和聯(lián)系來填補(bǔ)數(shù)據(jù)集中的空白。為了提供公平的比較和分析,使用數(shù)據(jù)標(biāo)準(zhǔn)化技術(shù)對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,使其達(dá)到標(biāo)準(zhǔn)規(guī)模。

640 (1).png

圖1:物聯(lián)網(wǎng)數(shù)據(jù)特征(圖片來源:參考文獻(xiàn)[1])

特征工程是從未經(jīng)過濾的原始物聯(lián)網(wǎng)數(shù)據(jù)中提取有用和相關(guān)的特征。它通過捕獲數(shù)據(jù)中復(fù)雜的相關(guān)性和模式來提高機(jī)器學(xué)習(xí)算法的功能。特征工程技術(shù)的例子包括變量轉(zhuǎn)換、交互項(xiàng)創(chuàng)建和統(tǒng)計(jì)特征提取。使用這些方法,數(shù)據(jù)專業(yè)人員可以通過確保物聯(lián)網(wǎng)數(shù)據(jù)的質(zhì)量、可靠性和完整性來保證分析的準(zhǔn)確性和意義。這些過程為后期的數(shù)據(jù)科學(xué)任務(wù)創(chuàng)造了舞臺(tái),包括特征選擇、模型構(gòu)建和預(yù)測(cè)分析,允許提取分析信息并根據(jù)物聯(lián)網(wǎng)數(shù)據(jù)做出可辯護(hù)的結(jié)論。

物聯(lián)網(wǎng)數(shù)據(jù)對(duì)數(shù)據(jù)科學(xué)的挑戰(zhàn)

數(shù)據(jù)采集:物聯(lián)網(wǎng)設(shè)備在多個(gè)環(huán)境和地點(diǎn)的分散特性可能具有挑戰(zhàn)性。為了獲得可信的物聯(lián)網(wǎng)數(shù)據(jù),數(shù)據(jù)科學(xué)家必須考慮數(shù)據(jù)采集以及兼容性、同步和數(shù)據(jù)訪問。

數(shù)據(jù)預(yù)處理:在分析物聯(lián)網(wǎng)數(shù)據(jù)之前,經(jīng)常需要進(jìn)行大量的準(zhǔn)備。從設(shè)備中檢索到的原始數(shù)據(jù)中可能存在缺失的數(shù)字、異常、噪聲和不一致。數(shù)據(jù)預(yù)處理將應(yīng)對(duì)與數(shù)據(jù)質(zhì)量、處理缺失值、檢測(cè)和處理異常值以及擴(kuò)展或標(biāo)準(zhǔn)化數(shù)據(jù)相關(guān)的困難。

數(shù)據(jù)融合:各種來源,包括社交媒體、智能手機(jī)、平板電腦和傳感器,經(jīng)常產(chǎn)生物聯(lián)網(wǎng)數(shù)據(jù)。一個(gè)重要的挑戰(zhàn)是集成和融合來自不同來源的數(shù)據(jù),為了合并和組合來自許多傳感器或設(shè)備的數(shù)據(jù),可以通過考慮數(shù)據(jù)的語義、時(shí)間和地理組件來使用數(shù)據(jù)融合技術(shù)。

數(shù)據(jù)隱私和安全:物聯(lián)網(wǎng)數(shù)據(jù)經(jīng)常包含敏感和個(gè)人數(shù)據(jù),這引發(fā)了安全和隱私問題。為了保護(hù)物聯(lián)網(wǎng)數(shù)據(jù),數(shù)據(jù)隱私和安全必須采用隱私保護(hù)策略,安全的數(shù)據(jù)處理程序,并遵守隱私法。

機(jī)器學(xué)習(xí)在物聯(lián)網(wǎng)數(shù)據(jù)分析中的關(guān)鍵應(yīng)用

統(tǒng)計(jì)方法:統(tǒng)計(jì)方法檢測(cè)物聯(lián)網(wǎng)數(shù)據(jù)中標(biāo)準(zhǔn)模式的偏差。它們是相對(duì)可解釋的和直接的,使它們適合于識(shí)別簡(jiǎn)單的異常。然而,它們可能無法捕獲復(fù)雜的異常或模式,并假設(shè)可能不適用于所有物聯(lián)網(wǎng)場(chǎng)景的數(shù)據(jù)分布和假設(shè)。

異常檢測(cè):物聯(lián)網(wǎng)數(shù)據(jù)異??赡苁枪收稀⑵婀中袨榛虬踩┒吹嫩E象,可以使用機(jī)器學(xué)習(xí)技術(shù)來發(fā)現(xiàn)。通過基于標(biāo)準(zhǔn)數(shù)據(jù)模式的訓(xùn)練模型,可以識(shí)別并標(biāo)記與規(guī)范的偏差,以進(jìn)行額外的查詢。

聚類和細(xì)分:機(jī)器學(xué)習(xí)聚類算法可以找到具有相似使用模式的設(shè)備集群,對(duì)數(shù)據(jù)進(jìn)行細(xì)分以進(jìn)行重點(diǎn)分析,或根據(jù)特定特征或行為對(duì)可比較的物聯(lián)網(wǎng)數(shù)據(jù)實(shí)例進(jìn)行分組,并協(xié)助識(shí)別模式。

特征選擇和降維:物聯(lián)網(wǎng)數(shù)據(jù)可以有很多方面并且是高維的。特征選擇和最小化維度等機(jī)器學(xué)習(xí)技術(shù)可以通過定位最相關(guān)的特征或?qū)?shù)據(jù)轉(zhuǎn)換到較低維度的空間來增強(qiáng)計(jì)算效率和模型性能。

分類和回歸:機(jī)器學(xué)習(xí)算法可以識(shí)別特定事件或條件,或?qū)⑽锫?lián)網(wǎng)數(shù)據(jù)分為多個(gè)組。例如,回歸模型可以根據(jù)環(huán)境條件或取決于輸入變量的數(shù)值來預(yù)測(cè)能源使用情況。

時(shí)間序列分析:模式和時(shí)間順序在物聯(lián)網(wǎng)數(shù)據(jù)中很常見。使用機(jī)器學(xué)習(xí)方法進(jìn)行時(shí)間序列分析可以從時(shí)變數(shù)據(jù)中獲得有價(jià)值的見解,從而促進(jìn)長(zhǎng)期趨勢(shì)分析、異常檢測(cè)和預(yù)測(cè)。時(shí)間序列分析技術(shù)還可以捕獲物聯(lián)網(wǎng)數(shù)據(jù)中的時(shí)間依賴性和趨勢(shì)。它們能夠預(yù)測(cè)未來趨勢(shì)并識(shí)別一段時(shí)間內(nèi)的異常情況。然而,他們可能需要有關(guān)不規(guī)則或丟失的時(shí)間序列數(shù)據(jù)的幫助,并且正確的建模和時(shí)間序列技術(shù)的選擇需要專業(yè)知識(shí)。

通過采用機(jī)器學(xué)習(xí)方法,它可以檢測(cè)潛在模式,提供精確的預(yù)測(cè),增強(qiáng)資源分配,并獲得重要的見解以支持物聯(lián)網(wǎng)環(huán)境中的決策程序。然而,考慮到物聯(lián)網(wǎng)數(shù)據(jù)的獨(dú)特品質(zhì)和困難,例如數(shù)量、速度、多樣性和真實(shí)性,謹(jǐn)慎選擇和訓(xùn)練機(jī)器學(xué)習(xí)模型至關(guān)重要。技術(shù)的選擇取決于物聯(lián)網(wǎng)數(shù)據(jù)的具體特征以及所需的準(zhǔn)確性和可解釋性水平。研究人員和從業(yè)者在選擇合適的物聯(lián)網(wǎng)數(shù)據(jù)異常檢測(cè)和異常值分析方法時(shí)應(yīng)考慮這些因素。

結(jié)論

數(shù)據(jù)科學(xué)方法對(duì)于評(píng)估物聯(lián)網(wǎng)設(shè)備產(chǎn)生的大量數(shù)據(jù)并從中獲取意義至關(guān)重要。這些策略可以使智能城市、醫(yī)療保健、農(nóng)業(yè)和工業(yè)物聯(lián)網(wǎng)的應(yīng)用成為可能。物聯(lián)網(wǎng)數(shù)據(jù)分析需要機(jī)器學(xué)習(xí)算法的幫助,例如聚類、異常檢測(cè)、預(yù)測(cè)性維護(hù)和分類。降維和特征選擇等方法可以提高模型性能。大量的物聯(lián)網(wǎng)數(shù)據(jù)提供了顯著的可擴(kuò)展性和實(shí)時(shí)處理障礙。邊緣計(jì)算和分布式框架可以促進(jìn)實(shí)時(shí)分析并處理大量物聯(lián)網(wǎng)數(shù)據(jù)。

數(shù)據(jù)科學(xué)應(yīng)用廣泛應(yīng)用于用于預(yù)測(cè)性維護(hù)的工業(yè)物聯(lián)網(wǎng)、用于交通管理的智能城市、用于遠(yuǎn)程患者監(jiān)控的醫(yī)療保健以及用于農(nóng)作物產(chǎn)量預(yù)測(cè)的農(nóng)業(yè)等領(lǐng)域。但是,關(guān)于物聯(lián)網(wǎng)可擴(kuò)展性、隱私、安全性、模型可解釋性、道德問題和數(shù)據(jù)可靠性的數(shù)據(jù)科學(xué)方法仍然存在懸而未決的問題。物聯(lián)網(wǎng)可以通過解決這些問題來充分利用數(shù)據(jù)科學(xué)。

參考

[1]Hu,L.和Shu,Y.(2023)。利用物聯(lián)網(wǎng)環(huán)境中的數(shù)據(jù)科學(xué)增強(qiáng)決策能力。國(guó)際先進(jìn)計(jì)算機(jī)科學(xué)與應(yīng)用雜志,14(9)doi:https://doi.org/10.14569/IJACSA.2023.01409120

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無評(píng)論