處理復(fù)雜的數(shù)據(jù)集成,你還在編寫(xiě)腳本嗎?

Isaac Sacolick
數(shù)據(jù)并不單獨(dú)存在于一個(gè)數(shù)據(jù)庫(kù)、文件系統(tǒng)、數(shù)據(jù)湖或存儲(chǔ)庫(kù)中。在記錄系統(tǒng)中創(chuàng)建的數(shù)據(jù)必須滿足多種業(yè)務(wù)需求,與其他數(shù)據(jù)源相集成,然后才能在分析、面向客戶的應(yīng)用程序或內(nèi)部工作流中使用。

當(dāng)每個(gè)企業(yè)都在生成和訪問(wèn)多個(gè)數(shù)據(jù)源,集成平臺(tái)可確保每個(gè)團(tuán)隊(duì)都擁有推動(dòng)業(yè)務(wù)發(fā)展所需的數(shù)據(jù)。

2345截圖20211028093243.png

數(shù)據(jù)并不單獨(dú)存在于一個(gè)數(shù)據(jù)庫(kù)、文件系統(tǒng)、數(shù)據(jù)湖或存儲(chǔ)庫(kù)中。在記錄系統(tǒng)中創(chuàng)建的數(shù)據(jù)必須滿足多種業(yè)務(wù)需求,與其他數(shù)據(jù)源相集成,然后才能在分析、面向客戶的應(yīng)用程序或內(nèi)部工作流中使用。例子包括:

來(lái)自電子商務(wù)應(yīng)用程序的數(shù)據(jù)與用戶分析、客戶關(guān)系管理(CRM)系統(tǒng)中的客戶數(shù)據(jù)或其他主數(shù)據(jù)源相集成,以建立客戶細(xì)分并定制營(yíng)銷信息。

物聯(lián)網(wǎng)(IoT)傳感器數(shù)據(jù)與運(yùn)營(yíng)和財(cái)務(wù)數(shù)據(jù)存儲(chǔ)相關(guān)聯(lián),用于控制吞吐量和報(bào)告制造過(guò)程的質(zhì)量。

員工工作流應(yīng)用程序把跨多個(gè)軟件即服務(wù)(SaaS)平臺(tái)和內(nèi)部數(shù)據(jù)源的數(shù)據(jù)和工具連接到一個(gè)易于使用的移動(dòng)界面中。

許多企業(yè)還擁有數(shù)據(jù)科學(xué)家、數(shù)據(jù)分析師和創(chuàng)新團(tuán)隊(duì),他們?cè)絹?lái)越需要整合內(nèi)部和外部數(shù)據(jù)源。開(kāi)發(fā)預(yù)測(cè)模型的數(shù)據(jù)科學(xué)家通常會(huì)加載多個(gè)外部數(shù)據(jù)源,例如計(jì)量經(jīng)濟(jì)學(xué)、天氣、人口普查和其他公共數(shù)據(jù),然后將它們與內(nèi)部數(shù)據(jù)源混合。進(jìn)行人工智能試驗(yàn)的創(chuàng)新團(tuán)隊(duì)需要聚合大量且通常很復(fù)雜的數(shù)據(jù)源來(lái)訓(xùn)練和測(cè)試他們的算法。曾經(jīng)在電子表格中執(zhí)行分析的業(yè)務(wù)和數(shù)據(jù)分析師現(xiàn)在可能需要更復(fù)雜的工具來(lái)加載、加入和處理多個(gè)數(shù)據(jù)供給。

用編程和腳本處理數(shù)據(jù)集成

對(duì)于任何具有基本編程技能的人來(lái)說(shuō),將數(shù)據(jù)從源移動(dòng)到目的地的最常見(jiàn)方法就是開(kāi)發(fā)一個(gè)簡(jiǎn)短的腳本。代碼從一個(gè)或多個(gè)源中提取數(shù)據(jù),執(zhí)行任何必要的數(shù)據(jù)驗(yàn)證和操作,并將其推送到一個(gè)或多個(gè)目標(biāo)。

開(kāi)發(fā)人員可以使用多種方法對(duì)點(diǎn)對(duì)點(diǎn)的數(shù)據(jù)集成進(jìn)行編碼,例如:

將數(shù)據(jù)變化推送到其他數(shù)據(jù)庫(kù)系統(tǒng)的數(shù)據(jù)庫(kù)存儲(chǔ)過(guò)程

作為預(yù)定工作或服務(wù)來(lái)運(yùn)行的腳本

當(dāng)應(yīng)用程序的最終用戶更改數(shù)據(jù)時(shí)向服務(wù)發(fā)出警報(bào)的webhook

連接系統(tǒng)間數(shù)據(jù)的微服務(wù)

部署到無(wú)服務(wù)器架構(gòu)的小型數(shù)據(jù)處理代碼片段

這些編碼過(guò)程可以從多個(gè)源中提取數(shù)據(jù),在將數(shù)據(jù)傳送到目標(biāo)數(shù)據(jù)源之前加入、篩選、清理、驗(yàn)證和轉(zhuǎn)換數(shù)據(jù)。

2345截圖20211028093243.png

編寫(xiě)腳本可能是一種快速簡(jiǎn)便的數(shù)據(jù)移動(dòng)方法,但它并不算是專業(yè)級(jí)的數(shù)據(jù)處理方法。生產(chǎn)級(jí)數(shù)據(jù)處理腳本需要自動(dòng)執(zhí)行處理和傳輸數(shù)據(jù)以及處理多個(gè)操作所需的步驟步驟。

例如,處理大量數(shù)據(jù)的集成應(yīng)該是多線程的,并且對(duì)有許多數(shù)據(jù)源的工作也需要可靠的數(shù)據(jù)驗(yàn)證和異常處理。如果需要有效的業(yè)務(wù)邏輯和數(shù)據(jù)轉(zhuǎn)換,開(kāi)發(fā)人員應(yīng)該記錄這些步驟或采取其他措施來(lái)確保這些集成是可以被觀察到的。

支持這些操作需求的腳本編程并非易事。它要求開(kāi)發(fā)人員預(yù)測(cè)數(shù)據(jù)集成可能出現(xiàn)的問(wèn)題,并相應(yīng)地進(jìn)行編程。此外,在使用很多實(shí)驗(yàn)數(shù)據(jù)源時(shí),開(kāi)發(fā)自定義腳本可能并不劃算。所以最后,數(shù)據(jù)集成腳本通常難以在多個(gè)開(kāi)發(fā)人員之間進(jìn)行知識(shí)轉(zhuǎn)移和維護(hù)。

出于這些原因,許多有數(shù)據(jù)集成需求的企業(yè)通常會(huì)尋找編程和編寫(xiě)數(shù)據(jù)流腳本之外的方法。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無(wú)評(píng)論