數(shù)據(jù)領域新寵——數(shù)據(jù)編織 | 趨勢解讀

數(shù)據(jù)成為核心生產(chǎn)要素,成為數(shù)字化轉型不可或缺的重要元素。隨著政策的加持,大家對數(shù)據(jù)要素重要性的認知也越來越充分,企業(yè)數(shù)據(jù)總量不斷增加,但是數(shù)據(jù)孤島的情況沒從根本上得以解決,反而有變本加厲的趨勢。

本文來自微信公眾號“twt企業(yè)IT社區(qū)”,作者/鄭金輝。

最近在日常的工作和跟客戶的交流中,頻繁談及“數(shù)據(jù)編織”這個詞,我開始關注數(shù)據(jù)編織是源于對主動式數(shù)據(jù)治理和數(shù)據(jù)編排的研究,從現(xiàn)在的趨勢來看,數(shù)據(jù)編織顯然已經(jīng)進入落地階段。數(shù)據(jù)編織正在從一個概念、一個理念向一線生產(chǎn)場景演進,正在加速產(chǎn)品化和實戰(zhàn)化。其實數(shù)據(jù)編織不是一個特別新的詞,Gartner在2022年的重要戰(zhàn)略技術趨勢報告里面,第三次把數(shù)據(jù)編織列為十大技術趨勢之一。

一、數(shù)據(jù)編織產(chǎn)生的背景

首先我們來看一下在數(shù)據(jù)領域正在發(fā)生著哪些趨勢性的變化。

1、數(shù)據(jù)成為核心生產(chǎn)要素,成為數(shù)字化轉型不可或缺的重要元素。隨著政策的加持,大家對數(shù)據(jù)要素重要性的認知也越來越充分,企業(yè)數(shù)據(jù)總量不斷增加,但是數(shù)據(jù)孤島的情況沒從根本上得以解決,反而有變本加厲的趨勢。

2、數(shù)據(jù)結構從結構化向多元化方向進一步演進。數(shù)據(jù)的內(nèi)涵和外延都進一步發(fā)展,從單純的結構化數(shù)據(jù)為主,向包含結構化、半結構化和非結構化數(shù)據(jù)在內(nèi)的混合模式轉移,數(shù)據(jù)采集、使用、管理的難度進一步加大。

3、從單純關注數(shù)據(jù)應用到關注數(shù)據(jù)能力體系化建設。數(shù)據(jù)域的建設正在從單純的以數(shù)據(jù)應用為核心,向體系化的數(shù)據(jù)服務能力建設轉型,開始意識到數(shù)據(jù)管理和運營的不足,開始嘗試數(shù)據(jù)服務能力平臺化和體系化,開始探索改變數(shù)據(jù)治理“一亂一治”的被動局面。

4、數(shù)據(jù)運行環(huán)境呈現(xiàn)跨平臺和融合化的趨勢。隨著企業(yè)上云開展和多云架構的廣泛采納,數(shù)據(jù)運行環(huán)境正在加速融入統(tǒng)一的云化基礎設施中,數(shù)據(jù)采集、存儲和分析正在從離線轉向實時,對目前異構、泛在、智能的算力平臺提出了更高的要求。

以上這些趨勢性的變化,都是在實際生產(chǎn)中遇到的數(shù)據(jù)管理的難題和痛點,企業(yè)需要一種新的數(shù)據(jù)架構理念來應對在數(shù)據(jù)資產(chǎn)化進程中產(chǎn)生的復雜性、分布式、多元化等因素,于是數(shù)據(jù)編織出現(xiàn)了。

二、什么是數(shù)據(jù)編織

對于數(shù)據(jù)編織的定義,業(yè)內(nèi)尚且沒有統(tǒng)一完整的表達。

Gartner給數(shù)據(jù)編織(Data Fabric)的定義如下:Data Fabric is a design concept that serves as an integrated layer of data and connecting processes.數(shù)據(jù)編織是一個設計概念,表示數(shù)據(jù)和連接進程的集成層。

從以上的定義可以看出,Gartner首先認為數(shù)據(jù)編織不是一種技術,而是一種設計理念或者叫一種架構理念,然后認為數(shù)據(jù)編織是一種跨平臺的數(shù)據(jù)整合手段,同時具備數(shù)據(jù)和連接兩個核心概念,數(shù)據(jù)既是編織的對象又是業(yè)務的表征,連接既是實體的數(shù)據(jù)獲取工具也是屏蔽復雜性的手段。

整體來看,Data Fabric是利用AI、機器學習和數(shù)據(jù)科學等技術手段,訪問數(shù)據(jù)或支持數(shù)據(jù)動態(tài)整合,以發(fā)現(xiàn)可用數(shù)據(jù)之間獨特的、與業(yè)務相關的關系。業(yè)內(nèi)有一句通俗的解讀:現(xiàn)在的數(shù)據(jù)層的架構設計還主要是“人找數(shù)據(jù)”,而Data Fabric設計核心是“數(shù)據(jù)找人”,在合適的時間、將合適的數(shù)據(jù)推送給需要的人。是不是有點豁然開朗的感覺。

Gartner認為,數(shù)據(jù)編織的核心是充當數(shù)據(jù)和連接的集成層。數(shù)據(jù)編織利用對現(xiàn)有、可發(fā)現(xiàn)(未知)的元數(shù)據(jù)資產(chǎn)的持續(xù)和動態(tài)分析,以支持異構、泛在、智能的多云化的基礎設施和數(shù)據(jù)服務全生命周期的持續(xù)打造。Gartner給出的數(shù)據(jù)編織的典型結構,自下而上分為5個層次,分別是:

數(shù)據(jù)源層:數(shù)據(jù)編織可以連接各種數(shù)據(jù)源。這些資源包括存在于企業(yè)內(nèi)部的各類數(shù)據(jù)源,同時也可以接入公共可用的數(shù)據(jù)資源。同時,除了結構化數(shù)據(jù)以外,還包括相關的非結構化數(shù)據(jù)。但是要注意,這提到的是連接和整合,不是采集和提取。

數(shù)據(jù)目錄層:與傳統(tǒng)人工編目不同,數(shù)據(jù)編織強調(diào)采用新技術(語義分析、知識圖譜、主動元數(shù)據(jù)管理和嵌入式機器學習(ML)等等)自動識別元數(shù)據(jù),持續(xù)分析關鍵指標和統(tǒng)計數(shù)據(jù)的可用元數(shù)據(jù),然后構建圖譜模型,形成基于元數(shù)據(jù)的獨特和業(yè)務相關關系,以易于理解的圖譜方式描述元數(shù)據(jù)。

知識圖譜層:數(shù)據(jù)編織必須構建和管理知識圖譜。知識圖譜的語義層使用AI/ML算法簡化數(shù)據(jù)集成設計,使其更加直觀和易于解釋,使數(shù)字化領導者的分析變得容易?;谥R圖譜的數(shù)據(jù)應用,將合適的數(shù)據(jù)在合適的時機自動化推送給數(shù)據(jù)集成專家和數(shù)據(jù)工程師,讓他們能夠輕松訪問數(shù)據(jù)并進行數(shù)據(jù)共享和使用。

數(shù)據(jù)集成層:集成和整合是數(shù)據(jù)編織的核心,數(shù)據(jù)編織提供自動編織、動態(tài)集成的能力,兼容各種數(shù)據(jù)集成方式,包括但不限于ETL、流式傳輸、復制、消息傳遞和數(shù)據(jù)虛擬化或數(shù)據(jù)微服務等。同時,支持通過API支持與內(nèi)部和外部利益相關者共享數(shù)據(jù)。

數(shù)據(jù)消費層:數(shù)據(jù)編織面向所有類型的數(shù)據(jù)用戶,提供數(shù)據(jù)和服務,包括:數(shù)據(jù)科學家、數(shù)據(jù)分析師、數(shù)據(jù)集成專家、數(shù)據(jù)工程師等,既能夠面向專業(yè)的IT用戶的復雜集成需求處理,也可以支持業(yè)務人員的自助式數(shù)據(jù)準備和分析。

數(shù)據(jù)編織本質(zhì)上是一個統(tǒng)一的架構理念,通過數(shù)據(jù)源的自動檢測和元數(shù)據(jù)的主動發(fā)現(xiàn),增強數(shù)據(jù)與業(yè)務的關聯(lián)和實時性;通過數(shù)據(jù)知識譜圖的構建,加強數(shù)據(jù)價值呈現(xiàn);通過數(shù)據(jù)自動編排和動態(tài)集成,形成動態(tài)可持續(xù)的數(shù)據(jù)服務。除了架構理念之外,還提供了一套新的數(shù)據(jù)管理框架,使用戶能夠輕松訪問和共享不同的數(shù)據(jù)資源。

Gartner認為,通過實施Data Fabric,企業(yè)不僅可以減少一半以上人力驅動的數(shù)據(jù)管理任務、70%的數(shù)據(jù)管理工作,讓數(shù)據(jù)質(zhì)量及運營成本降低65%;還能以8倍的速度、不到一半的成本,獲取數(shù)據(jù)和洞察——基于Data Fabric產(chǎn)生的數(shù)據(jù)洞察,可以使企業(yè)平均每年增長30%以上。

以上成效數(shù)據(jù)看看就行,別當真!

三、數(shù)據(jù)編織與數(shù)據(jù)中臺、數(shù)據(jù)治理、DataOps的關系

通過上述的解讀,大家會發(fā)現(xiàn)數(shù)據(jù)編織的概念好像跟之前比較流行的數(shù)據(jù)中臺和數(shù)據(jù)治理有著密切關聯(lián),甚至有點分不清。下面嘗試做一些分析,但是具體細節(jié)仍然需要在一線的實踐中進一步明確。

1、數(shù)據(jù)編織與數(shù)據(jù)中臺

明確的說,數(shù)據(jù)編織和數(shù)據(jù)中臺不是一個概念,數(shù)據(jù)編織也不是數(shù)據(jù)中臺的高級版。

首先,數(shù)據(jù)中臺跟數(shù)據(jù)編織一樣,不是一個產(chǎn)品,也不是一種新技術,而是為了達成“讓數(shù)據(jù)用起來”這一目標,由相關技術組件組成的一個綜合性的解決方案,重點是提供面向應用的數(shù)據(jù)標簽、數(shù)據(jù)目錄、數(shù)據(jù)分析、模型算法服務等各類數(shù)據(jù)服務。而數(shù)據(jù)編織更側重實現(xiàn)異構融合多樣的數(shù)據(jù)資產(chǎn)服務,強調(diào)自動化的集成和智能數(shù)據(jù)編排。

第二,數(shù)據(jù)中臺是一個“讓數(shù)據(jù)用起來”的方法論,不僅包含數(shù)據(jù)管理和使用的相關技術組件,還包括與之相適應的企業(yè)組織機構、管理制度和流程、運營機制和考核辦法等。而數(shù)據(jù)編織一開始就強調(diào)新技術的應用,例如:機器學習、人工智能、知識圖譜的等,且構建和管理知識圖譜是其核心支持從數(shù)據(jù)源級別到分析、洞察力生成、編排和應用程序的集成數(shù)據(jù)層(結構),數(shù)據(jù)編織的技術色彩更濃一些。

數(shù)據(jù)中臺和數(shù)據(jù)編織,是不同的技術陣營營造的出來的概念,沒有太多可比性。如果非要類比,倒是可以把數(shù)據(jù)編織作為數(shù)據(jù)中臺的一部分。不過,恐怕Gartner和IBM們不會答應。

2、數(shù)據(jù)編織與數(shù)據(jù)治理

狹義的數(shù)據(jù)治理重點是對數(shù)據(jù)質(zhì)量的管理,廣義的數(shù)據(jù)治理是數(shù)據(jù)管理的一整套規(guī)則和機制,核心是讓數(shù)據(jù)有序和可管。數(shù)據(jù)治理是基于內(nèi)部數(shù)據(jù)標準、策略和規(guī)則,管理企業(yè)數(shù)據(jù)的可用性、完整性和安全性,從而將數(shù)據(jù)轉化為企業(yè)資產(chǎn)。

傳統(tǒng)的數(shù)據(jù)治理在實際落地中,往往會陷入一亂一治的怪圈,容易形成被動的數(shù)據(jù)管理。從目前來看,數(shù)據(jù)治理的發(fā)展趨勢,有很多方面已經(jīng)很明確了,比如數(shù)據(jù)治理與AI的結合、數(shù)據(jù)安全與數(shù)據(jù)治理的深度融合、數(shù)據(jù)價值呈現(xiàn)成為數(shù)據(jù)治理的關注焦點。

在傳統(tǒng)的數(shù)據(jù)治理體系中是沒有包含數(shù)據(jù)編織的,但數(shù)據(jù)編織(Data Fabric)是一種數(shù)據(jù)管理的全新架構,是自動化、智能化數(shù)據(jù)治理的一個理想解決方案,從數(shù)據(jù)架構層面增強了企業(yè)數(shù)據(jù)管理的能力,是傳統(tǒng)數(shù)據(jù)治理的重要補充。

3、數(shù)據(jù)編織與DataOps

近幾年,DataOps數(shù)據(jù)開發(fā)治理一體化在業(yè)界非常受歡迎。部分數(shù)字化轉型較早、數(shù)據(jù)資源條件優(yōu)厚的企業(yè),借鑒傳統(tǒng)DevOps的理念,將原本分散的數(shù)據(jù)治理、管理、開發(fā)和應用等環(huán)節(jié)打通,形成一個無縫銜接的大閉環(huán),去破解企業(yè)在數(shù)據(jù)應用中的難題。

究竟什么是DataOps,在現(xiàn)在階段不太好定義。維基百科對DataOps的定義是一種面向流程的自動化方法,由分析和數(shù)據(jù)團隊使用,旨在提高數(shù)據(jù)分析的質(zhì)量并縮短數(shù)據(jù)分析的周期,簡而言之,就是提供一整套工具和方法論,讓數(shù)據(jù)應用的開發(fā)和管理更加高效。顯然,這個定義有點籠統(tǒng)又不明確。

我們一般理解,DataOps的目標是為了使數(shù)據(jù)資源和數(shù)據(jù)應用的開發(fā)變得更加有序和可控,實現(xiàn)組件和能力重用以及過程自動化,實現(xiàn)面向用戶的自助式數(shù)據(jù)分析。DataOps在數(shù)據(jù)開發(fā)運營體系化方面,可以作為數(shù)據(jù)中臺建設必須參考的一個方法論。DataOps強調(diào)的是數(shù)據(jù)應用的開發(fā)和運維效率,就像DevOps一樣,DataOps希望通過提供一整套工具和方法論,來讓數(shù)據(jù)應用的開發(fā)和管理更加高效。

那Data Fabric和DataOps有什么區(qū)別和聯(lián)系呢?

Data Fabric和DataOps肯定不是相同的概念,但DataOps是將Data Fabric真正落地一個重要的推動者。DataOps的數(shù)據(jù)流程模型、工具和數(shù)據(jù)洞察與用戶數(shù)據(jù)需求之間存在密切的聯(lián)系,該模型與數(shù)據(jù)編織的架構具有共生關系,DataOps數(shù)據(jù)流程模型和思維模式是數(shù)據(jù)編織落地的核心關鍵。

四、數(shù)據(jù)編織將如何發(fā)展

Data Fabric是近兩年在國外備受追捧的概念,而在國內(nèi)剛剛起步。之前IT技術從概念到落地大概需要10年左右的時間,近些年這個時間已經(jīng)大大縮短。可以預見的是,Data Fabric在國內(nèi)也將被越來越多的企業(yè)用于解決數(shù)據(jù)資產(chǎn)多樣性、分散性、規(guī)?;蛷碗s性不斷增加以及數(shù)據(jù)使用人群和應用場景爆發(fā)式增長帶來的一系列問題。

這個過程中,依然有一些可以預見的問題,需要我們?nèi)ブ匾暋?/p>

1、回歸數(shù)據(jù)資源化和服務化的本源

數(shù)據(jù)編織在落地過程中,還是要回歸數(shù)據(jù)資產(chǎn)化和服務化這一初衷,不要把多元數(shù)據(jù)的動態(tài)管理演變成了打造另外一個數(shù)據(jù)湖。除了資產(chǎn)化和服務化,更要關注平臺化,要注意數(shù)據(jù)集成,動態(tài)的數(shù)據(jù)集成。強調(diào)組件之間的互操作性,通過API和SDK實現(xiàn)集成層、無縫數(shù)據(jù)傳輸以及自動數(shù)據(jù)洞察的獲取。

2、依托統(tǒng)一的異構泛在的智能基礎設施

數(shù)據(jù)編織千萬不能走煙囪式IT建設的老路,必須面向企業(yè)復雜的數(shù)據(jù)環(huán)境提供集成整合能力,克服異構泛在的云化基礎設施帶來的挑戰(zhàn)。依托數(shù)據(jù)編織,根據(jù)不斷變化的技術和業(yè)務需求,自由地從一系列混合IT基礎架構資源中運行關鍵的數(shù)據(jù)業(yè)務。

3、關注與物聯(lián)網(wǎng)和邊緣計算的深度融合

邊緣計算專為支持物聯(lián)網(wǎng)實施而構建,它是將與數(shù)據(jù)相關的關鍵任務從集中式應用程序轉移到一個單獨的邊緣層,該邊緣層是分布式的,但與數(shù)據(jù)編織緊密相連。通過使數(shù)據(jù)編織適配邊緣計算,企業(yè)可以從其物聯(lián)網(wǎng)設備中獲得更多數(shù)據(jù)價值。

數(shù)據(jù)編織的初衷是實現(xiàn)泛在的數(shù)據(jù)資產(chǎn)化和自動編排,這其中物聯(lián)網(wǎng)和端側數(shù)據(jù)是必須要充分考慮的重要場景,從目前趨勢來看,部分關鍵數(shù)據(jù)任務一定會從集中式的算力中心下沉到邊緣計算節(jié)點。數(shù)據(jù)編織必須實現(xiàn)與邊緣計算的深度融合,以便實現(xiàn)更范圍的數(shù)據(jù)資產(chǎn)化,獲取更大的數(shù)據(jù)價值。

從國內(nèi)的行業(yè)現(xiàn)狀來看,國內(nèi)還沒有真正意義上的成熟的Data Fabric。究其原因,是跟國內(nèi)廠商在數(shù)據(jù)領域的布局有關,國內(nèi)數(shù)據(jù)廠商大多分布在數(shù)據(jù)庫和數(shù)據(jù)分析等領域,在數(shù)據(jù)整合和治理領域相對薄弱。在國外的實踐來看,Data Fabric比較活躍的是從事數(shù)據(jù)整合和數(shù)據(jù)虛擬化的公司。

總的來說,Data Fabric作為一個新興的概念,還需進一步的成熟和完善,但是窗口期不會太久。

原題:《數(shù)據(jù)領域的新寵,數(shù)據(jù)編織》,作者個人公眾號:向云而生

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論