非結(jié)構(gòu)化數(shù)據(jù),怎么治理?

數(shù)據(jù)學(xué)堂
隨著互聯(lián)網(wǎng)技術(shù)的日新月異,內(nèi)容數(shù)據(jù)逐漸在各行業(yè)的業(yè)務(wù)中占據(jù)更重要的地位。日常的業(yè)務(wù)過程中,需要處理的大量電子文檔、圖片、音頻、視頻等,都屬于內(nèi)容數(shù)據(jù)范疇。

QQ截圖20211119092508.png

本文來自數(shù)據(jù)學(xué)堂。

隨著互聯(lián)網(wǎng)技術(shù)的日新月異,內(nèi)容數(shù)據(jù)逐漸在各行業(yè)的業(yè)務(wù)中占據(jù)更重要的地位。日常的業(yè)務(wù)過程中,需要處理的大量電子文檔、圖片、音頻、視頻等,都屬于內(nèi)容數(shù)據(jù)范疇。

例如,某銀行的無人營業(yè)網(wǎng)點的遠(yuǎn)程業(yè)務(wù)辦理中,要求用戶上傳身份證、簽字頁等掃描件,來核實用戶身份。為其做后端支撐的影像管理平臺,就屬于典型的內(nèi)容管理系統(tǒng)?;谠擃惼脚_,企業(yè)替代了業(yè)務(wù)處理中的紙質(zhì)化傳輸,實現(xiàn)了海量非結(jié)構(gòu)化內(nèi)容數(shù)據(jù)的采集、加工、傳遞及服務(wù)的全生命周期的數(shù)據(jù)整合,大幅提升了生產(chǎn)效率。

QQ截圖20211119092508.png

內(nèi)容管理系統(tǒng),除了管理非結(jié)構(gòu)化的內(nèi)容數(shù)據(jù)(如圖片、語音、視頻等),還需要實現(xiàn)內(nèi)容文件的元數(shù)據(jù)(如文件標(biāo)簽)的管理,才能為業(yè)務(wù)系統(tǒng)提供服務(wù),如批次上傳/下載、標(biāo)簽化、全文檢索、生命周期管理、文件加工轉(zhuǎn)存、斷點續(xù)傳等。

對內(nèi)容數(shù)據(jù)進(jìn)行收集、存儲、管理和利用的整個過程,已經(jīng)成為企業(yè)提高業(yè)務(wù)效率和提高盈利能力的有效方法。

01非結(jié)構(gòu)化數(shù)據(jù)概述

“非結(jié)構(gòu)化數(shù)據(jù)”是什么?相較于記錄了生產(chǎn)、業(yè)務(wù)、交易和客戶信息等的結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化的信息涵蓋了更為廣泛的內(nèi)容。非結(jié)構(gòu)化數(shù)據(jù)指的是:數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒有預(yù)定義的數(shù)據(jù)模型,不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù)。包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等。

相對于結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)具有以下特點:數(shù)據(jù)存儲占比高、數(shù)據(jù)格式多樣、結(jié)構(gòu)不標(biāo)準(zhǔn)且復(fù)雜、信息量豐富、處理門檻高。

當(dāng)前行業(yè)公認(rèn):非結(jié)構(gòu)化數(shù)據(jù)占數(shù)據(jù)總量的80%以上。結(jié)構(gòu)化數(shù)據(jù)僅占到全部數(shù)據(jù)量的20%,其余80%都是以文件形式存在的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)包含各種辦公文檔、圖片、視頻、音頻、設(shè)計文檔、日志文件、機器數(shù)據(jù)等。

QQ截圖20211119092508.png

非結(jié)構(gòu)化數(shù)據(jù)的占比圖

非結(jié)構(gòu)化數(shù)據(jù)沒有預(yù)定義的數(shù)據(jù)模型,不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)。

下面對比一下結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的區(qū)別:

結(jié)構(gòu)化數(shù)據(jù),是指由二維表結(jié)構(gòu)來邏輯表達(dá)和實現(xiàn)的數(shù)據(jù),嚴(yán)格地遵循數(shù)據(jù)格式與長度規(guī)范,主要通過關(guān)系型數(shù)據(jù)庫進(jìn)行存儲和管理。

結(jié)構(gòu)化數(shù)據(jù)格式形式如圖下:

QQ截圖20211119092508.png

結(jié)構(gòu)化數(shù)據(jù)

非結(jié)構(gòu)化數(shù)據(jù),是數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒有預(yù)定義的數(shù)據(jù)模型,不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù)。包括所有格式的辦公文檔、文本、圖片、HTML、各類報表、圖像和音頻/視頻信息等。

02非結(jié)構(gòu)化數(shù)據(jù)管理存在的問題

1、數(shù)據(jù)種類繁雜,形式多樣

由于企業(yè)日常經(jīng)營管理和業(yè)務(wù)管理的需要,建立了功能各異的應(yīng)用系統(tǒng)或信息化管理平臺,而這些管理系統(tǒng)和平臺中生成了形式多樣的非結(jié)構(gòu)化文檔數(shù)據(jù),用以支撐企業(yè)的各類管理工作。

除此之外,還有大量與管理相關(guān)的非結(jié)構(gòu)化文檔數(shù)據(jù)散存在員工個人工作電腦中。這些數(shù)據(jù)種類繁雜,有的來源于外部,有的是經(jīng)過內(nèi)部整理編研形成的,有的則是完全產(chǎn)生于內(nèi)部;涵蓋了不同格式、不同存儲載體、不同管理階段的非結(jié)構(gòu)化文檔數(shù)據(jù)。

一般來說,企業(yè)擁有形式多樣的存儲設(shè)備,包括個人工作電腦以及信息化管理平臺中管理的設(shè)備,且歸屬于不同的專業(yè)領(lǐng)域,業(yè)務(wù)活動中產(chǎn)生的非結(jié)構(gòu)化文檔數(shù)據(jù)除了常見的與辦公活動相關(guān)的非結(jié)構(gòu)化文檔數(shù)據(jù)外,還包括了如照片、視頻、設(shè)計圖紙等多種形式。目前,這些不同種類的非結(jié)構(gòu)化文檔數(shù)據(jù)基本處于分散狀態(tài),很難進(jìn)行有效的關(guān)聯(lián)和整合。

2、信息孤島造成數(shù)據(jù)割裂現(xiàn)象嚴(yán)重

由于信息系統(tǒng)建設(shè)具有階段性特征,已有的信息系統(tǒng)建設(shè)之初僅以單個的業(yè)務(wù)需求為目標(biāo),彼此孤立,存在著比較嚴(yán)重的孤島現(xiàn)象,系統(tǒng)之間缺少橫向的數(shù)據(jù)接口,且數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一。即便是歸檔后進(jìn)入檔案系統(tǒng)之中的文檔數(shù)據(jù)也難以實現(xiàn)有效的管理與集成。

例如,企業(yè)業(yè)務(wù)活動中存在著很多簡稱、全稱以及英文名稱并行使用的情況,很多數(shù)據(jù)標(biāo)簽對應(yīng)同一個事物、同一個意思卻使用不同的標(biāo)簽值。隨著企業(yè)對數(shù)據(jù)資產(chǎn)價值需求的日益提升,這種現(xiàn)象的弊端亦凸顯,打通企業(yè)非結(jié)構(gòu)化文檔數(shù)據(jù)的“任督二脈”,實現(xiàn)其資產(chǎn)價值勢在必行。

3、存在過多的“賬外”非結(jié)構(gòu)化文檔數(shù)據(jù),缺少統(tǒng)一管控

由于企業(yè)的歸檔制度不夠完善,集團(tuán)制訂的歸檔范圍未將一些應(yīng)歸檔但無法通過系統(tǒng)流轉(zhuǎn)的文檔納入其中,部門相當(dāng)一部分非結(jié)構(gòu)化文檔數(shù)據(jù)仍保存在個人電腦之中,沒有統(tǒng)一的管理和控制,難以進(jìn)行檢索和共享利用,導(dǎo)致企業(yè)文檔數(shù)據(jù)資產(chǎn)存在著流失的風(fēng)險。

4、非結(jié)構(gòu)化文檔數(shù)據(jù)管理功能不全

如不支持有版本的非結(jié)構(gòu)化文檔數(shù)據(jù)管理,使用口徑不統(tǒng)一,相同文件分散在不同的業(yè)務(wù)系統(tǒng)中,無版本控制導(dǎo)致無法確定系統(tǒng)中版本是否為最新。再如,業(yè)務(wù)系統(tǒng)缺少歸檔功能和接口,導(dǎo)致部門無法及時提交應(yīng)歸檔保存的非結(jié)構(gòu)化文檔數(shù)據(jù),導(dǎo)致非結(jié)構(gòu)化文檔數(shù)據(jù)資產(chǎn)容易丟失。同時,許多非結(jié)構(gòu)化文檔數(shù)據(jù)往往以“附件”的形式存在于系統(tǒng)中,難以檢索與利用。

企業(yè)一些信息系統(tǒng)(如OA系統(tǒng)、ERP系統(tǒng)等)中文檔多以表單(如辦文單)的形式進(jìn)行流轉(zhuǎn),需要辦理的文檔通常作為表單的附件,其中既有word或pdf等格式的文本文檔,也有多種格式的圖片、音視頻文件等。這些非結(jié)構(gòu)化文檔往往只能借助其所依附的表單信息或者簡單的文件標(biāo)題等元數(shù)據(jù)加以檢索和利用,檢全率低,開發(fā)利用不足,難以開展深度的數(shù)據(jù)挖掘與分析。

5、相關(guān)制度體系不健全、管理缺位

企業(yè)現(xiàn)有的文檔管理制度并不是建立在徹底的數(shù)據(jù)清理基礎(chǔ)之上,因此,對于企業(yè)中生成哪些非結(jié)構(gòu)化文檔,哪些需要歸檔,如何進(jìn)行歸檔?如何進(jìn)行管理和利用等問題,現(xiàn)有制度中均缺少系統(tǒng)、細(xì)致、可操作的規(guī)定和描述。

而且,非結(jié)構(gòu)化文檔數(shù)據(jù)缺少必要的分類及元數(shù)據(jù)項。尤其是文檔生命周期流程,即從文檔生成、流轉(zhuǎn)、辦結(jié)到歸檔、保存、利用的全過程,并沒有非常清晰和規(guī)范的管理流程和要求。

同時,企業(yè)業(yè)務(wù)活動往往涉及多個參與方,既有企業(yè)內(nèi)部的部門,也有外單位,協(xié)同管理與歸口管理的矛盾突出。這就對企業(yè)的非結(jié)構(gòu)化文檔數(shù)據(jù)管理提出了更高的要求,尤其是非結(jié)構(gòu)化文檔數(shù)據(jù)的準(zhǔn)確性、及時性、一致性、安全性等方面。

此外,企業(yè)非結(jié)構(gòu)化文檔數(shù)據(jù)類型包括內(nèi)部發(fā)文、外部發(fā)文、收文、簽報、合同、業(yè)務(wù)文件附件及歸檔之后的檔案。除了歸檔之后的檔案數(shù)據(jù)是由數(shù)字檔案管理系統(tǒng)進(jìn)行集中統(tǒng)一管理之外,歸檔之前的非結(jié)構(gòu)化文檔數(shù)據(jù)往往處于分散管理的狀態(tài),存在著失存、失真、失控和失用等諸多問題,直接影響了后端檔案數(shù)據(jù)的質(zhì)量,影響了文檔數(shù)據(jù)資產(chǎn)價值的發(fā)揮。

針對上述問題,要想真正實現(xiàn)企業(yè)文檔數(shù)據(jù)資產(chǎn)的科學(xué)管理,非結(jié)構(gòu)化文檔數(shù)據(jù)管理勢在必行。

03非結(jié)構(gòu)化數(shù)據(jù)治理體系規(guī)劃

由于非結(jié)構(gòu)化文檔數(shù)據(jù)數(shù)量大、范圍廣、數(shù)據(jù)狀態(tài)繁雜,涉及部門、人員和系統(tǒng)眾多,正所謂牽一發(fā)而動全身。因此,要順利開展非結(jié)構(gòu)化文檔數(shù)據(jù)的治理,必須充分做好前期的準(zhǔn)備工作和規(guī)劃。

在“摸清家底”—現(xiàn)狀調(diào)查和現(xiàn)狀評估的基礎(chǔ)上,結(jié)合《信息技術(shù)服務(wù)治理第5部分:數(shù)據(jù)治理規(guī)范》提出的數(shù)據(jù)治理框架,從頂層設(shè)計、數(shù)據(jù)治理環(huán)境、數(shù)據(jù)治理和數(shù)據(jù)治理過程四大部分開展非結(jié)構(gòu)化文檔數(shù)據(jù)的管理。

QQ截圖20211119092508.png

1、頂層設(shè)計

企業(yè)的發(fā)展戰(zhàn)略、管理模式和關(guān)鍵業(yè)務(wù)活動對于企業(yè)信息化及其數(shù)據(jù)治理的方向和目標(biāo)起著決定性的導(dǎo)向作用,同時,企業(yè)各級部門及人員對于非結(jié)構(gòu)化文檔數(shù)據(jù)管理的理解與期望也將影響數(shù)據(jù)治理方案的設(shè)計。

QQ截圖20211119092508.png

因此,首先可以通過對企業(yè)關(guān)鍵業(yè)務(wù)活動的流程進(jìn)行調(diào)查與分析,借助成熟度矩陣來評估企業(yè)非結(jié)構(gòu)化文檔數(shù)據(jù)在不同業(yè)務(wù)活動中的現(xiàn)狀水平,并根據(jù)相關(guān)制度規(guī)范或行業(yè)標(biāo)桿進(jìn)行對標(biāo),找出差異點,作為項目開展的現(xiàn)實基礎(chǔ)。

然后,在上述活動的基礎(chǔ)上,制定企業(yè)非結(jié)構(gòu)化文檔數(shù)據(jù)項目的實施規(guī)劃,包括定位、階段、原則和目標(biāo),作為項目開展的基礎(chǔ)與依據(jù)。

2、數(shù)據(jù)治理環(huán)境

任何管理活動的開展都離不開所處的環(huán)境,后者是前者賴以生存的生態(tài)系統(tǒng)。國內(nèi)外宏觀環(huán)境、行業(yè)環(huán)境和企業(yè)內(nèi)部環(huán)境構(gòu)成了環(huán)境要素的三個層面。

在這三個層面中需要縱向考慮政策、制度標(biāo)準(zhǔn)、趨勢、文化、傳統(tǒng)等要素對于項目的影響作用,要遵循法律法規(guī)、行業(yè)監(jiān)管、內(nèi)部管控,滿足數(shù)據(jù)風(fēng)險控制、數(shù)據(jù)安全和隱私的要求。

識別并評估市場發(fā)展、數(shù)據(jù)清理、競爭地位和技術(shù)變革等變化,規(guī)劃并滿足數(shù)據(jù)治理對各類資源的需求,包括人員、經(jīng)費和基礎(chǔ)設(shè)施。

尤其要關(guān)注企業(yè)文化、體制傳統(tǒng)對管理活動實施的潛在影響,區(qū)別有利因素和阻礙因素。

3、數(shù)據(jù)治理框架

在前述兩個步驟的基礎(chǔ)上,圍繞數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全、元數(shù)據(jù)管理、內(nèi)容管理和文檔全生命周期管理等方面,搭建企業(yè)非結(jié)構(gòu)化文檔數(shù)據(jù)管理系統(tǒng)平臺,在企業(yè)內(nèi)部打通各業(yè)務(wù)系統(tǒng)之間的壁壘,在統(tǒng)一的平臺之上規(guī)范非結(jié)構(gòu)化文檔數(shù)據(jù)的管理,同時融合元數(shù)據(jù)管理和內(nèi)容管理。

QQ截圖20211119092508.png

文檔類型關(guān)聯(lián)著文檔的元數(shù)據(jù),不同的文檔類型具備不同的文檔元數(shù)據(jù)集合,也對應(yīng)著不同的管理策略和機制。因此,需要統(tǒng)一制定符合管理和利用要求的非結(jié)構(gòu)化文檔數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)體系。

內(nèi)容管理理念則作用于數(shù)據(jù)管理平臺底層,以數(shù)據(jù)內(nèi)容為中心統(tǒng)一存儲、管理企業(yè)內(nèi)部已建、在建、未系統(tǒng)化管理的非結(jié)構(gòu)化文檔數(shù)據(jù),為上層業(yè)務(wù)管理、知識管理、智能搜索等業(yè)務(wù)應(yīng)用的建設(shè)提供支撐。

4、數(shù)據(jù)治理過程

按照項目管理流程的一般要求,針對企業(yè)非結(jié)構(gòu)化文檔數(shù)據(jù)管理具體目標(biāo)和內(nèi)容,進(jìn)行統(tǒng)籌規(guī)劃、構(gòu)建運行、監(jiān)控評價、改進(jìn)優(yōu)化四個階段的流程控制。

在此過程中,由于項目涉及企業(yè)各個層級、各個部門的眾多人員、系統(tǒng)及工作流程,為了保證項目的順利實施,需要在項目開展的同時進(jìn)行變革管理(Change Management),通過調(diào)研、宣貫和培訓(xùn)等手段加強企業(yè)員工對項目的認(rèn)知和接受程度。

04非結(jié)構(gòu)化數(shù)據(jù)治理解決方案

非結(jié)構(gòu)化數(shù)據(jù)管理在企業(yè)實踐中主要體現(xiàn)為ECM企業(yè)內(nèi)容管理,其解決方案是通過企業(yè)內(nèi)容管理系統(tǒng)來得到各項非結(jié)構(gòu)化數(shù)據(jù)管理工作的具體落地實施。

內(nèi)容是指各類文檔中包含的數(shù)據(jù),其中以文本、圖像、音頻、視頻等非結(jié)構(gòu)化數(shù)據(jù)為主。ECM企業(yè)內(nèi)容管理是指以一種戰(zhàn)略或方法,來幫助企業(yè)獲取、管理、存儲、保護(hù)、利用和洞察企業(yè)組織流程相關(guān)的非結(jié)構(gòu)化數(shù)據(jù),如下圖所示。

QQ截圖20211119092508.png

ECM企業(yè)內(nèi)容管理是一種專注于非結(jié)構(gòu)化數(shù)據(jù)領(lǐng)域的軟件類型,其涵蓋了企業(yè)網(wǎng)盤、文檔管理、知識管理、文件安全交換、工程協(xié)同設(shè)計、文件安全外發(fā)、檔案管理、影像文件管理、電子文檔安全管理、文檔云、ISO質(zhì)量文件體系管理、GMP質(zhì)量文件體系管理、非結(jié)構(gòu)化數(shù)據(jù)管理平臺、工程內(nèi)容管理等應(yīng)用軟件,以及基于AI智能和Graph知識圖譜技術(shù)的智能推薦、智能搜索、智能定密、智能安全分析等內(nèi)容智能應(yīng)用。

ECM企業(yè)內(nèi)容管理系統(tǒng)可以幫助企業(yè)內(nèi)容管理戰(zhàn)略落地,通過內(nèi)容獲取、管理、存儲、保護(hù)、利用等方式挖掘和釋放內(nèi)容價值,最終促進(jìn)企業(yè)數(shù)字化轉(zhuǎn)型,提升企業(yè)運營效率,并獲得企業(yè)商業(yè)洞察能力與長遠(yuǎn)競爭優(yōu)勢。

Gartner于2017年修正了企業(yè)內(nèi)容管理的定義:企業(yè)內(nèi)容管理是一種服務(wù),包括內(nèi)容協(xié)作平臺、內(nèi)容服務(wù)平臺和內(nèi)容業(yè)務(wù)平臺。具體表現(xiàn)為具有通用API接口和多儲存庫的平臺型軟件,服務(wù)于多分支組織機構(gòu)和各種應(yīng)用場景。

QQ截圖20211119092508.png

Gartner在《預(yù)測2019:內(nèi)容服務(wù)的技術(shù)融合》中提出:越來越多的內(nèi)容創(chuàng)新數(shù)字業(yè)務(wù)促進(jìn)了對元數(shù)據(jù)解決方案需求的增長,使得通過使用人工智能來實現(xiàn)以前只能通過人類專業(yè)知識才能實現(xiàn)的自動化解決方案變得更加具有可行性。

進(jìn)一步分析Gartner內(nèi)容服務(wù)框架,其主要包括內(nèi)容管理平臺、內(nèi)容服務(wù)應(yīng)用和內(nèi)容組件。其中內(nèi)容管理平臺是底層內(nèi)容統(tǒng)一存儲和統(tǒng)一管理的基礎(chǔ)平臺,提供各種API接口和Connector連接器等集成支撐;內(nèi)容服務(wù)應(yīng)用強調(diào)以內(nèi)容為中心的業(yè)務(wù)應(yīng)用;內(nèi)容組件是一種類似轉(zhuǎn)檔、預(yù)覽、編輯等細(xì)顆粒的內(nèi)容服務(wù)組件,其能力可輸送于內(nèi)容服務(wù)平臺和內(nèi)容服務(wù)應(yīng)用。

企業(yè)內(nèi)容管理本質(zhì)是為企業(yè)業(yè)務(wù)和數(shù)字化轉(zhuǎn)型提供內(nèi)容服務(wù)支撐,并具有內(nèi)容服務(wù)的快速響應(yīng)能力。基于內(nèi)容服務(wù)平臺CSP的內(nèi)容服務(wù)應(yīng)用CSA分為體系化CSA和場景化CSA。其中體系化CSA覆蓋垂直業(yè)務(wù)領(lǐng)域的內(nèi)容服務(wù),場景化CSA注重與第三方業(yè)務(wù)系統(tǒng)的集成和整合。

QQ截圖20211119092508.png

完整的內(nèi)容服務(wù)框架如上圖所示,其底座是內(nèi)容服務(wù)平臺,中層是基于低代碼開發(fā)技術(shù)的內(nèi)容業(yè)務(wù)平臺,上層構(gòu)建起內(nèi)容協(xié)作、內(nèi)容安全、內(nèi)容管理、內(nèi)容治理、內(nèi)容合規(guī)、內(nèi)容業(yè)務(wù)、內(nèi)容智能等各種內(nèi)容應(yīng)用場景。

05總結(jié)

數(shù)據(jù)就像石油,需要經(jīng)過提純加工才能使用,才能實現(xiàn)其資產(chǎn)價值。非結(jié)構(gòu)化文檔數(shù)據(jù)是“數(shù)據(jù)石油”的重要來源,企業(yè)需要遵循分級分類的管理思想,通過平臺化、智能化和安全化的管理方法,才能構(gòu)建出完整的非結(jié)構(gòu)化文檔數(shù)據(jù)管理體系,圍繞能給業(yè)務(wù)帶來價值的非結(jié)構(gòu)化文檔數(shù)據(jù)資產(chǎn)進(jìn)行建設(shè),從而推動非結(jié)構(gòu)化文檔數(shù)據(jù)向數(shù)據(jù)資產(chǎn)的轉(zhuǎn)化。

參考資料:

1、《檔案學(xué)研究》,2020年第6期

2、《非結(jié)構(gòu)化數(shù)據(jù)管理解決方案白皮書》,2020版

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論