數(shù)據(jù)治理:數(shù)據(jù)質(zhì)量的度量維度!

數(shù)據(jù)專題
如果對數(shù)值列表已做變更,請將數(shù)值映射歸檔,并用需要變更的數(shù)值更新記錄。尋找在分析信息環(huán)境時可能已發(fā)現(xiàn)的且正被業(yè)務(wù)廣泛使用的那些異常數(shù)值的發(fā)生頻率。

QQ截圖20220104093506.png

本文來自數(shù)據(jù)專題。

關(guān)于數(shù)據(jù)質(zhì)量的度量維度,業(yè)內(nèi)還沒有一個統(tǒng)一的標(biāo)準(zhǔn),以下分享幾個常見的數(shù)據(jù)質(zhì)量度量維度。

1、記錄數(shù)完整

記錄數(shù):正在評估數(shù)據(jù)集的記錄數(shù)值。

檢查記錄數(shù)量是否與預(yù)期數(shù)量相負(fù)。如果不符,調(diào)查卻是記錄的根本原因并再次剖析數(shù)據(jù)集。

2、完整性&填充率

完整性或填充率:包含值的字段的數(shù)量和百分比的測量標(biāo)準(zhǔn)。

完整性或填充率只基于數(shù)值的存在性。需要另外的分析以確定這些值是否有效。

要詮釋結(jié)果,需要知道那些字段是必須的(強制性的)、可選擇的或有條件的。如果字段是必填的(應(yīng)用必填、業(yè)務(wù)必填或者該字段是主鍵),其填充率應(yīng)是100%。

如果必填字段的填充率小于100%,請調(diào)查以下原因:

如果是業(yè)務(wù)必填字段,查看應(yīng)用軟件是否需要登錄;

如果應(yīng)用軟件不需登錄,查看其是否可針對需要的數(shù)據(jù)進行修改;

如果應(yīng)用軟件不能修改,對那些錄入數(shù)據(jù)的人的資料進行歸檔,并對他們進行培訓(xùn)。這種情況下,應(yīng)密切監(jiān)視數(shù)據(jù);

檢查在數(shù)據(jù)庫中實施“非空”的可行性;

在兩個不同層面上檢查完整性/填充率:

單個列或字段:確定字段中是否存在數(shù)據(jù);

一組數(shù)據(jù):確定完成特定基本流程所需一系列字段的填充率。

3、空值/空字段

空:空字段(空是因為字段中什么也沒有)的數(shù)量和百分比的測量標(biāo)準(zhǔn)。

空是與完整性和填充率相反的。完整性或填充率的分析同樣適用于此,只需用相反的觀點來進行評判。

4、唯一值列表

唯一值列表:字段中不同或唯一值的列表。

確定數(shù)值是允許的或有效的。不同的字段的有效值集也不同。有效值集也被看成數(shù)據(jù)域或值域集。

檢查該字段中不同值的數(shù)目與有效值的數(shù)目。

可能的話,比較實際的不同值列表與預(yù)期有效值列表。預(yù)期有效值可來自諸如參考表格或編碼列表的數(shù)值列表,也可來自主題專家,或來自公司遵循的外部標(biāo)準(zhǔn)。

如果業(yè)務(wù)沒有有效值列表,請使用來自剖析的列表作為起點來開發(fā)一個有效值列表。

尋找默認(rèn)值,將默認(rèn)值歸檔;

尋找有重復(fù)含義的值;

如果對數(shù)值列表進行變更,將所有數(shù)值映射歸檔,并用需要變更的值更新記錄。

5、數(shù)據(jù)有效性

有效性:對字段中的值是否在允許的或有效的數(shù)值集中的測試。

對每個字段的“有效的”含義進行定義和歸檔;不同字段的有效性構(gòu)成不同。

合法性測試可包括格式或樣式、域、有效編碼、類型(字母的/數(shù)字的)、依賴關(guān)系、業(yè)務(wù)規(guī)則、數(shù)據(jù)錄入標(biāo)準(zhǔn)、最大和最小范圍,等等。

例如,記錄中的所有編碼是否被系統(tǒng)編碼表中的業(yè)務(wù)定義為有效編碼;如果是數(shù)字字段,字段中是否有字幕;日期字段中的日期是否在必需的范圍內(nèi)。

有效性測試結(jié)果可以完整性/填充率的百分比來報告。

6、頻率分布

頻率分布:字段中唯一值的分布,通過數(shù)量和百分比來度量。

頻率分布給出了一個使用思路,評判最高和最低數(shù)量值。

可考慮放棄那些使用頻率低的數(shù)值,并改用一個常用的可比價的數(shù)值。

研究所發(fā)現(xiàn)的常量。常量是指每個記錄有相同數(shù)值的任一列,這可以是從未使用或不再使用的數(shù)據(jù)元素的標(biāo)志。

確定數(shù)值分布是否是所期望的分布。

如果對數(shù)值列表已做變更,請將數(shù)值映射歸檔,并用需要變更的數(shù)值更新記錄。

尋找在分析信息環(huán)境時可能已發(fā)現(xiàn)的且正被業(yè)務(wù)廣泛使用的那些異常數(shù)值的發(fā)生頻率。

觀察默認(rèn)值或假值的頻率分布,使用頻率分布來確定待選主鍵。

如果不同值的比重較低,等值字段可能是相關(guān)的,許多空值或零值可能就有問題了。通常50%的不同值將由其他列確定是否為純業(yè)務(wù)數(shù)據(jù)。

有特定值的字段(例如,所有記錄在該字段的值均相等)是潛在無用的或具有常數(shù)屬性,確定是否應(yīng)為此在數(shù)據(jù)庫中占用一定空間。考慮輸入到一個常數(shù)表中。

7、最大數(shù)值和最小數(shù)值范圍

最大數(shù)值和最小數(shù)值范圍:由最大數(shù)值和最小數(shù)值表示的數(shù)值范圍。

數(shù)值范圍上界和下界的任何數(shù)值可快速顯示數(shù)據(jù)質(zhì)量問題;

觀察重要日期字段的最大值和最小值;

尋找期望之外的或歸檔范圍以外的數(shù)值。

8、數(shù)據(jù)新鮮度

新鮮度:關(guān)鍵日期字段或日期范圍的頻率分布。

與日期字段或數(shù)據(jù)范圍相關(guān)的一類頻率分布;

還被用于向兩個其他數(shù)據(jù)質(zhì)量維度模擬或提供輸入數(shù)據(jù):及時性(數(shù)據(jù)的及時程度)和數(shù)據(jù)衰變(數(shù)據(jù)的負(fù)面變化率)。

9、內(nèi)容

內(nèi)容:數(shù)據(jù)內(nèi)容與列或字段名稱的匹配。

比較列或字段名與數(shù)據(jù)內(nèi)容;

字段包含的是否是預(yù)期數(shù)據(jù)。

10、重復(fù)

重復(fù):確定是否存在意外重復(fù)。

通過評判重復(fù)含義數(shù)值列表來獲取重復(fù)數(shù)據(jù)的高層視圖;

有些工具提供不同列間的數(shù)據(jù)值比較,以及通?;诓煌瑪?shù)值精確字符串匹配的重疊百分比;

有些數(shù)據(jù)剖析工具強調(diào)僅基于精確字符串匹配的重復(fù)數(shù)據(jù),但其他工具使用經(jīng)常被稱為“模糊匹配”的工具。

11、數(shù)據(jù)類型

尋找通過剖析工具推斷的、預(yù)期數(shù)據(jù)類型和實際數(shù)據(jù)類型之間的差異。

工具可顯示歸檔的數(shù)據(jù)類型(或每個元數(shù)據(jù)的預(yù)期數(shù)據(jù)類型),并與從實際數(shù)據(jù)內(nèi)容中推斷出的數(shù)據(jù)類型進行比較;該工具也標(biāo)記源數(shù)據(jù)類型和目標(biāo)數(shù)據(jù)類型之間的不相容性,該問題需在遷移數(shù)據(jù)時予以解決。

對數(shù)據(jù)模型而言,該工具也呈現(xiàn)數(shù)據(jù)類型以及可用于該模型中的替代數(shù)據(jù)類型實例。

12、大小或長度

大小或長度:字段中數(shù)據(jù)的長度。

尋找實際數(shù)據(jù)大小與預(yù)期數(shù)據(jù)大小之間的差異;

尋找大量具有完全相同大小的記錄,這可顯示出在該字段中已被縮減了的數(shù)據(jù);

如果源和目標(biāo)系統(tǒng)之間的大小存在差異,確定超出目標(biāo)大小的源記錄的數(shù)目和百分比:如果數(shù)目小,需人工更新記錄;如果數(shù)目大,需了解如果數(shù)據(jù)在遷移時被刪減將會對業(yè)務(wù)產(chǎn)生什么影響。

13、樣式

樣式:數(shù)據(jù)中發(fā)現(xiàn)的唯一式樣的數(shù)量和百分比。

尋找意外的樣式;

預(yù)期的或有效的樣式將根據(jù)字段的不同而不同;

尋找ID字段的同一樣式。

14、精度

對數(shù)字?jǐn)?shù)據(jù),要確定小數(shù)點的位置是否在所需精度的位置。

15、一致性

一致性:同一記錄中相關(guān)字段的合理性測試。引用完整性。

評判記錄中數(shù)據(jù)的一致性;

評判記錄之間數(shù)據(jù)的一致性;

評判高層業(yè)務(wù)規(guī)則以了解其關(guān)聯(lián)關(guān)系,并尋找符合性;

尋找其他依賴關(guān)系。一個字段中具有正確格式的值與另一個字段中的值相關(guān)聯(lián);

尋找計算:作為每一個源元素的存儲計算值是正確的。

16、并發(fā)性和及時性

并發(fā)性和及時性:各種數(shù)據(jù)庫、應(yīng)用軟件和流程之間的數(shù)據(jù)同步和數(shù)據(jù)時延,剖析多個數(shù)據(jù)庫,并比較其結(jié)果的差異。

17、業(yè)務(wù)規(guī)則

確定是否沒被植入進數(shù)據(jù)結(jié)構(gòu)中的業(yè)務(wù)/數(shù)據(jù)規(guī)則正在由應(yīng)用程序邏輯實施。

這通常都是針對有自身規(guī)則的數(shù)據(jù)子集。例如,可能有具有特定規(guī)則的不同當(dāng)事者類型(組織、合同等),這些規(guī)則需要某些列為空,而其他列要輸入。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論