政府大數(shù)據(jù)數(shù)據(jù)處理綜合解決方案
發(fā)布時間:2020-09-14 來源: 實習報告 點擊:
政府大數(shù)據(jù)處理綜合解決方案 數(shù)據(jù)質(zhì)量的好壞決定了數(shù)據(jù)價值的高低。
高質(zhì)量的數(shù)據(jù)可以保證 數(shù)據(jù)應用、 數(shù)據(jù)服務的質(zhì)量。
高質(zhì)量的數(shù)據(jù)已成為組織最具價值的資 產(chǎn)之一。
交換、共享和開放數(shù)據(jù),同樣面臨數(shù)據(jù)質(zhì)量的問題,高質(zhì)量的交 換、共享和開放數(shù)據(jù)不僅能保證數(shù)據(jù)應用和服務的價值, 還可以保障 和提升組織的公信力。交換、共享和開放政務數(shù)據(jù),并保證數(shù)據(jù)的質(zhì) 量,是組織面臨的一個嚴肅課題。
針對政務數(shù)據(jù)的數(shù)據(jù)質(zhì)量和數(shù)據(jù)安全, 浪潮提出了一套基于政務 數(shù)據(jù)的交換、共享、開放的完整解決方案,功能包括數(shù)據(jù)檢測、數(shù)據(jù) 清洗、數(shù)據(jù)加工、數(shù)據(jù)脫敏等。
1. 數(shù)據(jù)檢測 數(shù)據(jù)檢測是按一定規(guī)則對數(shù)據(jù)質(zhì)量的評估, 浪潮對政務數(shù)據(jù)的梳 理形成一套完整的數(shù)據(jù)元標準, 依據(jù)數(shù)據(jù)元標準規(guī)范可以自動的對大 部分數(shù)據(jù)字段做檢測規(guī)則設(shè)定, 沒有自動設(shè)定檢測規(guī)則的字段可以由 人工設(shè)置,檢測結(jié)果會以數(shù)據(jù)檢測報告的形式輸出。
基于政務數(shù)據(jù)的特點和格式規(guī)范, 針對不同類型的數(shù)據(jù), 會有不 同的檢測規(guī)則。
1.1. 數(shù)據(jù)標準 用于數(shù)據(jù)檢測、數(shù)據(jù)清洗的數(shù)據(jù)標準來源于政務數(shù)據(jù)的數(shù)據(jù)元標 準,由浪潮梳理、總結(jié)、歸納出的數(shù)據(jù)元標準對數(shù)據(jù)元對應字段的長 度、格式、字符類型等字段標準做了定義。系統(tǒng)會根據(jù)政務數(shù)據(jù)元字 段標準規(guī)范,對待檢測數(shù)據(jù)字段做智能分析和數(shù)據(jù)元匹配, 與標準數(shù) 據(jù)元匹配成功的待處理字段即可以按照數(shù)據(jù)元標準做檢測、清洗等操 作,對于沒有匹配成功的或不認可自動匹配的字段可以在系統(tǒng)自定義 設(shè)定檢測規(guī)則。
1 ?1 ?1• 字段類型標準 通過對政府大數(shù)據(jù)的各類數(shù)據(jù)字段的整理、 歸納,整理出主要的 數(shù)據(jù)字段類型及定義情況。
中文字符 可以包含漢字 ( 中、國……等 )
、字母字符( a-z,A-Z )
和數(shù)字字符等 字母字符 特指字母字符( a-z,A-Z )
數(shù)字字符 數(shù)字字符( 0 、 1 、 2 、 3 ……)
數(shù)值 數(shù)值型 字母 + 數(shù)字 字母和數(shù)字字符 日期 日期型,包含年、月、日信息 時間 時間型,包含時、分、秒信息 字典 含有數(shù)據(jù)字典的字段
綜合 含有各類字符并具有一定格式的字段
1 ?1 ?2• 字段格式標準 數(shù)據(jù)字段內(nèi)容格式標準采用了數(shù)據(jù)元相關(guān)標準,對字段的類型、 長度、格式等通過字符予以標識,表示格式和示例如下。標準數(shù)據(jù)字 段目錄詳見附件。
c 中文字符,可以包含漢字 ( 中、國……等 )
、字母字彳 ( a-z,A-Z )和數(shù)字字符等 c12 固定 12 位字符(即 6 個漢字)長度的中文字符 C..12 最多為 12 位字符(即 6 個漢字)長度的中文字符 a 特指字母字符( a-z,A-Z )
a3 固定長度的 3 位字母字符 a..3 最多為 3 位字母字符 n 數(shù)字字符( 0 、 1 、 2 、 3 ……)
n3 固定長度的 3 位數(shù)字字符 n..3 最多為 3 位數(shù)字字符 n..5 , n2 數(shù)值型 , 小數(shù)點前最多為 5 位數(shù)字,小數(shù)點后保留 2 位數(shù)字, 總長度最多為 8 位數(shù)字字符 an 字母和數(shù)字字符 an3 固定長度的 3 位字母數(shù)字字符 an ..3 最多為 3 位字母數(shù)字字符
d8 日期型,按年、月、日順序全數(shù)字表示,格式為 8 位定長、 全數(shù)字表示( YYYYMM )
D 年用 4 位數(shù)字表示,月、日各 用 2 位數(shù)字表示,彼此之間沒有分隔符,如 2002 年 12 月 25 日,應表示為 20021225 t 時間型,按時、分、秒順序全數(shù)字表示,格式為 6 位定長、 全數(shù)字表示( hhmmsS z 綜合性,可含有各種字符,且具有一定的格式。
1.1.3• 約束條件標準
字段約束是對數(shù)據(jù)集字段間邏輯關(guān)系分析, 依據(jù)字段間的相互依 存關(guān)系、約束關(guān)系來檢測字段內(nèi)容的準確性。主要依存關(guān)系如下。
導出 字段 A 可由字段 X 導出 歸并 字段 A
B ……可以歸并為字段 X 條件 字段 A 滿足甲條件時,字段 X 內(nèi)容為一
1.1.4• 數(shù)據(jù)目錄標準 浪潮針對政務數(shù)據(jù)目錄的梳理形成了一整套完整的標準體系, 結(jié) 合字段類型標準、格式標準、約束條件標準,形成數(shù)據(jù)目錄標準,數(shù) 據(jù)目錄標準中對其包含的數(shù)據(jù)字段的類型、 格式,數(shù)據(jù)字段之間的約 束條件進行預先定義,形成以數(shù)據(jù)目錄為單位的格式和約束標準。
在 對數(shù)據(jù)集進行檢測時,如果可以建立數(shù)據(jù)集層面的匹配,則不僅可以 對數(shù)據(jù)字段做細致的檢測,對數(shù)據(jù)的整體性也建立了檢測依據(jù)。
1 ?1 ?5• 敏感數(shù)據(jù)標準 針對數(shù)據(jù)安全性,浪潮制定了敏感數(shù)據(jù)標準,該標準包含敏感數(shù) 據(jù)的定義、敏感詞庫的定義、黑白名單的定義等。
個人信息字段 涉及個人敏感信息的數(shù)據(jù)字段 法人信息字段 涉及企業(yè)敏感信息的數(shù)據(jù)字段 涉密信息字段 涉及隱私的數(shù)據(jù)字段 約束信息 由多字段可以推導出敏感數(shù)據(jù)的情況 敏感詞庫 含有敏感詞庫中內(nèi)容的數(shù)據(jù) 黑名單 含有黑名單中內(nèi)容的數(shù)據(jù) 白名單 含有白名單中內(nèi)容的數(shù)據(jù)
12 檢測問題 1.2.1• 字段檢測問題明細 F 面列出了不同類型的數(shù)據(jù)字段與可能檢測出的數(shù)據(jù)質(zhì)量問題 的對應情況
中文字符 字母字符 數(shù)字字符 數(shù) 值 字 母 + 數(shù) 字 日期 時 間 字 典 綜 合 空值 V V V V V V V V V 含非標準字符 V V V V V
V 含空格 V V V V V
V
含換行符 V V V V V
V 含非標準特殊字符 V V V V V
V 字符長度超限 V V V V V
V 值范圍超限
V V
V V
非字典項
V
不符合格式要求
V
V V
V
1.2.2• 約束檢測問題明細 字段間的約束問題需要根據(jù)具體數(shù)據(jù)字段情況進行設(shè)定。
如身份 證與性別、年齡、出生日期的導出關(guān)系等。具體的約束檢測規(guī)則詳見 附件。
1.2.3• 整體檢測問題明細 整體檢測包括數(shù)據(jù)的完整性、一致性、時效性、唯一性等方面的 檢測,數(shù)據(jù)整體檢測以浪潮梳理的政務數(shù)據(jù)目錄標準為依托, 輔以完 整性規(guī)范、一致性規(guī)范等標準。
字段完整性問題 數(shù)據(jù)集是否含有某些關(guān)鍵字段 記錄完整性問題 數(shù)據(jù)集記錄是否完整 記錄致性問題 記錄中的值是否沖突,如合計項的值 字段致性問題 字段中的值是否沖突,如合計項的值 字段唯性問題 字段是否重復 記錄唯性問題 對關(guān)鍵字段檢測,是否含有重復記錄
時效性問題 不同數(shù)據(jù)集時效要求的評測 1.2.4• 敏感問題明細(安全性)
基于數(shù)據(jù)安全性的檢測,針對數(shù)據(jù)中含有的敏感信息進行檢測 含個人敏感信息字段 涉及個人敏感信息的數(shù)據(jù)字段 含法人敏感信息字段 涉及企業(yè)敏感信息的數(shù)據(jù)字段 含涉密信息字段 涉及隱私的數(shù)據(jù)字段 含約束敏感字段 由多字段可以推導出敏感數(shù)據(jù)的情況 含敏感詞 含有敏感詞庫中內(nèi)容的數(shù)據(jù) 含黑名單數(shù)據(jù) 含有黑名單中內(nèi)容的數(shù)據(jù) 含白名單數(shù)據(jù) 含有白名單中內(nèi)容的數(shù)據(jù)
1.3.檢測方法 1.3.1• 依字段標準檢測 首先對待檢測字段做智能匹配,去匹配數(shù)據(jù)元標準中的標準數(shù)據(jù) 元,匹配成功后會依據(jù)匹配成功的數(shù)據(jù)元標準進行檢測。
1.3.2. 自定義字段檢測 對于通過“依字段標準檢測”沒有匹配成功的或者匹配結(jié)果不滿 意的字段可以修改或自定義字段格式標準, 通過修改或自定義的字段 格式標準進行檢測。
1.3.3. 依約束標準檢測 在系統(tǒng)中會依據(jù)對政務數(shù)量的標準和規(guī)范, 設(shè)置一系列的數(shù)據(jù)字 段約束條件, 在完成待檢測字段與數(shù)據(jù)元的匹配后, 會檢測該字段是 否含有字段約束條件,并依
據(jù)字段約束條件的相關(guān)規(guī)則進行檢測。
1.3.4. 自定義約束檢測 對于通過 “依約束標準檢測” 沒有匹配成功的或者匹配結(jié)果不滿 意的約束條件可以修改或自定義, 通過修改或自定義的約束條件標準 進行檢測。
1.3.5. 依數(shù)據(jù)目錄標準檢測(整體性檢測)
對于存在數(shù)據(jù)目標標準的數(shù)據(jù)集,如果完成數(shù)據(jù)集層面的匹配, 則可以依據(jù)完備的數(shù)據(jù)目錄標準進行從數(shù)據(jù)字段細節(jié), 到數(shù)據(jù)字段間 約束性,到數(shù)據(jù)整體性的完整檢測流程。
1.3.6. 自定義整體性檢測 自定義整體性檢測可以設(shè)置數(shù)據(jù)集整體性檢測規(guī)則, 依據(jù)自定義 的整體性規(guī)則對數(shù)據(jù)集的整體性進行檢測。
1.4. 檢測報告 對數(shù)據(jù)的檢測結(jié)果會以報告的形式輸入, 檢測報告會詳細的描述 檢測中出現(xiàn)的問題以及問題類型,會對檢測問題做統(tǒng)計和分析操作, 檢測結(jié)果和分析結(jié)果會通過可視化圖表等方式展示。
同時,對于檢測 出的問題, 可以通過清洗操作解決的會給出清洗建議, 存在安全隱患 的,會給出安全處理建議。
1.4.1. 問題描述
問題描述羅列出檢測中出現(xiàn)的各種問題以及問題的數(shù)量。
1.4.2. 問題分析 問題分析是對檢測中的問題進行分析和統(tǒng)計, 并將分析和統(tǒng)計結(jié) 果以可視化的形式展現(xiàn)。
1.4.3. 清洗建議 清洗建議是針對可以進行清洗的數(shù)據(jù), 給出的清洗建議。
清洗建 議中包括是否適合機器清洗、人工清洗、機器 + 人工清洗,包括適合 的清洗方法,具體的數(shù)據(jù)清洗方法會在下一章節(jié)中列出。
1.4.4. 加工建議 加工建議是針對數(shù)據(jù)存在的整體性問題提出的加工建議, 加工建 議中包括是否適合機器加工、人工加工、機器 + 人工加工,包括適合 的加工方法,具體的數(shù)據(jù)加工方法在后面章節(jié)中列出。
1.4.5. 脫敏建議 脫敏建議是針對存在敏感性的數(shù)據(jù)提出的脫敏建議, 具體的數(shù)據(jù) 脫敏方法在后面章節(jié)中列出。
2. 數(shù)據(jù)清洗 現(xiàn)實數(shù)據(jù)一般含有噪聲、格式錯誤、數(shù)值超限、不完整、不一致 等情況,數(shù)據(jù)清洗可以填補空缺數(shù)據(jù)、識別錯誤、消除噪聲、糾正數(shù) 據(jù)中的不一致。數(shù)據(jù)清洗是基于數(shù)據(jù)檢測的結(jié)果對數(shù)據(jù)質(zhì)量做的提升 工作。
數(shù)據(jù)清洗中很多方法并不能完全正確的修復數(shù)據(jù), 所以一些數(shù)據(jù) 清洗方法只適用于準確性要求不高的數(shù)據(jù)。
以下數(shù)據(jù)清洗方法中, 除 特別提到由人工處理的,其它方法均可以由系統(tǒng)實現(xiàn)。
2.1. 空缺值處理 空缺值是指字段內(nèi)容是空缺的,根據(jù)空缺內(nèi)容字段的重要程度, 可以選擇不同的清洗方式。
2.1.1. 刪除記錄 即刪除有空缺的記錄。
可在設(shè)定好規(guī)則后由機器處理, 情況包括:
1 、 某條記錄的某字段空缺時,刪除該條記錄; 2 、 某條記錄的某幾個字段同時空缺,刪除該條記錄; 3 、 某條記錄空缺值超過 X 個時,刪除該條記錄; 4 、 某條記錄空缺值超過總字段數(shù)的 Y% 時,刪除該條記錄。
2.1.2. 人工填寫 通常數(shù)據(jù)量較大的情況下, 此種方式并不適合, 在空缺值較少的 情況可由人工填寫。
人工填寫空缺值的優(yōu)點是經(jīng)過人為判斷, 可以保 證填充值的準確度。
2.1.3. 常量填充 使用一個或若干個常量來填充空缺值,情況包括:
1 、 直接使用一個常量填充該字段所有空缺值; 2 、 隨機從若干個常量中選擇一個填充。
2.1.4. 統(tǒng)計填充 對該字段中非空缺值進行統(tǒng)計, 根據(jù)統(tǒng)計結(jié)果來選擇空缺值填充 內(nèi)容,情況包括:
1 、 對數(shù)值型數(shù)據(jù),可以使用非空缺值的平均值、最大值、最 小值、眾數(shù)、某分位數(shù)等做填充; 2 、 對時間型(日期型)數(shù)據(jù),可以使用非空缺值的平均時間 (日期)、最近時間(日期)、最遠時間(日期)等做填充; 3 、 對字符型數(shù)據(jù),可以對非空缺值分類并統(tǒng)計出各類別的數(shù) 量和占比,根據(jù)各分類數(shù)量或占比的值選擇如最大量、最 小量等做填充。
2.1.5. 條件填充 條件填充是依據(jù)該條記錄中其它非空字段的特點, 設(shè)置關(guān)聯(lián)條件, 對空缺值進行填充。情況包括:
(下面設(shè)定 A 字段為待填充的含空缺 值字段, B 、 C••… 為其它關(guān)聯(lián)字段)
1 、 存在與 A 字段強關(guān)聯(lián)的 B 字段,通過 B 字段推理出 A 字段 的內(nèi)容,如學歷為研究生的大部分都通過了英語六級; 2 、 存在與 A 字段具有約束關(guān)系的 B 字段,通過 B 字段推導出
A 字段內(nèi)容,如通過身份證號碼可以推導出年齡、出生日 期、性別等字段。
2.1.6. 分析填充 分析填充通過數(shù)據(jù)統(tǒng)計、分析、挖掘等算法,來尋找空缺值最可 能的值給予填充。分析填充需要人工設(shè)置分析方法并選擇分析字段, 需要人工和計算器共同完成。情況包括:
1 、 關(guān)聯(lián)分析,使用關(guān)聯(lián)分析的挖掘方法分析數(shù)據(jù),尋找出強 關(guān)聯(lián)的字段,根據(jù)強關(guān)聯(lián)字段關(guān)聯(lián)情況尋找最可能的值, 當數(shù)據(jù)字段具有強關(guān)聯(lián)時,此種方式有效。
2 、 聚類分析,使用聚類分析的挖掘方法分析數(shù)據(jù),將非空數(shù) 據(jù)記錄聚類成若干簇,根據(jù)簇中字段特點來選擇最可能的 值。
3 、 回歸分析,使用回歸等數(shù)據(jù)挖掘方法,計算最可能的值, 此種方式對數(shù)值型數(shù)據(jù)有效。
2.1.7. 規(guī)則填充 規(guī)則填充是指如果數(shù)據(jù)元標準、 數(shù)據(jù)目錄標準中存在相應的標準 規(guī)范,可以直接按照標準規(guī)范中的要求進行填充。規(guī)則填充依據(jù)“條 件填充”的規(guī)范,是事先定義好的標準。
2.2. 違規(guī)值處理 違規(guī)值問題是指數(shù)據(jù)的格式不符合要求, 或者含有格式要求外的 字符,如姓名中出現(xiàn)阿拉伯數(shù)字。
2.2.1. 刪除記錄 即刪除含違規(guī)值記錄。
可在設(shè)定好規(guī)則后由機器處理, 適于刪除 記錄操作的情況包括:
1 、 關(guān)鍵字段存在違規(guī)值,且無法恢復; 2 、 編碼錯誤導致存在大量違規(guī)值,且無法恢復; 2.2.2. 人工修改 通常數(shù)據(jù)量較大的情況下, 此種方式并不適合, 在違規(guī)值較少的 情況可由人工修改。
人工修改違規(guī)值的優(yōu)點是經(jīng)過人為判斷, 可以保 證修正值的準確度。
2.2.3. 內(nèi)容清空 即清空違規(guī)值字段內(nèi)容,當作空缺值處理。
2.2.4. 違規(guī)字符清除 對于存在違規(guī)字符的數(shù)據(jù), 通過設(shè)置規(guī)則清理掉數(shù)據(jù)字段中的違 規(guī)字符,而保留不違規(guī)字符,可直接將違規(guī)字符替換為空。適于違規(guī) 字符清理的操作包括如:
1 、 時間或日期型數(shù)據(jù)中含有如 “ ()”等違規(guī)字符; 2 、 名字等字段中含有空格;
3 、 身份證號碼等字段中含有 X 以外的其它字母或字符;
2.2.5. 違規(guī)字符替換 對含有違規(guī)字符的內(nèi)容做違規(guī)字符替換, 將違規(guī)字符替換為規(guī)則 內(nèi)字符。
1 、 統(tǒng)一替換,將違規(guī)字符統(tǒng)一替換為某規(guī)則內(nèi)字符;
2 、 規(guī)則替換,不同違規(guī)字符對應不同的規(guī)則內(nèi)字符; 3 、 精確替換,設(shè)置匹配規(guī)則做精確替換, 如“ & ”替換為“和”; 4 、 模糊替換,設(shè)置匹配規(guī)則做模糊替換,如“ &*** ( * 代表 其他字符)”替換為“和”。
2.2.6. 字典匹配 對于字典字段, 填寫的內(nèi)容不在字典項之內(nèi), 這種問題可以歸為 違規(guī)值,有些違規(guī)可能是因為填寫不規(guī)范造成的, 如多寫了或少寫了 一些字符,可以通過模糊匹配核心詞的方式來做處理:
1 、 模糊匹配,新增規(guī)則字典并設(shè)置匹配規(guī)則做模糊對應; 2 、 精確匹配,新增規(guī)則字典并設(shè)置匹配規(guī)則做精確對應; 2.2.7. 規(guī)則修改 按照數(shù)據(jù)字段標準和數(shù)據(jù)目錄標準或者設(shè)置條件約束規(guī)則, 對含 有違規(guī)值的內(nèi)容做修改。
該種方式忽略當前違規(guī)值, 直接依據(jù)標準規(guī) 則或約束條件進行修改處理。
2.3. 噪聲值處理 噪聲值是指數(shù)據(jù)內(nèi)容超出了字段要求的邏輯范疇,不符合常理。
如人的年齡 190 歲、身高 10 米、體重 5 噸等錯誤,可以通過一些降 噪方式來處理。
2.3.1. 刪除記錄 即刪除含噪聲值記錄。可在設(shè)定好規(guī)則后由機器統(tǒng)一處理。
2.3.2. 內(nèi)容清空
依據(jù)字段要求的邏輯范疇,對噪聲值內(nèi)容做清空處理。
2.3.3. 人工修改噪聲值 通常數(shù)據(jù)量較大的情況下, 此種方式并不適合, 在噪聲值較少的 情況可由人工修改。
人工修改噪聲值的優(yōu)點是經(jīng)過人為判斷, 可以保 證修正值的準確度。
2.3.4. 修改規(guī)則 數(shù)值型數(shù)據(jù)中存在數(shù)據(jù)單位不統(tǒng)一的情況, 如數(shù)據(jù)標準規(guī)定的單 位是米,而待檢測數(shù)據(jù)是按厘米保存的數(shù)據(jù), 數(shù)據(jù)單位的不一致會導 致檢測規(guī)則不符合實際數(shù)據(jù)情況, 可以通過修改檢測規(guī)則的方式來處 理,重新識別噪聲值。
2.3.5. 數(shù)值轉(zhuǎn)換 數(shù)值型數(shù)據(jù)中存在數(shù)據(jù)單位不統(tǒng)一的情況, 如數(shù)據(jù)標準規(guī)定的單 位是米,而待檢測數(shù)據(jù)是按厘米保存的數(shù)據(jù)。
為了保證數(shù)據(jù)標準的權(quán) 威性,可以通過數(shù)值轉(zhuǎn)換的方式來做處理。如身高標準的單位是米, 待處理數(shù)據(jù)的單位是厘米,則可以對待處理數(shù)值除以 100 ,另外還有 貨幣或其他計量單位。此種方式一般需要人工分析和設(shè)置。
2.3.6. 數(shù)據(jù)平滑 對數(shù)值型數(shù)據(jù)含有的噪聲數(shù)據(jù),可以通過數(shù)據(jù)平滑技術(shù)做處理。
1 、 近似填充,通過考察相近的值來平衡噪聲值,如選擇離噪 聲值最近的正常值,將噪聲值修改為正常值,或者選擇離 噪聲值較近的若干個正常值,將噪聲值修改為這些正常值 的平均值等。數(shù)據(jù)量較大時適用; 2 、 統(tǒng)計,基于統(tǒng)計的方法,如將噪聲值修改為正常值的平均 值。數(shù)據(jù)量較
小時適用; 3 、 常量替換,將噪聲值替換為常量。
2.4. 數(shù)據(jù)完整性處理 為保證數(shù)據(jù)集的完整性和一致性, 從整體出發(fā),來做相應的處理。
數(shù)據(jù)完整性處理可以對重復字段、重復記錄、沖突字段做清洗處理, 單對數(shù)據(jù)缺失的問題無法處理,這需要從數(shù)據(jù)源出發(fā)尋找解決辦法。
2.4.1. 字段排重 重復字段是某若個字段表述的屬性是一樣, 可以做排重處理。
對 于重復字段,可以選擇保留某一字段,刪除其它重復的字段。
1 、 人工選擇,由人工選擇保留字段,刪除其它重復字段; 2 、 依標準保留,依據(jù)數(shù)據(jù)目標標準,保留完全符合數(shù)據(jù)目錄 標準的字段; 3 、 依質(zhì)量保留,根據(jù)數(shù)據(jù)質(zhì)量檢測結(jié)果,保留數(shù)據(jù)質(zhì)量問題 最少的字段; 4 、 順序保留,即按字段出現(xiàn)的順序,保留第一個字段或最后 一個字段。
2.4.2. 依關(guān)鍵字段的記錄排重 針對某關(guān)鍵字段, 每條記錄需要是唯一的, 如果同一字段出現(xiàn)了 多條記錄對應,只需要保留其中一條即可。
1 、 人工選擇,由人工選擇保留記錄,刪除其它重復記錄; 2 、 順序保留,即按記錄出現(xiàn)的順序,保留第一條記錄; 3 、 條件保留,設(shè)置條件規(guī)則和約束字段,比如保留按時間屬
性字段離當前最近的 4 、 以數(shù)據(jù)質(zhì)量保留,根據(jù)數(shù)據(jù)質(zhì)量檢測結(jié)果,保留數(shù)據(jù)質(zhì)量 問題最少的記錄。
2.4.3. 依重復度的記錄排重 對比數(shù)據(jù)記錄的重復情況,達到一定要求的,即可排重。
1 、 完全重復,即兩條記錄完全一致,保留一條即可; 2 、 不完全重復,設(shè)置若干比對字段,按比對字段完全一致的 記錄,保留一條即可。
2.4.4. 字段沖突處理 對具有強約束關(guān)系的字段, 可以以某字段作為標準, 對其余字段 做修改處理。如,身份證號字段與年齡、性別字段具有約束關(guān)系,可 以以身份證號座位標準字段, 在與年齡或性別字段沖突時, 通過身份 證號推導出正確的值。
2.4.5. 記錄沖突處理 對不同的記錄, 記錄之間可能存在關(guān)聯(lián)關(guān)系, 需要根據(jù)不同的問 題情況做不同的處理。
1 、 統(tǒng)計錯誤,如合計項的值不是列表項中值的和,需要人工 分析處理和修改錯誤值; 2 、 邏輯錯誤,如人員列表中,不同的人對應了相同的駕駛證 號,其中一條記錄一定是錯的,需要人工分析處理和修改
錯誤值 3. 數(shù)據(jù)加工 在完成數(shù)據(jù)清洗后, 可以對清洗后的數(shù)據(jù)按需求做一定的加工處 理,數(shù)據(jù)加工要求在不改變數(shù)據(jù)內(nèi)容和數(shù)據(jù)邏輯的前提下進行。
3.1. 數(shù)據(jù)集成 數(shù)據(jù)集成是將多個數(shù)據(jù)集合并成一個數(shù)據(jù)集的操作。
數(shù)據(jù)集成可 能會產(chǎn)生冗余數(shù)據(jù)或重復數(shù)據(jù), 需要再經(jīng)過數(shù)據(jù)檢測來查看數(shù)據(jù)問題。
3.1.1. 記錄合成 將數(shù)據(jù)結(jié)構(gòu)一致或相近的數(shù)據(jù)集合成為一個大數(shù)據(jù)集。
可能出現(xiàn) 的情況和加工方式包括:
1 、 結(jié)構(gòu)一致,將數(shù)據(jù)集 B 拼接在數(shù)據(jù)集 A 之后; 2 、 結(jié)構(gòu)不一致,在數(shù)據(jù)集 A 中增加數(shù)據(jù)集 B 中的新字段,并 將值均置為空,同時在數(shù)據(jù)集 B 中增加數(shù)據(jù)集 A 中的新字 段,并將值均置為空,再將數(shù)據(jù)集 B 拼接在數(shù)據(jù)集 A 之后; 3 、 記錄冗余處理,數(shù)據(jù)集拼接后,可能存在記錄重復、數(shù)據(jù) 沖突等問題,需要經(jīng)過數(shù)據(jù)檢驗來排除問題。
3.1.2. 字段聚合 將具有相同關(guān)鍵字段的多個數(shù)據(jù)集,以關(guān)鍵字段(要求唯一)為 主鍵,聚合成一個具有更多屬性字段的數(shù)據(jù)集。
1 、 設(shè)置主數(shù)據(jù)集,其它數(shù)據(jù)集以主數(shù)據(jù)集為依托進行聚合, 最終聚合的記錄與主數(shù)據(jù)集記錄數(shù)對應; 2 、 不設(shè)置主數(shù)據(jù)集,對多個數(shù)據(jù)集的主鍵拼接排重,最終聚 合的記錄是多個數(shù)據(jù)集的并集; 3 、 字段冗余處理,字段聚合后,可能存在字段重復、數(shù)據(jù)沖 突等問題,需要經(jīng)過數(shù)據(jù)檢驗來排除問題。
3.2. 數(shù)值平滑 數(shù)據(jù)平滑主要針對數(shù)值型數(shù)據(jù), 除了可以用來消除檢測出的噪聲 數(shù)據(jù),還可以分析符合檢測要求的數(shù)據(jù)值中存在的噪聲。
3.2.1. 數(shù)值分箱 分箱方法通過考察周圍的值來做平滑處理。
數(shù)值被劃分到若干個 箱中,每個箱內(nèi)的數(shù)據(jù)可以統(tǒng)一取平均值或邊界值。
3.2.2. 數(shù)值聚類 通過聚類可以發(fā)現(xiàn)異常數(shù)據(jù), 相似或相鄰的數(shù)據(jù)聚合在一起形成 了各個聚類集合, 位于聚類集合之外的數(shù)據(jù), 可以被認為是異常數(shù)據(jù), 可以做刪除或者修改的操作。
3.2.3. 數(shù)值回歸 可以利用擬合函數(shù)對數(shù)據(jù)進行平滑。
例如,線性回歸需要找到適
合兩個變量字段的擬合直線, 使得一個字段可以預測另一個字段。
多 線性回歸則涉及兩個以上的字段。
通過擬合函數(shù)平滑數(shù)據(jù)并去除異常 數(shù)據(jù)。
3.3. 數(shù)據(jù)變換 按需求將已有字段內(nèi)容變換成其它形式。
3.3.1. 依規(guī)則變換 依據(jù)一定的標準(或字典)將數(shù)據(jù)轉(zhuǎn)換成其它形式。如:
0 對應 未知、 1 對應男、 2 對應女等,依據(jù)對應規(guī)則做相應的變換。
3.3.2. 數(shù)據(jù)概化 用更抽象的概念取代低層次或數(shù)據(jù)層的數(shù)據(jù)對象。如年齡字段, 可以從 0 、 1 、2 、 3 、 4 、 5 ……這樣的數(shù)值屬性映射到較高層概念, 如兒童、少年、青年、中年、老年…… 3.3.3. 單位轉(zhuǎn)換 根據(jù)數(shù)據(jù)單位及單位間的轉(zhuǎn)換規(guī)則轉(zhuǎn)換數(shù)值, 如人民幣轉(zhuǎn)換為美 元、英尺轉(zhuǎn)換為公尺等等。
3.3.4. 數(shù)據(jù)下鉆 對數(shù)據(jù)進行匯總和聚集操作。例如,可以聚集日數(shù)據(jù),計算出月 和年數(shù)據(jù)。
3.3.5. 數(shù)據(jù)規(guī)范化
將有關(guān)屬性數(shù)據(jù)按比例投射到特定的小范圍內(nèi),如 -1.0~1.0 或 0.0~1.0 。
3.4. 分拆合并 對已知字段做分拆、合并等操作,轉(zhuǎn)換成新的字段。
3.4.1. 直接分拆 從字段中分拆其中的部分直接生產(chǎn)新的數(shù)據(jù)字段, 如從地址信息 中分拆出城市名稱。
1 、 從左往右分拆出 X 位; 2 、 從右往左分拆出 X 位; 3 、 從第 M 位開始, 分拆出 X 位; 3.4.2. 分拆變換 分拆字段中的部分內(nèi)容并做一定的轉(zhuǎn)化, 如提取身份證號中的性 別位并轉(zhuǎn)化為性別字段。
3.4.3. 字符添加 在字段中添加特定的字符。
1 、 在開頭添加字符; 2 、 在結(jié)尾添加字符; 3 、 在第 X 位添加字符; 4 、 在某固定字符前(后)添加字符。
3.4.4. 直接合并 將多個字段直接合并為一個字段。
3.4.5. 變換合并 將字段進行轉(zhuǎn)換后再合并為一個字段。
4. 數(shù)據(jù)脫敏 數(shù)據(jù)脫敏指對某些敏感信息通過脫敏規(guī)則進行數(shù)據(jù)的變形, 實現(xiàn) 敏感隱私數(shù)據(jù)的可靠保護。這樣,就可以在開發(fā)、測試和其它非生產(chǎn) 環(huán)境以及外包環(huán)境中安全地使用脫敏后的真實數(shù)據(jù)集。
4.1. 定義敏感數(shù)據(jù) 敏感數(shù)據(jù)又稱隱私數(shù)據(jù), 常見的敏感數(shù)據(jù)有 : 姓名、身份證號碼、 地址、電話號碼、銀行賬號、郵箱地址、所屬城市、郵編、密碼類 ( 如 賬戶查詢密碼、取款密碼、登錄密碼等 )
、組織機構(gòu)名稱、營業(yè)執(zhí)照 號碼、銀行帳號、交易日期、交易金額等。平臺提供敏感數(shù)據(jù)定義功 能,可以人工定義敏感數(shù)據(jù)。
一般可分為替換算法和生成算法兩大類。
替換算法即將需要脫敏 的部分使用定義好的字符或字符串替換,生成類算法則更復雜一些, 要求脫敏后的數(shù)據(jù)符合邏輯規(guī)則,即是 “看起來很真實的假數(shù)據(jù) ”。
4.2. 可恢復脫敏 一般的脫敏規(guī)則分類為可恢復與不可恢復兩類。
可恢復類, 指脫 敏后的數(shù)據(jù)可以通過一定的方式, 可以恢復成原來的敏感數(shù)據(jù), 此類 脫敏規(guī)則主要指各類加解密算法規(guī)則。
可恢復脫敏遵循下面兩個原則:
盡可能的為脫敏后的應用 , 保留脫敏前
的有意義信息;最大程度上防 止黑客進行破解。
4.2.1. 替換 如統(tǒng)一將女性用戶名替換為 A ,對內(nèi)部人員可以完全保持信息完 整性,但易破解。
4.2.2. 重排 如序號 12345 重排為 54321 ,按照一定的順序進行打亂, 很像“替 換”, 可以在需要時方便還原信息,但同樣易破解。
4.2.3. 加密 如編號 12345 加密為 23456 ,安全程度取決于采用哪種加密算法, 一般根據(jù)實際情況而定。
4.3. 不可恢復脫敏 不可恢復類, 指脫敏后的數(shù)據(jù)被脫敏的部分使用任何方式都不能 恢復出。脫敏方法示例。
4.3.1. 刪除 直接刪除敏感字段。
4.3.2. 截斷 如 13811001111 截斷為 138 ,舍棄必要信息來保證數(shù)據(jù)的模糊性, 是比較
常用的脫敏方法,但往往對生產(chǎn)不夠友好。
4.3.3. 掩碼 如 123456 -> 1xxxx6 ,保留了部分信息,并且保證了信息的長度 不變性,對信息持有者更易辨別,如火車票上的身份信息。
4.3.4. 日期偏移取整 20130520 12:30:45 -> 20130520 12:00:00 ,舍棄精度來保證原始數(shù) 據(jù)的安全性,一般此種方法可以保護數(shù)據(jù)的時間分布密度。
4.3.5. 隨機化 按一定規(guī)則將數(shù)據(jù)值替換為隨機值。
5. 數(shù)據(jù)標準 數(shù)據(jù)標準是基于對政務數(shù)據(jù)的梳理, 整理出數(shù)據(jù)元對應的數(shù)據(jù)字 段的格式標準。不同字段對應的數(shù)據(jù)元可以由系統(tǒng)自動識別和匹配,
同時也可以做自定義設(shè)定。平臺自動識別和匹配的格式標準也可以根 據(jù)實際需求做個性化的設(shè)置和調(diào)整。
5.1. 數(shù)據(jù)格式分類和規(guī)范 數(shù)據(jù)字段內(nèi)容格式規(guī)范采用了數(shù)據(jù)元相關(guān)標準,表示格式如下 c 中文字符,可以包含漢字 ( 中、國……等 )
、字母字彳 ( a-z,A-Z )和數(shù)字字符等 c12 固定 12 位字符(即 6 個漢字)長度的中文字符 C..12 最多為 12 位字符(即 6 個漢字)長度的中文字符 a 特指字母字符( a-z,A-Z )
a3 固定長度的 3 位字母字符 a..3 最多為 3 位字母字符 n 數(shù)字字符( 0 、 1 、 2 、 3 ……)
n3 固定長度的 3 位數(shù)字字符 n..3 最多為 3 位數(shù)字字符 n..5 , n2 數(shù)值型 , 小數(shù)點前最多為 5 位數(shù)字,小數(shù)點后保留 2 位數(shù)字, 總長度最多為 8 位數(shù)字字符 an 字母和數(shù)字字符 an3 固定長度的 3 位字母數(shù)字字符 an ..3 最多為 3 位字母數(shù)字字符
d8 日期型,按年、月、日順序全數(shù)字表示,格式為 8 位定長、 全數(shù)字表示( YYYYMM )
D 年用 4 位數(shù)字表示,月、日各 用 2 位數(shù)字表示,彼此之間沒有分隔符,如 2002 年 12 月 25 日,應表示為 20021225 t 時間型,按時、分、秒順序全數(shù)字表示,格式為 6 位定長、 全數(shù)字表示( hhmmsS z 綜合性,可含有各種字符,且具有一定的格式。
52 標準字段目錄 5 ?2 ?1 ? 自然人屬性 521.1. 姓名 標準字段名 姓名 匹配字段名 人名 | 名字 | 企業(yè)法人 定義 在公安戶籍管理部門正式登記注冊、 人事檔案中正式記 載的中文姓氏名稱 默認檢測規(guī)則 1 、 C..30 2 、 不應存在空格和特殊字符 可選清洗規(guī)則 1 、 不處理(該字段為輔字段項時推薦)
2 、 刪除記錄(該字段為主字段項時推存)
5212 身份證號碼 標準字段名 身份證號碼 匹配字段名 公民身份號碼(男)
1 公民身份號碼(女)
1 身份證 定義 公民身份證的號碼 默認標準 1 、 an15 2 、 an18 邏輯檢測 1 、 格式說明:
15 位身份證號碼組成:
ddddddyymmddxxs 共 15 位。其 中:dddddd 為 6 位的地方代碼,根據(jù)這 6 位可以獲得 該身份證號所在地; yy 為 2 位的年份代碼,是身份證持 有人的出身年份, mm為 2 位的月份代碼,是身份證持 有人的出身月份, dd 為 2 位的日期代碼,是身份證持 有人的出身日,這 6 位在 起組成了身份證持有人的出 生日期; xx 為 2 位的順序碼,這個是隨機數(shù); s 為 1 位 的性別代碼,奇數(shù)代表男性,偶數(shù)代表女性。
18 位身份證號碼組成:
ddddddyyyymmddxxsp 共 18 位。
年份代碼由原來的 2 位升級到 4 位,最后一位為校驗位, 其它部分和 15 位號碼相同。
2 、 校驗規(guī)則:
1 )十七位數(shù)字本體碼加權(quán)求和公式 :
S = Sum(Ai * Wi)
其中 i = 0, ... , 16, 先對前 17 位數(shù)字的
權(quán)求和, Ai 表示第 i 位置上的身份證號碼數(shù)子值, Wi 表示第 i 位置上的加權(quán)因子 ( Wi: 7 9 10 5 8 4 2 1 6 3 7 9 10 5 8 4 2 ) 2) 計算模:
Y 二
mod(S, 11) 3) 通過模得到對應的校驗碼:
Y: 0 1 2 3 4 5 6 7 8 9 10 對應校驗碼 :1 0 X 9 8 7 6 5 4 3 2 也就是說,如果得到余數(shù)為 1 則最后的校驗位 p 應該為 對應的 0• 5213 性別 標準字段名 性別 匹配字段名
定義 人的基本生理特征 默認標準 C..6 標準變換 0 對應未知; 1 對應男; 2 對應女; 9 對應未說明 值域 未知;男;女;未說明
5214 民族 標準字段名 民族 匹配字段名
定義 個人所屬的、經(jīng)國家認可在公安戶籍管理部門登記注冊
的民族名稱。
默認規(guī)則 C..10 標準變換 1 、 見民族代碼表中代碼與名稱的對應 2 、 不含“族”字與含“族”字對應 值域 見民族代碼表 民族代碼表
代碼 名稱 代碼 名稱 1 漢族 29 柯爾克孜族 2 家古族 30 土族 3 回族 31 達斡爾族 4 藏族 32 仫佬族 5 維吾爾族 33 羌族 6 苗族 34 布朗族 7 彝族 35 撒拉族 8 壯族 36 毛難族 9 布依族 37 仡佬族 10 朝鮮族 38 錫伯族 11 滿族 39 阿昌族 12 侗族 40 普米族 13 瑤族 41 塔吉克族 14 白族 42 怒族 15 土家族 43 烏孜別克族
16 哈尼族 44 俄羅斯族 17 哈薩克族 45 鄂溫克族 18 傣族 46 德昂族 19 黎族 47 保安族 20 傈僳族 48 裕固族 21 佤族 49 京族 22 畬族 50 塔塔爾族 23 高山族 51 獨龍族 24 拉祜族 52 鄂倫春族 25 水族 53 赫哲族 26 東鄉(xiāng)族 54 門巴族 27 納西族 55 珞巴族 28 景頗族 56 基諾族 99 其他民族
521.5. 血型 標準字段名 血型 匹配字段名
定義 人員的血型 默認規(guī)則 an..2 標準變換 含“型”與不含“型”相對應 值域 A ; B ; AB; O
5216 年齡 標準字段名 年齡 匹配字段名
定義 人員的年齡 默認規(guī)則 n..3
5 ?2 ?2 ? 時間屬性 時間屬性包括日期型和時間型,日期型字段要求符合 GB/T 7408 中的日歷日期, YYYYM MDD 為基本格式, YYYY-M M-DD 為擴展格式 522.1. 日期 標準字段名 日期 匹配字段名
定義 日期 默認規(guī)則 d8, YYYYM MDD! 基本格式 標準變換 YYYY-M M-DD YYYY /MM/DD
5222 已發(fā)生日期 標準字段名 已發(fā)生日期 匹配字段名 出生日期 定義 當前日期之前的日期 默認規(guī)則 1 、 d8, YYYYMMD 為基本格式 2 、 不超過當前日期
標準變換 YYYY-M M-DD YYYY /MM/DD
5 ?2 ?3• 位置屬性 5.2.4• 數(shù)值屬性 5.3. 字段約束標準 梳理數(shù)據(jù)并可自定義添加。
相關(guān)熱詞搜索:數(shù)據(jù)處理 解決方案 政府
熱點文章閱讀