资料品质及资料净化技术之探究

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

資料品質及資料淨化技術之探究-以環保部門資訊整合為例連志誠黃素梅東吳大學資訊科學系朱雨其行政院環保署監測資訊處摘要隨著公私企業部門對整合性資訊系統及資料倉儲應用的日益普及,「資料品質」已成為當前資訊系統建構過程及日常操作應用的一項重要課題。由於單一資料來源的資料品質控管程序與多個資料來源的控管程序差異甚大,現行資料倉儲相關技術可否有效提昇資料整合後的資料品質問題,頗值得探討。事實上,資料品質的問題在傳統資料庫與整合性資訊系統(或資料倉儲)有相當差異,在資料整合過程中,來源資料因為使用者輸入錯誤或組織環境隨著時間的推移而改變,這些都會影響所存放資料的品質。本文旨在探討在資料品質的特性及現行提昇資料品質的學理背景及實作方法,特別是資料淨化(datacleaning)技術的相關討論,並以環保部門的資訊整合應用實例輔助說明,以期對資料品質課題有通盤性之瞭解與掌握。關鍵詞:資料品質、資料淨化、資訊整合系統、資料倉儲AStudyonApplyingDataQualityandDataCleaningTechnologiestoGovernmentDataIntegrationChih-ChengLien,Su-MeiHuang,Dept.ofComputerScience,SoochowUniversityYu-ChiChu,Dept.ofInformationManagement,EPAABSTRACTRecentlydataintegrationamongthedepartmentsofgovernmenthasproposedasanimportantworktoincreasethequalityoftheservicesprovidedbygovernment.Dataqualityisonemajorfactortomakeasuccessfuldataintegration.Inthispaper,weproposedanapproachwhichadvancesthecurrentdataintegrationapproachofgovernmentwithdataminingtechnologies.WestudytheprocessofdataintegrationintheEnvironmentalProtectionAdministrationExecutiveYuan(EPA)ofTaiwan.Thenwedefinesomemetricsofdataqualitytodetectandprotectthedataproducedsomeunfavorablebehaviorssuchastypingerror,unauthorizeddata,databecomeoutofdate,etc.Finally,wedesignalotofrulestoguardthequalityofthedataintherelateddatabasesinEPA.WegotabetterdataqualitywithourapproachthanthatofthecurrentapproachfromEPAdatabases.Keyword:Datacleaning,dataquality,datawarehouses,informationintegrationsystems1.前言根據DataWarehousingInstitute的一份調查報告顯示[8],美國企業因資料品質的問題,每年損失6千億美元。由於網際網路之便捷及資料庫技術之發展,使得資料整合系統之建置日益普遍。在資料整合計畫開始後,大多數企業會採行資料倉儲技術,同時運用資料擷取、轉換並載入(Eliction,Transform,Load,ETL)作業程序,將各個不同來源的資料整合匯入資料倉儲。在資料擷取的階段中,原有的資料必須經由檢視,找出其中問題或錯誤,並且儘可能解決這些問題。惟以往多以人工方式來清理資料,不僅成本高,也相當耗時,而且效果有限。DataWarehousingInstitute便發現在員工基本資料中,大約會出現76%的錯誤,進而產生有瑕疵的資料。一個主要的因素是資料來源本身充滿了許多有問題的資料,是以如何有效地處理資料整合系統或是資料倉儲環境所衍生的資料品質問題,已是當前學術界與實務界亟為關注的課題。一般來說,資料倉儲可視為一種整合性的資料儲存體,其內部所儲存的資料是由多個分散式、自主性及異質性的資訊源中,萃取並整合而來的,由此相對地更突顯出資料倉儲中資料品質問題的重要性。換句話說,決定資料倉儲系統是否能夠開發成功以及有效運作發揮實際功效的一項關鍵因素,取決於資料倉儲系統內部所儲存資料的品質是否足以適用。資料品質的問題在傳統資料庫與資料倉儲中最大的不同在於資料倉儲中的資料主要是做為決策支援,而非操作性的交易應用。因此儲存在資料倉儲中的資料通常是歷史性資料,具有時序上的變化,是以資料品質的問題會因時間延續而加劇並益加複雜。據估計約有六成以上的資料倉儲系統宣告失敗,其主要的原因是沒有充分的時間與努力來解決系統中的資料品質問題[9]。本文將著重討論政府部門在進行資料整合時,所面臨的資料品質問題,例如各來源資料庫對相同物件有不同定義或是不一致的資料內容時應如何處理。我們以行政院環境保護署的環境資料庫為例,該資料庫包含了水質監測、空氣品質監測、毒化物管理等部門所建置的資料來源。本文比較目前詮釋資料作法,嘗試提出以階層性資料品質模式搭配詮釋資料及資料探勘等機制,以自動化偵測資料品質問題,提高資料淨化效果。本文第二節回顧資料品質相關文獻,第三節描述階層性資料品質模式,第四節以環保部門資訊整合之資料品質管控作為探討實例,第五節為結論。2.相關文獻回顧有關資訊系統中資料品質課題的探究,麻省理工學院的「整體資料品質管理計畫」(totaldataqualitymanagementprogram)可說是此領域的開路先鋒之一[7]。該計畫每年定期舉辦資訊品質相關議題研討會等活動,對資訊品質研發工作有具體貢獻。Wangetal在此計畫早期的研究中曾倡議一個基於ISO9000標準的資料品質分析架構,這個架構檢視了有關資料品質的一些重要文件,其中有些研究是針對植基屬性之資料品質管理方式進行探討[13],由於這種管理方式會變動資料庫的原有結構,加入品質相關的訊息,而這些品質資訊與資料是同存於一個資料表,所以必須在資料更新過程中同步更新品質屬性資料,以免造成錯誤的資訊,如此一來,存取這個資料表的資料庫語言(SQL)就得因應資料綱要的改變而調整,實作上並不十分便利,加以近期資訊整合的來源日益多元,例如XML資料及網頁資料等,這種方法有其侷限性。Jarkeetal倡議一個以擴充性儲存庫為基礎的一種資料倉儲架構,但此架構主要專注在資料倉儲系統設計及建置階段的品質控管,相對的也較少注意到資料倉儲內的資料品質問題。NaumannandLeser將各個不同面向的資料品質因素,如完整性及時效性等納入「多資料庫查詢語言」中。其作法主要採行「觀點重寫機制」(view-rewritingmechanism),同時將資訊品質塑模成不同的階層[12]。DasuandJohnson將資料探勘(datamining)技術與資料品質的相關技術與學理探討作有系統性歸納整理[3],顯見資料探勘技術在資料品質的管控方面具有相當正面之功能,我們將在第四節就此課題作說明。在實作及應用方面,HelfertandHerrmann以瑞士某家銀行的資料倉儲系統為例,提出一個維持高資料品質的方法(以詮釋資料為基礎之資料品質系統)[4]。Luebbersetal則以汽車引擎製造商資料倉儲系統為例提出資料品質已被認定為資料倉儲系統成功與否的關鍵要素之一[11],這份報告中提出以資料探勘為基礎之系統架構來稽核與管控資料品質。Berndtetal的研究報告則指出,對於一個醫療資料倉儲系統來說,資料品質管理策略更形重要,必須不斷評估、監測並且避免產生錯誤的資料而導致錯誤的醫療決策[2]。醫療資料倉儲系統通常擔負幾個重要使命,包括醫療政策制定、大量醫療資料搜集維護以及新醫療技術研發的支援,譬如說一份關於突破一些心臟病治療挑戰的最新研究報告公佈後,公共衛生官員就能快速從資料倉儲系統檢索更加詳細的資訊,又如婦女和兒童健康的資訊含括嬰兒死亡率或初生兒體重過輕,公共衛生官員就可以參考資料倉儲系統產生的報表,制定更完善的醫療保健政策。綜上論述,資料品質的優劣不只是資料倉儲系統成敗的關鍵,更攸關國家人民的福祉,但是,在建置資料倉儲的過程中資料品質的維護與提升,通常需要耗費相當大的人力及時間成本,所以,發展自動化、有效率且極具正確性的資料品質管控系統及相關作業流程機制等,益顯重要。我國政府目前正積極推動電子化政府相關工作,建置整合性共通平台,希望藉由此平台能提供人民單一服務窗口,因此資料淨化方法在此平台將扮演不可或缺之角色,對提供正確的公務部門資訊有重大影響。目前一般機構僅有基本的資料淨化方法,例如植基屬性方法與詮釋資料方法。植基屬性方法是以屬性為基礎(attribute-based)的資料品質管理方法,係針對資料的屬性在資料欄位附加上品質因子,這些品質因子就是實際資料所欲達到的目標、特徵以及產生的過程,使用者則依據實際應用需求來評估資料的品質[13]。附有品質因子的資料欄位可聯結至相關的品質資訊,其儲存結構改變了原始關聯資料庫中資料欄位值必須是單一值的限制,使每項有品質因子的資料欄位都以下列序對方式儲存資料。Attribute,Quality_Key由於使用者對資料品質的觀點與需求被併入資料倉儲的設計中,因此對於不同使用範疇的使用者,可依據其使用權限或需求的資料品質標準,作為篩選資料的標竿,一旦外界環境對資料品質的需求有所改變,也可隨時再重新訂定資料品質的的標準,進行資料篩選與淨化處理,這使得資料品質的驗證評估在資料倉儲發展與應用的任一階段都可進行處理,而非僅限於設計階段或應用階段始可進行[10]。表1為含有品質資訊的資料庫示例,原有的資料表格「水質」測站名稱,懸浮固體,大腸桿菌群,PH值.,在屬性欄位附加上品質因子,品質因子中包含有對資料相關的品質訊息,如表1中屬性欄位附加了二個品質因子:輸入日期,校核者,分別用以表示資料鍵入日期、資料校核人員。這些擴展後的屬性欄位可以因時因地制宜的增減,如此即可進一步取得相關的品質資料。表1:結合資料品質的資料模型測站名稱懸浮固體(mg/L)大腸桿菌群(CFU/100ml)PH值輸入日期校核者大直橋中山橋::38.846::24000010::7.47.3::2005-12-072005-12-12::KevinRichard::attributesfordatavalueattributesfordataquality但是這種方式會改變原始資料儲存方式,同時還要修改SQL的查詢語言結構使其包含對品質資料的處理,因此對品質因子的設定、儲存及擷取必須做進一步的處理,以免造成資料因新增或刪除所形成的異常現象。詮釋資料方法是以詮釋資料為基礎之資料品質系統[4],主要專注於資料品質的持續改善,圖1顯示了從操作性系統到分析系統的整個資料倉儲系統架構,資料品質在整個資料流的過程中,不斷的被量測以及評估,其中詮釋資料扮演了重要的角色,特別是在資料轉換程序及資料綱要中所用到的詮釋資料都被用來量測資料品質。以詮釋資料為基礎之資料品質系統最重要的一個概念就是整合詮釋資料管理,經由這個詮釋資料管理將所有有關資料品質的重要資訊都納入,包含以下三個部份:1.測量及評估資料品質的規則庫(rulebase):透過規則的建立,不但可以設定測量資料品質的條件及標的,還包括了執行的時間程序。2.通知規則(notificationrules):當有不符合品質規則的資料或者是偏差的資料產生時,就可以根據通知規則來決定經由何種方式通知相關品質確認工程師,例如利用電子郵件通知品質確認工程師之後,工程師就可以採取適當的處理步驟。3.

1 / 10
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功