第2章资料采矿的定义及技术前言

兔子小姐
9 ℃
2018-03-18

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

13第2章資料採礦的定義及技術前言傳統技術以統計分析為代表，舉凡統計學內所含之敘述統計(DescriptiveStatistics)、機率論(Probability)、迴歸分析(Regression)、類別資料分析(CategoricalDataAnalysis)等皆可用來進行資料採礦。資料採礦對象多為變數繁多且筆數龐大的資料，而高等統計學中的多變量分析方法如用來分類的判別分析(DiscriminatedAnalysis)、用來簡化變數的因素分析(FactorAnalysis)以及用來區隔群體的分群分析(ClusterAnalysis)等亦成為重要的工具。在改良技術方面，資料採礦廣泛利用各種電腦應用領域的人工智慧(ArtificialIntelligence)方法，較普遍的有決策樹理論(DecisionTree)、類神經網路(NeuralNetwork)、模糊理論(FuzzyLogic)、以及規則歸納法(RuleInduction)等。學習路徑由於資訊料技的進步，網路通訊技術的發展，經過日積月累之後，資料庫的資料量變得相當龐大，加上許多新的電腦分析工具問世，使得從資料中發掘寶藏成為一種系統性且可實行的程序，更使得資料採礦(DataMining)成為近年來資料庫應用領城中相當熱門的工作(Teller&Veloso,1995)，且應用的範圍相當廣(Fayyed,1996)。資料採礦技術包含了統計技術、資訊工程、行銷企劃、財務分析等技術的組合，所著重的是資料庫的再分析，藉由模式比對的方式，資料採礦技術可在企業所蒐集到的市場、客戶、供應商、競爭對手以及未來預測等大量資料申，找尋如趨勢(Trend)、特徵(Pattern)及相關性(Relationship)等隱藏在背後具特殊含意的訊息，以執行預測模型、市場區隔、關聯分析及偏差行為等作業。本章先行探討資料採礦的定義、流程、技術等。14一、資料採礦的定義Datamining”英文一詞，有人稱作知識發現(KDD)(KnowledgeDiscoveryinDatabase)、知識萃取(KnowledgeExtraction)、資料發掘(InformationDiscover)、資訊收穫(InformationHarvesting)、資料考古學(DataArcheology)、或資料特徵處理等(DataPatternProcessing)。在中文期刊或文獻中的中譯名稱可說是各式各類，如:資料採礦、資料挖掘、資料挖礦、資料探採、與資料探勘等，而中華資料採礦協會(Chung-HuaDataMiningSociety，CDMS)譯為『資料採礦』。依中華資料採礦協會(2002)指出:資料採礦最早由Fayyad於1991年所提出，其目的是從龐大的維修資料中找出規則。Greenfeld(1996)認為資料採礦是整個知識發現的過程。Berry及Linoff(1997)認為資料採礦是針對大量的資料，利用自動或半自動的方式分析，從中找出有意義的關係或法則。依照Handetal.(2000)的說法：”Dataminingistheprocessofseekinginterestingorvaluableinformationinlargedatabases.”簡短的來說，所謂的資料採礦就是指「從大量的資料庫中找出相關的模式(RelevantPatterns)並自動的萃取出可預測的資訊」。這樣的概念並非首創，像統計學中的迴歸分析及資料庫管理系統也具備類似的功能。但前者缺乏同時處理大量資料的能力，而且必須先有假設後再去驗證這個假設是否正確；後者則是無法提供對資料更進一步的分析。唯有資料採礦是利用完備的統計及機器學習(MachineLearning)技術來建立能自動預測顧客行為的模型，同時還能與商業資料倉儲(CommercialDataWarehouse)結合，發展出有價值的商業用途。從技術上來看，資料採礦就是從大量的、不完全的、有雜訊的、模糊的、隨機的實際應用資料中，提取隱含在其中的、人們事先不知道的、但又是潛在有用的資訊和知識的過程。與資料採礦相近的同義詞有資料融合、資料分析和決策支援等。此定義包含好幾層含義：資料來源必須是真實的、大量的、含雜訊的；發現的是使用者感興趣的知識；發現的知識要可接受、可理解、可運用；並不要求發現放之四海皆準的知識，僅支援特定的發現問題。何謂知識?從廣義上來說，資料、資訊也是知識的表現形式，但是人們更把概念、規則、模式、規律和約束等看作知識。人們把資料看作是形成知識的泉源，好像從礦石中採礦或掏金一樣。原始資料可以是結構化的，如關聯資料庫中的資料；也可以是半結構化的，如文本、圖形和圖像資料；甚至是分布在網路上的異構型資料。發現知識的方法可以是數學的，也可以是非數學的；可以是演繹的，也可以是歸納的。發現的知識可以用在資訊管理、查詢優化、決策支援和程序控制等，還可以用在資料本身的維護。因此，資料採礦是一門交叉學科，它把人們對資料的應用從低層次的簡單查詢，提升到從資料中挖掘知識，提供決策支援。在這種需求牽引下，匯聚了不同領域的學者，尤其是資料庫技術、人工智慧技術、數理統計、視覺化技術、平行計算等方面的研究者和工程技術人員，投身到資料採礦領域。15從商業角度來看，資料採礦是一種新的商業資訊處理技術，其主要特性是對商業資料庫中的大量業務資料進行抽取、轉換、分析和其他模型化處理，從中提取輔助商業決策的關鍵性資料。簡而言之，資料採礦其實是一類深層次的資料分析方法。資料分析本身已經有很多年的歷史，只不過在過去資料收集和分析的目的是用於科學研究。另外，由於當時計算能力的限制，對大量資料進行分析的複雜分析方法受到很大限制。現在因為各行業的業務自動化實現，商業領域產生了大量的業務資料，這些資料不再是為了分析的目的而收集，而是由於純機會的(Opportunistic)商業運作而產生的。分析這些資料也不再是單純為了研究的需要，更重要的是為商業決策提供真正有價值的資訊，進而獲取利潤。但所有企業面臨的一個共同問題是：企業資料量非常大，而其中真正有價值的資訊卻很少，因此從大量的資料中經過深層分析，獲得有利於商業運作、提高競爭力的資訊，就像從礦石中掏金一樣，資料採礦也因此得名。因此，資料採礦可以描繪為：按企業既定的業務目標，對大量的企業資料進行探索和分析，揭示隱藏的、未知的或驗證已知的規律性，並進一步將其模型化的先進有效的方法。綜合先前所言可知，資料採礦是一種藉由模式確認技術，如類神經網路、機器學習語言及遺傳演算法等，將資料轉變之後，繼而發現可使用且有意義的模式、輪廓及趨勢的整套過程。整個過程是採用導入各種資料，並且反覆萃取模式，以期能自動發現儲存資料中，有多少可使用的知識，對於商業經營的決策是有助益的。Chung&Gray(1999)定義資料採礦的技術是，「持續追蹤日復一日、年復一年每一個客戶及每一個及每一個專案所產生的資料中，識別出具有效性、新穎性、使用潛在價值性、及可了解性的資料關聯(correlations)及模式(patterns)」。換言之，資料採礦也可提供管理階層尚未發現的問題解答及衍生的洞察力。因此，資料採礦可以從三個觀點來細分其內容(如下圖)，從商業面它可以是一種商業研究、商業流程改進、行銷支援、顧客關係管理及問題發現的工具；在技術面它結合機器學習所使用的演算法、統計的部分功能、決策支援的分析及電腦科技等應用技術；從社會面的角度來分析它是結合商業活動及科技活動，提高組織預警的能力在危機來臨之前，先有防範之道來因應外界環境的多變性及競爭性。16商業觀點技術觀點研究工具問題發現機器學習程序改進統計行銷功能決策支援顧客關係管理電腦科技社會觀點因應快速的環境變化商業觀點技術觀點研究工具問題發現機器學習程序改進統計行銷功能決策支援顧客關係管理電腦科技社會觀點因應快速的環境變化商業觀點技術觀點研究工具問題發現機器學習程序改進統計行銷功能決策支援顧客關係管理電腦科技社會觀點因應快速的環境變化商業觀點技術觀點研究工具問題發現機器學習程序改進統計行銷功能決策支援顧客關係管理電腦科技社會觀點因應快速的環境變化圖2-1資料採礦的觀念圖Grupe及Owrang認為，資料採礦(DataMining)即是將資料中隱藏的資訊挖掘出來。Fayyad則認為資料採礦是用來協助使用者作探索(Exploration)的工作，也就是將知識外顯化的一種工具。根據Frawley，Piatesky-Shapiro及Matheus(1991)對資料採礦的定義為，從資料庫中挖掘不明確的、前所未知的、以及潛在的有用資訊的過程。Berry及Linoff(1997)則認為，資料採擴是使用自動或半自動的方式對大量的資料作分析，以找出有意義的關係或法則。歸納而言，資料採擴即是從大型廖庫豬對之前未知、有效、可行的資訊進行萃取的過程，然後使用這些資訊來進行關鍵的企業決策。學者Peacock(1998)更從狹義和廣義的角度來定義，並歸納出三種:1.狹義的資料採礦是指自動發現隱藏在資料庫中有趣但不明顯的模式，所謂有趣即指有可能會影響策略與戰略，甚至會影響到組織目標。在方法論上即圍繞在機器學習，強調其發現的過程。2.廣義的資料採礦，強調其過程中欲研究或測試發現兩者或多者彼此間的關係，所以使用統計方法、建立假說，或研究並確認關係以支持在狹義的資料採礦中形成的模式。3.最廣義的定義即資料採礦與資料庫知識發現同義，包含內部與外部資料獲取。資料轉換、清理、格式化、分析、確認、賦予資料意義、建立與執行決策支援工具和系統，使得資料採礦的結果對決策者發生效用。綜合各學者給予其定義:資料採礦即是在資料庫中，利用各種分析方法與技術，將過去所累積的大量歷史資料，進行分析、歸納、預測與整合，尋找出有價值的隱藏事件加以分析，以粹取出有用的資訊或找出使用者有興趣的樣式(InterestingPatterns)與知識，提供企業管理階層作為訂定決策的依據(Krzystofetal.,171998;Han&Kamber,2001)。從以上定義中，對於資料的採礦可歸納出幾項重點：1.通常是大量的資料才需應用資料的採礦技術；2.資料採礦的目的是拭出資料間的關聯性及發現樣式，而這些結果或知識是先前未知且是有意義的。3.資料採礦的程序是多步驟的，對於不同種類的原始資料，應使用適當的演算法。4.資料採礦的結果可做為預測和決策的參考。學者McFadden等(1999)依照資料採礦之定義，將其目的分為：1.解釋性(Explanatory)：用以解釋一些可見事件或狀況，例如:為何國人前往香港旅遊人數激增?2.驗證性(Confirmatory)：用以驗證一項假說，例如:天然(例如:921大地震)或人為(例如:911世貿恐怖攻擊)災害會影響旅遊市場。3.探索性(Exploratory)：用以分析資料以尋求新的或未曾發現的關係，例如:兩岸直航後會影響國人赴港之意願。學者Olaru&Wehenkel(1999)定義了三個目的:1.從龐大儲存的資料中處理出有用的資訊；2.發展更好方法以處理資料和支援未來的決策分析；3.在不適合以人工方式尋我資料的情況下，建立資料搜尋模式。就資料搜尋或處理的角度來看，資料採礦的歷史可追溯到四十年前，六零年代僅是將資料做標準化的報告，例如將資料加總等作一簡略的處理，而現今才發展出「資料庫中的知識發現』，所挖掘出的珍貴資料、資訊和知識，應用於決策、預測、和推估上，配合網路使用亮持續的增長與資料庫的連結愈來愈容易，這也加速了資料採礦技術的成長，在以往要取得現今相同的結果，需耗費巨大的人力及時間、和財力，現在只要使用統計科學，加上具備人工智慧的資料採礦工具，就可以在浩瀚無際的資料之申，過濾出有用的情報出來。下表整理出多位資料採礦領域的知名學者對資料採礦的定義：表2-1資料採礦的定義學者(年代)資料採礦的定義Frawley(1991)從資料中萃取出隱藏的、先前未用的有用資訊。Grupe&Owrang(1995)從現存資料中剖析出專家們尚未發現之新事實及18新關係。Fayyad(1996)可萃取出