机器学习与数据挖掘

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

機器學習與數據挖掘機器學習算法能夠發現重要的“規律”在大型數據集。在過去的十年中,很多組織已經開始定期捕獲海量的歷史數據來描述他們的業務,產品和客戶。同時,在許多領域的科學家和工程師已捕獲日益複雜的實驗數據集,如GB的功能性磁共振成像(MRI)數據描述了人類大腦的活動。數據挖掘領域涉及的問題,如何最好地利用這些歷史數據,發現一般規律,提高決策的過程中。數據挖掘,或利用歷史數據來發現規律和改善未來的決定越來越大的興趣,從最近的一些發展趨勢:大型數據存儲設備和越來越方便的通過網絡收集數據的成本的下降匯合的發展強大的和高效率的機器學習算法來處理這個數據的計算能力和成本的下降,從而使計算密集型的方法對數據進行分析。數據挖掘領域,有時也被稱為“從數據庫中的知識發現,”先進的數據分析認為,“機器學習,已經產生醫療成果進行分析,檢測信用卡欺詐,預測客戶的購買行為,預測Web用戶的切身利益,優化生產流程等方面的實際應用中。這也導致了一組迷人的科學問題,計算機可能會自動從過去的經驗中學習。典型的應用圖1示出了一個典型的例子,數據挖掘問題。給定一組歷史數據,我們用它來改善我們的醫療決定決策。該數據包括一組醫療記錄描述9,714孕婦。我們要提高我們的能力,以確定未來的高危妊娠具體而言,那些在高風險的需要緊急剖宮產的傳遞。在這數據庫中,每個孕婦中描述215個不同的功能,像她這樣的年齡,不管她是否是糖尿病,這是她第一次懷孕。這些功能(在頂部部分的圖)描述每一個懷孕的演變隨著時間的推移。的底部部分的圖中示出了典型的數據挖掘的結果,其中包括規則自動學習從這樣的數據集。這種特殊的規則預測的60%,緊急剖腹產的風險母親表現出的特定組合三個特點,出215個可能的功能。在已知的婦女表現出這三個特點,數據表明,60%在歷史上給予緊急剖腹產出生的。作為總結在該圖的底部,這個規律持有制定的規則和使用的訓練數據用於驗證的可靠性的測試數據的一組單獨的該規則對新的數據。醫生可能要考慮這條規則作為一個有用的事實陳述過去的稱重時治療的患者類似的新患者。什麼算法可以用來學習規則,如圖中的?通過學習這個規則克拉克的象徵性規則學習算法尼斯貝特的CN2[3]。決策樹學習算法,如Quinlan的C4.5[9],也經常制定規則這種類型的。何時從非常大的數據,必須要學習規則組,專門的算法強調計算效率也可使用[1,4]。其他機通常適用於這種學習算法包括神經網絡的數據挖掘問題[2],[8]歸納邏輯編程和貝葉斯學習算法[5]。1997年米切爾的教科書[7]描述了一種機器學習的廣泛用於數據挖掘的算法,以及作為統計原則上,他們是基於。雖然機器學習算法的核心數據挖掘過程中,重要的是要注意的該過程還涉及其他重要的步驟,包括建設和維護數據庫,數據格式和清洗,數據可視化和總結,利用人類專家的知識制定的學習算法的輸入評估發現的經驗規律,並確定如何部署的結果。因此,數據挖掘技術填補了許多技術領域,包括數據庫,人機交互,統計分析和機器學習算法。我關注的上的作用的機器學習算法在這裡是數據挖掘過程。患者的醫療記錄應用程序的例子在圖1表示一個典型的數據挖掘問題,其中的數據的集合,由時間序列的描述,我們利用這些數據來學習預測之後發生的事件的一系列緊急剖腹產根據以前的事件,症狀前交付。雖然我使用的是醫療的例子來說明這些想法,我可以給出一個類似的學習預測的例子,比方說,銀行貸款申請人是無法償還的高風險貸款(見圖2)。正如該圖所示,數據在這樣的應用程序通常由時間序列客戶的銀行結餘及其他說明人口統計信息,而不是醫療症狀。其他數據挖掘的應用包括預測顧客的購買行為,客戶忠誠度,由一個特定的製造生產的產品的質量線(參見圖3)。所有的應用程序數據挖掘成功的應用,並在其中進一步的研究會有更有效的技術。數據挖掘領域是令人感興趣的十字路口,我們現在有一個第一代的機器學習算法(如學習決策樹,規則,神經網絡,貝葉斯網絡,和logistic回歸分析),已被證明是顯著值在各種現實世界的數據挖掘應用。現在世界各地的數十家公司提供的商業實現這些算法,以及有效的商業數據庫的接口,設計良好的用戶interfaces.But這些第一代的算法也有明顯的局限性。他們通常假設數據中包含數字和符號功能和沒有文字,圖像功能,或原始傳感器數據。他們假定數據已被小心地收集到一個數據庫與一個特定的數據挖掘任務的心態。此外,今天的算法往往是全自動的,因此無法允許從知識淵博的用戶在搜索的數據規律的關鍵階段指導。由於這些限制,儘管他們強大的商業利益,和加速大學機器學習和數據挖掘的研究中,我們可能會預期未來十年內將產生一個數量級事先在最先進的。可能是出於這樣的提前適應新的算法,顯著更多樣化的來源和類型的數據,一個範圍更廣的在數據挖掘過程的自動化步驟,以及混合的主動數據挖掘在人類專家合作,更加緊密地與計算機發展的形成假設和測試他們對上說明一個重要的研究課題,再次預測的風險,緊急剖腹產的孕婦的問題。目前數據挖掘方法的一個關鍵限制是,他們不能利用完整的病人記錄,是當今經常捕獲醫院的醫療記錄。這是因為醫院對孕婦的記錄通常包含的圖像序列(如在懷孕期間採取的超聲圖像),其他原材料儀表數據(如胎兒窘迫顯示器),文本(如票據由醫師在懷孕期間定期檢查),甚至講話,除了數字和符號的功能(如電話記錄)圖1。雖然我們的第一代數據挖掘算法的工作以及與數字和符號的功能,但也有一些學習算法可以學習分類的圖像或分類文字,我們還缺乏有效的算法從數據中學習所代表的組合這些不同的媒體。因此,國家最先進的醫療成果分析忽略了圖像,文字和原始的傳感器部分的醫療記錄,或在最好的總結簡單的形式(如複雜的超聲圖像的標籤一樣簡單“正常”或者“異常”)。但是,它很自然地想到,如果可以預測的全部醫療記錄的基礎上,我們要實現更大的預測精度。因此,相當多的研究興趣的話題是開發的算法,可以學習規律的規律,豐富,混合媒體數據。這個問題是非常重要的,在許多數據挖掘應用,範圍從挖掘歷史設備的維護記錄,在客戶呼叫中心的採礦記錄,分析MRI對大腦活動的數據,在不同的任務。學習混合媒體數據的研究課題之一,目前許多研究在數據挖掘中的問題。圖4左側列出了一些額外的研究課題在數據挖掘中的右側顯示的各種這些研究的問題是重要的,包括:優化決策,而不是預測的應用程序。這項研究的目標是開發機學習算法,超越學習來預測可能的結果,並學會提出的先發製人的行動,達到預期的結果。例如,重新考慮數據集的誕生前面提到的。雖然它顯然是有幫助的學習,以預測哪些婦女遭受分娩並發症的高風險,這將是更有益的學習先發製人的行動可能有助於減少這種風險。同樣,在銀行客戶建模,預測他們可能會關閉他們的賬戶,並移動到新的銀行的一件事,更將是學習有用的行動可能有助於留住他們,在他們離開之前。學習的行動實現期望的結果,因為只有先前採集的數據,這個問題比它第一次出現是更加微妙。困難的問題是,現有的數據往往代表著一個偏差的樣本,不能正確代表的根本原因和影響;例如,儘管數據可能顯示,母親在家裡生下患有並發症少,比那些生完孩子在醫院,不一定能得出這樣的結論:發送女方家,減少了並發症的風險。可能反而會由於不成比例的高風險的婦女選擇放棄在醫院分娩的事實,所觀察到的規律性。因此,選擇行動學習的問題提出了重要的和基本的問題,如:如何系統學習偏頗的樣本數據?系統如何能合併的猜測人類專家的各種干預行動的有效性?如果成功的話,這項研究將允許歷史數據的應用更直接的決策者最關心的問題。擴展到非常大的數據集。雖然大多數學習算法執行可接受的數以十萬計的訓練樣本數據集,許多重要的數據集是顯著較大。例如,龐大的零售客戶數據庫和哈勃太空望遠鏡的數據可以很容易地涉及到TB級或以上。提供合理有效的數據挖掘方法,這樣大的數據集,需要更多的研究。在過去幾年的研究已經產生更有效的算法,對於這樣的問題,作為學習的關聯規則[1]和高效的可視化的大型數據台[6]。在這個方向的進一步研究可能會導致更緊密的集成到數據庫管理系統中的機器學習算法。積極實驗。目前,大多數數據挖掘系統,被動地接受預定的數據集。我們需要新的計算機方法,積極創造最佳的實驗,以獲得更多的有用的信息。例如,建模的製造過程中時,它是比較容易的捕獲過程中的數據,而在正常情況下運行。但是,這個數據可能缺乏了解如何在過程中重要的非標不可預知的條件下進行。我們需要的算法,提出了最佳實驗收集最翔實的數據,考慮到帳戶準確的預期效益,以及風險的實驗。學習從多個數據庫和數據可以通過Internet和企業內部網的的Web.The數量和多樣性是大且增長迅速。因此,未來的數據挖掘方法應該能夠使用這個巨大的各種各樣的數據源,以擴大其對數據的訪問和學習有用的規律。例如,一個大的美國設備製造商採用數據挖掘技術,構建模型其企業客戶的利益和維護的需要。在此應用中,該公司礦山的數據庫,主要包括其提供的各種客戶過去的購買記錄和服務的需求,與每個客戶進行的業務類型只有少數幾個特徵描述。但事實證明,幾乎所有的公共網站,提供大量的信息對他們的當前和計劃的activities.Significant改善製造商的戰略信息的數據挖掘,數據挖掘可預期的算法相結合Webaccessible的信息,這些客戶有製造商自己的內部數據庫中的信息。為了實現這個目標,但是,我們需要開發新的算法,可以成功地從Web超文本中提取信息。如果成功的話,這條線的研究可能會產生幾個數量級的增加,品種和貨幣訪問許多數據挖掘應用的數據。發明新的功能,以提高預測.許多情況下,發明了一種更合適的功能集,描述了可用的數據,可以提高預測的準確性。例如,考慮基於從設備中的傳感器收集的數據的時間序列的一台設備檢測即將發生的故障的問題。這種時間序列的特徵描述,可以產生數以百萬計很容易的差異,金額,比例,和原始的傳感器讀數的平均值,與以前定義的特徵。一個足夠大和longduration的數據集,它應該是可行的,自動探索這個大空間可以定義的功能,以確定他們的小部分,為今後的學習最有用的。這項工作可能會導致更高的精確度預測的問題,如設備出現故障,客戶流失,信用卡還款,醫療成果。積極研究採取了許多其他方向,包括如何提供更多有用的數據可視化工具,如何支持混合主動humanmachine的探索大型數據集,以及如何為數據倉庫和信息從不同的傳統數據庫相結合,以減少所需要的努力。不過,有趣的是,即使目前第一代數據挖掘的方法,以日常使用的許多組織,在許多應用中產生重要的成果。我們可以推測數據挖掘的進展,在未來十年內將推動三個相互加強的趨勢:1.發展的新的機器學習算法,學習更準確的信息,利用數據顯著不同的數據源可以通過因特網和內聯網,因為他們的工作,把更多的人力投入;2.整合這些算法轉換成標準的數據庫管理系統;3.數據挖掘技術在許多組織越來越認識和努力捕捉,倉庫,以及利用歷史數據,以支持基於證據的決策隨之增加。

1 / 4
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功