资料採矿分类分析系统之建构与应用-信用贷款违约与选股系统应用(ppt 54页)

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

LOGO資料採礦分類分析系統之建構與應用-信用貸款違約與選股系統應用指導教授:姜林杰祐博士學生:陳冠名CompanyLogo摘要本研究以資料採礦的分類方法為核心,嘗試建構一開放式的分類分析系統,其內含的分類演算法包括ID3、C4.5、貝氏分類法與記憶基礎推論法等。為驗證本系統的有效性,本研究以銀行信用貸款資料庫為例,分類正常戶與違約戶;並將此分類工具應用於股市的分析、預測,期能以此系統發展資料趨導式的選股模型CompanyLogo報告大綱第一章、研究目的與動機。第二章、文獻探討。第三章、資料採礦分類分析系統開發。第四章、實例應用一。第五章、實例應用二。第六章、結論與未來研究。CompanyLogo研究動機與目的近年來資料氾濫,如何在過度氾濫的資料中去蕪存菁,將無用的資料過濾,進而獲得有用的資訊、知識是相當重要的議題,而資料採礦即是對資料進行分析,以求在大量資料中獲取資訊的有效方法。CompanyLogo資料採礦方法在財金領域應用現況PhilipJoos等(1998)將LogitModel以及決策樹用於比利時某大型銀行資料庫進行信用分類,獲得80%以上之的準確度。NazliIkizler等(2000)使用決策樹C4.5演算法對銀行放款資料進行分析,試圖找出令人感興趣的分類規則,此研究結果發現數條有用之分類規則,可供決策運用。Muh-CherngWu等(2006)以決策樹結合濾嘴法則,應用於股市交易,獲得13%的報酬率。CompanyLogo資料採礦於金融業之應用資料來源:吳振晃(2003)應用領域應用情況信用卡公司信用卡公司使用資料採礦來增加信用卡的應用,作購買授權決定,分析持卡人購買行為,並偵測詐騙行為金融服務機構分析師使用資料採礦技術,來分析大量的財務資料,建立交易模型來發展投資策略銀行銀行使用資料倉儲來促進資料採礦作業,並詳細的分析客戶資料,然後整合這些成果以形成行銷策略,也可以使用資料採礦技術,識別客戶的貸款活動,調整金融商品以符合客戶需求,尋找新客源,加強客戶服務。保險公司資料採礦技術最近已提供保險業者,從大型資料庫中取得有價值的資訊以進行決策,這些資訊可讓保險業者進一步認識客戶,並可有效的偵測保險詐欺。CompanyLogo資料採礦方法分群。分群是針對樣本進行劃分,與分類不同的是,進行分類時使用者必須明確知道要以何種準則來對樣本進行劃分,而分群屬於非監督式學習法,使用者不需知道樣本要依何種準則進行劃分(有時也無法得知),分群演算法會自動對樣本進行劃分,在圖形辨識、市場區隔等領域都有優異的表現,主要演算法有K-平均法、K-物件法等。關聯。此演算法主要是要探究,當某一事件發生時,是否會帶動另一事件跟著發生,是一種探究因果關係的方法,最著名的應用為購物籃分析,用以發現消費者的購買行為,以Apriori演算法最為經典。分類。為一監督式學習方法,主要用於對樣本進行類別的劃分,如對銀行客戶進行信用分級、預測違約戶…等都是其主要應用領域,分類包含了眾多演算法可供使用,如決策樹、類神經網路、支援向量機(SVM)、貝氏分類法、記憶基礎推論法(MBR)…等都是知名的分類演算法。CompanyLogo()logniiiIPPP()()()GainAIPEA211()logmniijijiiEApPPID3:以資訊理論作為屬性選擇之依據C4.5:改良自ID3Gain()iratioA()/()ijGainAIA21()logkjiiiIAPPCompanyLogo(X|C)=P(,,|C)nxx(|)()(|)()PXCPCPCXPX12P(X|C)=P(|C)P(|C)...P(|C)kxxx貝氏定理:現實中,類別C中出現X客戶的機率無法求得再假設各屬性值相互獨立由上述可得12P(C|X)=P(x|C)P(x|C)...P(x|C)P(C)/P(X)kCompanyLogo記憶基礎推論法步驟1選取訓練樣本集步驟2計算屬性距離絕對差:平方差:標準差:步驟3計算資料距離,將上述求得各屬性距離加以組合成一個值,用以代表兩資料間的距離,常用合成方式如下總和:標準化總和:歐基里徳距離:|A-B|2(A-B)|A-B|MAX(Distance)1(,)(,)kSUMiiDABdAB(,)(,)()SUMNORMSUMDABDABMaxD21(,)(,)kEUCLIDiiDABdABCompanyLogo記憶基礎推論法(續)步驟4選取k筆鄰近資料進行表決,為了避免表決時有平手的情況,k應取單數為佳。步驟5表決方式選擇,判定方式以選出之k個鄰近資料進行多數決,多者即為該預測樣本歸屬之類別,常用判定方式如下:民主選舉法:所選之k個鄰近樣本具有相同權重,以多者為勝。加權選舉法:依據所選之k個鄰近樣本與預測樣本的距離給予權重,距離預測樣本愈近,則權重愈大。CompanyLogo系統架構資料設定選取資料來源選取參與屬性選取目標屬性資料離散化測試/訓練樣本選取決策樹貝氏分類法記憶基礎推論法選擇探勘方法資料前置處理資料探勘雜訊處理資料設定選取資料來源選取資料來源選取參與屬性選取參與屬性選取目標屬性選取目標屬性資料離散化資料離散化測試/訓練樣本選取測試/訓練樣本選取決策樹決策樹貝氏分類法貝氏分類法記憶基礎推論法記憶基礎推論法選擇探勘方法選擇探勘方法資料前置處理資料探勘雜訊處理CompanyLogo實驗流程資料獲取:將欲進行分析之資料載入資料表資料前置處理:共有雜訊處理、資料離散化、訓練/測試樣本選取三部份雜訊處理:將兩標準差以外之資料視為雜訊。資料離散化:以等寬裝箱法將連續型資料分為五類。訓練/測試樣本選取:隨機挑選151筆資料進行訓練,75筆資料用於測試。探勘方法選取:依使用者需求選取合適之探勘方法,系統提供方法有決策樹、貝氏分類法、記憶基礎推論法。CompanyLogo決策樹分析實驗設定參與屬性貸款金額、性別、學歷、婚姻、職業、是否雙薪、保證人、收入、年齡、子女人數、負債、信用卡、用卡狀況、建物樣式、建物坪數、建築年數、押品樓層、寬緩本金、信用型態…等19個屬性。目標屬性信用型態,0代表不違約,1代表違約。雜訊處理將2標準差以外的資料視為雜訊,予以刪除。資料離散化以等寬裝箱法,將連續型資料分為5類樣本選取原本300筆資料,經過雜訊處理後剩下226筆,隨機挑選151筆為訓練樣本,75筆為測試樣本。探勘演算法ID3、C4.5。中止條件最大深度1、2、3層,及無限制。CompanyLogo決策樹分析(續)實驗結果ID3實驗結果C4.5實驗結果無限制最大深度1最大深度2最大深度3樣本內準確度10.73510.7550.9338樣本外準確度0.520.70670.53330.5733無限制最大深度1最大深度2最大深度3樣本內準確度10.72190.74170.7616樣本外準確度0.61330.73330.69330.7067CompanyLogo決策樹分析(續)分類規則CompanyLogo決策樹分析(續)樹狀圖用卡狀況收入正常是否雙薪違約逾期欠款使用循環利息高最高低最低中寬緩本金是否雙薪職業是否雙薪寬緩本金不違約違約是否無2-3年1年不違約不違約違約不違約不違約不違約4-5年不違約不違約不違約不違約無法判斷不違約不違約不違約無法判斷違約不違約軍警公教高階主管薪資人員自由業企業雇主農林漁牧買賣業服務業勞動業補教業金融業營建業違約不違約是否不違約不違約是否不違約不違約無4-5年用卡狀況收入正常是否雙薪違約逾期欠款使用循環利息高最高低最低中寬緩本金是否雙薪職業是否雙薪寬緩本金不違約違約是否無2-3年1年不違約不違約違約不違約不違約不違約4-5年不違約不違約不違約不違約無法判斷不違約不違約不違約無法判斷違約不違約軍警公教高階主管薪資人員自由業企業雇主農林漁牧買賣業服務業勞動業補教業金融業營建業違約不違約是否不違約不違約是否不違約不違約無4-5年CompanyLogo貝式分類法分析實驗設定實驗結果參與屬性貸款金額、性別、學歷、婚姻、職業、是否雙薪、保證人、收入、年齡、子女人數、負債、信用卡數、用卡狀況、建物樣式、建物坪數、建築年數、押品樓層、寬緩本金、信用型態…等19個屬性目標屬性信用型態,0代表不違約,1代表違約。雜訊處理將2標準差以外的資料視為雜訊,予以刪除。資料離散化以等寬裝箱法,將連續型資料分為5類樣本選取原本300筆資料,經過雜訊處理後剩下226筆,隨機挑選151筆為訓練樣本,75筆。探勘演算法貝氏分類法。樣本內準確度0.7610樣本外準確度0.6578CompanyLogo記憶基礎推論法分析實驗設定參與屬性貸款金額、性別、學歷、婚姻、職業、是否雙薪、保證人、收入、年齡、子女人數、負債、信用卡、用卡狀況、建物樣式、建物坪數、建築年數、押品樓層、寬緩本金、信用型態…等19個屬性。目標屬性信用型態,0代表不違約,1代表違約。雜訊處理將2標準差以外的資料視為雜訊,予以刪除。資料離散化以等寬裝箱法,將連續型資料分為5類樣本選取各類別隨機挑選30筆,共60筆資料作為訓練樣本集;挑選15筆鄰近資料作為表決資料集,隨機挑選75比為測試資料集。探勘演算法記憶基礎推論法。其他1.針對各距離函數及合成方式一一測試,共有九種測試組合2.判定方式採民主選舉法CompanyLogo記憶基礎推論法分析(續)實驗結果總和標準化總和歐基里徳距離絕對差0.760.760.6267平方差0.62670

1 / 54
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功