金融数据挖掘和商业数据挖掘

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

金融数据挖掘和商业数据挖掘建構信用卡評分模型之商業智慧流程鄭宇庭謝邦昌程兆慶台灣政治大學資料採礦中心2020/1/162報告大綱研究目的分析工具建模流程結論與建議Q&A2020/1/163研究目的有效地篩選出償債能力不佳的個人信用卡客戶,依此開發出一套信用風險系統,以幫助銀行做出正確的核卡決策。這個系統的開發、維護、與更新的成本預期將比銀行現有系統的成本低。2020/1/164分析工具MicrosoftSQLSever2005價格自動化以及開發延伸程度目前SPSS跟微軟之間是採取合作的態度2020/1/16圖表來源:楊自強企業如何應用商業智慧來提昇執行力與競爭力5建模流程:CRISP-DMDATAMINING執行階段商業理解資料理解資料準備建模評估發佈資料源DATAMINING處理流程2020/1/16圖表來源:楊自強企業如何應用商業智慧來提昇執行力與競爭力6微軟商業智慧解決方案SSIS分析服務報表服務分析服務(DataMining)資料來源檢視表(DataSourceView)整合性服務(SSIS)商業理解資料理解資料準備建模評估發佈資料源資料源2020/1/167資料採礦無處不在商業問題Microsoft演算法預測類別變數,例如行銷回應、顧客流失、違約預測(巴塞爾資本協定IRB)…決策樹貝氏機率分類群集類神經網路羅吉斯迴歸預測連續變數,例如預測銷售量、預測客戶價值變動、預測金融商品價格波動...迴歸樹時間序列類神經網路預測序列,例如找出網站使用者的點選路徑模式、客戶繳款行為模式、商品購物順序時序群集找出產品交叉銷售關聯性,又稱為購物籃分析關聯規則決策樹找出潛在相似性,例如市場區隔、偵測晶圓瑕疵分配、文件分類、保險浮濫理賠偵測、偽卡偵測群集時序群集2020/1/168商業理解(BusinessUnderstanding)釐清商業問題目前呆帳率是多少?信用卡審核流程?信用卡評分模型=分類模型2020/1/169資料理解(DataUnderstanding)資料來源某銀行2000.1.1~2002.6.30的信用卡資料資料內容申請資料檔繳款紀錄檔總共有1220個變數,502,333筆原始資料違約戶定義繳款期間曾經有逾期60天以上未繳之卡戶2020/1/1610建模流程圖選擇2001.4~2001.6原始資料清除遺漏值、異常值資料轉換誤差抽樣訓練組測試組建模評估評估2020/1/1611資料準備(DataPreparation)選擇合理的建模變數基本資料性別、教育程度、職業別……聯合徵信中心(JCIC)的資料被查詢總家數、延遲月數比率……與銀行往來的資料申請卡別類型、有沒有使用扣款服務……2020/1/1612資料準備(DataPreparation)選擇合理的建模時間時間間隔取為12個月至18個月清除遺漏值、異常值資料轉換連續型轉成離散型:被查詢總家數…合併變項太多之變數:職業別…衍生新的變數2020/1/1613類型變數名稱資料類型個人資料教育別類別型(2類)性別旗標型行業別類別型(3類)職稱別類別型(3類)工作年資類別型(5類)緊急聯絡人與正卡關係類別型(4類)與銀行往來紀錄是否申請結餘代償旗標型扣款帳號旗標型金融聯合徵信中心過去六個月延遲月數比率連續型過去六個月循還月數比率連續型近一年M2次數整數型最近一個月近期是否逾期旗標型負債所得比連續型有效卡張數類別型(3類)被查詢總家數類別型(4類)2020/1/1614建模(Modeling)誤差抽樣(Over-Sampling)將稀有事件透過抽樣的方式將其比重提高多的少抽(Reduce):正常戶抽取率0.1違約戶抽取率1將資料分成訓練組與測試組避免過度學習(Over-fitting)建模方法選擇羅吉斯迴歸、決策樹、類神經網路DataMiningModelEvaluation2020/1/1616DataMiningModelEvaluation分類矩陣橫軸為預測結果,縱軸為實際結果增益圖橫軸為名單百分比,縱軸為累積佔全體之百分比收益圖根據成本以及銷售成功利潤,並計算出累積利潤圖散佈圖針對連續變數,可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形2020/1/1617選擇“vTargetMail(dbo)”勾選需要比較之模型DataMiningModelEvaluation說明:在進行模型效益評估前必須先選入資料表,並在模型中勾選要進行評估比較之模型2020/1/1618DataMiningModelEvaluation分類矩陣藉由分類矩陣進一步比較,判別兩模型的預測能力,由決策樹模型發現,預測正確的資料有7103+5857=12960;而群集分析模型的正確預測資料為5395+5308=10703,也可看出決策樹分類結果較群集分析分類結果好2020/1/1619DataMiningModelEvaluation增益圖增益圖:主要展現在整體的百分上所累積的效益狀況2020/1/1620DataMiningModelEvaluation收益圖收益圖:可根據所設定之固定成本、單位成本以及單位營收加以計算,找出最佳獲利點2020/1/1621DataMiningModelEvaluation散佈圖散佈圖:了解各模型之預測值、預測趨勢以及實際值2020/1/1622評估(Evaluation)增益圖(liftchart)2020/1/1623評估(Evaluation)分類矩陣(classificationmatrix)衡量指標Precise=a/a+bRecall=a/a+cAccuracy=a+d/a+b+c+d實際預測違約戶正常戶違約戶ab正常戶cd2020/1/1624發佈(Deployment)產生預測的違約機率值單一查詢整批查詢2020/1/1625結論與建議本研究以羅吉斯迴歸模型預測能力最好本研究目的在於幫助作核卡的決策,另外有一些主題可供繼續研究核卡後針對繳費情況的變化,再建構一預測違約模型,以預防違約發生。已違約建立一處理催收順序的模型2020/1/1626Q&A歡迎提出問題討論

1 / 26
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功