使用决策树的预测建模

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

Chapter2使用决策树的预测建模2.1问题和数据探索..................................................................................................................2.2建模问题和数据难点...........................................................................................................2.3生成和解释决策树..................................................................................错误!未定义书签。2.1问题和数据探索内容:问题和数据初步数据探索问题和数据a.预测建模问题一家金融服务公司为其客户提供房屋净值信贷额度。该公司曾把该项贷款扩展给了数千客户,其中的许多接收者(大约20%)有贷款欺诈行为。该公司希望使用地理信息、人口信息、和经济状况信息变量建立一个模型预测一个申请人将来会不会欺诈。b.输入数据源在对数据进行了分析之后,该公司选择了12个预测变量来建立每一个申请人是否欺诈的模型。输出变量(或目标)变量(BAD)表示申请人在房屋净值信贷中是否有欺诈活动。这些变量及其模型角色、测量水平、变量描述列表如下。表2.1SAMPSIO.HMEQ数据集合的变量NameModelRoleMeasurementLevelDescriptionBADTargetBinary1=defaultedonloan,0=paidbackloanREASONInputBinaryHomeImp=homeimprovement,DebtCon=debtconsolidationJOBInputNominalSixoccupationalcategoriesLOANInputIntervalAmountofloanrequestMORTDUEInputIntervalAmountdueonexistingmortgageVALUEInputIntervalValueofcurrentpropertyDEBTINCInputIntervalDebt-to-incomeratioYOJInputIntervalYearsatpresentjobDEROGInputIntervalNumberofmajorderogatoryreportsCLNOInputIntervalNumberoftradelinesDELINQInputIntervalNumberofdelinquenttradelinesCLAGEInputIntervalAgeofoldesttradelineinmonthsNINQInputIntervalNumberofrecentcreditinquiries需要的结果-信用评分模型该信用评分模型给每一个贷款申请人计算还贷欺诈的概率。在此要设定一个阈值,欺诈概率超过阈值的那些申请人将建议不批准。建立项目和数据初步探索建造简单的过程流(Flow)1.假定MyProject项目的Project1框图是开着的,通过从工具条上(或Tools标签)拖动InputDataSource节点到diagram工作区把节点加到Project1框图中。2.把Multiplot节点工作区InputDataSource节点的右边.你的框图看起来如下图连接工作区的两个节点:开始时最后调用输入数据这个例子使用SAMPSIO文件夹的HMEQ数据集合.1.要指定数据集合,双击InputDataSource节点,或右击该节点并选择Open….Data标签处于激活状态.你的窗口如下:2.点击Select…来选择数据集合.或者把数据集合的名称键入进来。3.SASUSER文件夹是缺省文件夹.要浏览SAMPSIO文件夹的数据集合,点击并从这些文件夹里选择SAMPSIO4.从SAMPSIO文件夹的数据集合里选择HMEQ然后选OK.下面的对话框打开:5.可以看到该数据集合里有5,960个观测(行)和13个变量(列).SAMPSIO.HMEQ是源数据.注意在右下角指示的是metadata(元数据)样本大小为2,000.所有分析包必须决定在分析中如何使用变量.EM使用元数据对如何使用每一个变量作一个初步的评估。按缺省方式,它从感兴趣的数据集合里随机抽取2,000个观测记录,并使用这里的信息为每一个变量确定其模型中的作用和变量类型。要抽取一个较大的样本,你得选择对话框右下角Change…按钮.1.点击Variables标签可看到所有的变量及其相关的指定.2.点击第一列的标头,Name,这些变量就按名称的顺序排列。把窗口拉大你会看到所有的变量。下表显示了13个变量的部分信息.注意有两列显灰色。这些列代表这个节点里不能改变的SAS数据集合的信息。Type或者是字符型(char)或者是数值型(num),它对一个变量如何被使用有影响。2,000元数据样本的Type的值和不重复数值个数用于确定模型以及测量水平.第一个变量BAD是目标变量.尽管BAD是数据集合里的一个数值变量,EM把它认作binary(二元变量)因为在元数据样本里它只有两个不同的非缺失值。所有二元变量的模型角色的缺省设置都是输入变量(input)。在做分析之前你需要把BAD的模型角色改为目标变量。Thenextfivevariables(CLAGEthroughDEROG)havethemeasurementlevelintervalbecausetheyarenumericvariablesintheSASdatasetandhavemorethan10distinctlevelsinthemetadatasample.Themodelroleforallintervalvariablesissettoinputbydefault.ThevariablesJOBandREASONarebothcharactervariablesinthedataset,buttheyhavedifferentmeasurementlevels.REASONisbinarybecauseithasonlytwodistinctnonmissinglevelsinthemetadatasample.ThemodelroleforJOB,however,isnominalbecauseitisacharactervariablewithmorethantwolevels.Forthepurposeofthisanalysis,treattheremainingvariablesasintervalvariables.Attimes,variablessuchasDEROGandDELINQwillbeassignedthemodelroleofordinal.Avariableislistedasordinalwhenitisanumericvariablewithmorethantwobutnomorethantendistinctnonmissinglevelsinthemetadatasample.Thisoftenoccurswithcountingvariables,suchasavariableforthenumberofchildren.Becausethisassignmentdependsonthemetadatasample,themeasurementlevelofDEROGorDELINQforyouranalysismightbesettoordinal.Allordinalvariablesaresettohavetheinputmodelrole;however,youtreatthesevariablesasintervalinputsforthepurposeofthisanalysis.确定目标变量BAD是这个分析的反应变量,因此要把BAD的模型作用改为target.要改变模型作用信息,方法如下:1.把光标头指向BAD行的ModelRole一栏并右击。2.从弹出菜单选择SetModelRoletarget.检查分布你可以检查元数据样本里每一个变量的数值分布。要查看BAD的分布:1.把光标头指向BAD变量Name栏.2.右击鼠标,你可以按名称给变量排序、找变量、或者查看BAD的分布.3.选择ViewDistributionofBAD查看BAD的分布Toobtainadditionalinformation,selectthetheViewInfotool,,fromthetoolbaratthetopofthewindowandclickononeofthebars.EnterpriseMinerdisplaysthelevelandtheproportionofobservationsrepresentedbythebar.Theseplotsprovideaninitialoverviewofthedata.Forthisexample,approximately20%oftheobservationswereloanswheretheclientdefaulted.Becausetheplotsarebasedonthemetadatasample,theymayvaryslightlyduetothedifferencesinthesampledobservations,butthebarforBAD=1shouldrepresentapproximately20%ofthedata.ClosetheVariableHistogramwindowwhenyouarefinishedinspectingtheplot.Youcanevaluatethedistributionofothervariablesasdesired.修改变量信息保证余下变量的模型作用和测量水平信息是正确的。如果必要,可以把DEROG的测量水平改为interval.要修改测量水平信息:1.把光标头指向DEROG行的测量(Measurement)栏,并右击鼠标2.从弹出菜单选择SetMeasurementinterval查看描述统计量元数据可用来计算描述统计量。选择IntervalVariables标签你可以查看连续变量的最小值、最大值、均值、标准差、缺失记录的百分数、偏度和峰度。根据数据的商务知识,查看最小值和最大值指的是有没有异常值。注意DEBTINC变量的缺失值百分数很高(21%).选择类别变量ClassVariables标签查看数据的水平级数、缺失值百分数、以及变量的排序方式。注意BAD变量是降序,而其它变量是升序。这是因为它是二元目标变量。通常对于二元变量当事件发生时编码为1否则为0。降序排序使得1成为第一个水平,是二元变量的目标变量。在回归模型里把其它类似编码的二元变量按降序排列对于解释参数估计也是有用的。关闭InputDataSource节点,并存储这些改变。其它的数据探索EM的其它工具可让你进一步探索数据。工具之一是Multiplot(多图)节点.Multiplot节点建立一系列的直方图和条形图可使你检查输入变量和二元目标变量的关系。1.右击Multiplot节点并选择Run.2.在出现的弹出框里选Yes浏览结果.通过使用键盘上的PageDown,你可以浏览关于该数据的直方图。从这个直方图你可以知道许多的欺诈贷款是由债务收入比高或者债务收入比未知的购房者造成的。2.2数据划分了解DataPartition(数据划分)节点查看数据划分节点的缺省设置1.把DataPartition节点放到框图里.2.把DataPartition节点和CRSSAMP.HMEQ节点连起来.3.打开DataPar

1 / 32
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功