定性数据的建模列联表及列联表分析对数线性模型的基本理论和方法对数线性模型的SPSS实现Logistic回归基本理论和方法Logistic回归步骤以及SPSS实现12345列联表及列联表分析研究两个属性变量之间是否有联系研究步骤:通过问卷调查或统计资料获得属性变量的信息整理问卷或统计资料获得列联表数据通过统计假设检验两个属性变量是否具有独立性女性人口学研究教育婚姻合计合计大学大学以下结婚一次结婚多次5506168114461182512312051436频数列联表1AAB合计合计2A3A1B2B11n12n22n21n32n31n2n1n2n1n3nn事件发生的概率A事件与同时发生的概率频率列联表1A1B1A1AB合计合计2A3A1B2B11p12p22p21p32p31p2p1p2p1p3p1事件发生的概率1B统计假设与检验零假设:属性变量A与B相互独立检验统计量及其分布:n足够大~决策规则:对给定的显著性水平,若则拒绝零假设.IiJjjijiijpppppn1122)()]1)(1[(2JI)]1)(1[(22JI)]1)(1[(2JI检验统计量的计算IiJjjijiijIiJjjijiijnnnnnnnpppppn1121122)()(1436825205)1436825205144(14368251231)14368251231681(1436611205)143661120561(14366111231)14366111231550(2222零假设:婚姻状态与教育水平没有关系检验统计量及其分布:n足够大决策规则:对给定的显著性水平0.05则拒绝零假设,即婚姻状态与教育水平有关联.84.3)1(01.16205.0201.16)(212122ijjijiijnnnnnnnSPSS实现数据结构属性变量1属性变量2Gender*EmploymentCategoryCrosstabulationCount20601021615727742583632784474FemaleMaleGenderTotalClericalCustodialManagerEmploymentCategoryTotalChi-SquareTests79.277a2.00095.4632.000474PearsonChi-SquareLikelihoodRatioNofValidCasesValuedfAsymp.Sig.(2-sided)0cells(.0%)haveexpectedcountlessthan5.Theminimumexpectedcountis12.30.a.对数线性模型的基本理论和方法研究两个属性变量之间的关联方式研究方法:双因素方差分析频率的分解A1AB均值均值2A3A1B2B11122221323121213频率对数表)ln(ijijp频率对数分解式)()()(jiijjiijijji属性A的效应属性B的效应A与B的交互效应0jijiijji=0属性A与B相互独立ijjiijplnjiepijjiijpppIiJjIiJjijjieep11111ji,所有属性间的关联度分析ij正效应独立负效应某个在统计意义上是否为零需要进行假设检验ij的估计ijIiJjijIiijJjijijIiJjijIiijJjijijjiijijnIJnInJnpIJpIpJp11111111ln1ln1ln1lnln1ln1ln1ln对数线性模型的SPSS实现1AAB合计合计2A3A1B2B11n12n22n21n32n31n2n1n2n1n3nn频数列联表SPSS中的数据输入21n12n22n频数A水平B水平12312311122232n11n31n例题某企业想了解顾客对其产品是否满意,同时还想了解不同收入的人群对其产品的满意程度是否相同.在随机发放的1000份问卷中收回有效问卷792份,根据收入高低和满意回答的交叉分组数据如下:列联表与对数线性模型的估计结果满意不满意高中低合计合计53384341081114859819491542159792数据结构激活频数对数线性模型的SPSS实现过程Logistic回归基本理论和方法研究某一事件发生的概率P=P(y=1)与若干因素之间的关系qqxxp110在0和1之间任意范围之间的数量若干个状态的标量logistic变换logistic变换Logistic回归模型),(1lnppqqxxpp1101ln优势比概率p的预测P与多因素之间的关系预测qqqqxxxxeep1101101)(11011qqxxepqqxxpp1101lnP与单因素之间的关系图px1xxeep1010101最可能成功范围最不可能成功范围回归系数的含义优势比(OddsRatio)—事件发生与不发生的概率比优势比与单变量系数之间的关系qqxxeppOR1101),,,,,(),,1,,,(2121qiqixxxxORexxxxORi优势比减小优势比增加00iiLogistic回归系数的估计(分组数据)n组观测数据结构:iN序号x参加调查总数事件出现次数im事件出现频率iiNmLogistic变换12ni1x2xixnxiN1N2NnN1m2mimnm1p2pnpip])1(ln[iipp1p2pipnp拟合模型其中近似服从iiixp10i))1(1,0(2iiippNNni,,2,1权(weight)回归模型具有异方差性转换成经典回归模型(加权最小二乘)iiiiiiiiiiiiiiippNxppNppNpppN)1())1(()1()1(10iiiiuXXz1100iu),0(2N其中近似服从例题在一次住房展销会上,与房地产商签订初步购房意向书的共有n=325名顾客.在随后的三个月里,只有一部分顾客确实购买了房屋.以顾客的年家庭收入x(万元)为自变量,建立Logistic回归模型.点击Logistic回归系数的估计(未分组数据)n组观测数据:~与的关系);,,,(21iiqiiyxxxiyiqiixxx,,,21qqqqxxxxiieepyE1101101)(),1(ipBiy未分组数据结构参数的极大似然估计的分布函数的似然函数iyiiyiyiippyp1)1()(nyyy,,21niniyiyiiiippypL111)1()(似然函数的对数表达利用迭代法求解似然函数对数的最大值点就是参数的极大似然估计,记为:niiiiipypyL1)]1ln()1(ln[lnnixxiqqiiiqqiexxy1110)]1ln()([110qˆ,,ˆ,ˆ10拟合的优良性212)(ˆiiD回归模型的优良性拟合优度回归系数的显著性-2log(L)Wald=2Rgoodness-of-fitstatisticsHosmer-LemeshowTest零假设:因变量实际分布与预测的分布无差异决策准则:拒绝零假设模型不显著例题(估计金融机构正常运转的概率)Detectingailingfinancialandbusinessestablishmentsisanimportantfunctionofauditandcontrol.Table1givessomeoftheoperatingfinancialratiosof33firmsthatwentbankruptafter2yearsand33thatremainedsolventduringthesameperiod.Threefinancialratioswereavailableforeachfirm:IndependentsandDependentassetstotalearningretainedX1assetstotaltaxesandinterestbeforeearningX2assetstotalsalesX3yearsaftersolventifyearsafterbankruptifY2120ResponseVariableLogistic回归步骤以及SPSS实现点击1点击2点击1点击2点击属性变量点击1点击2可选可选变量的选择21第二步第三步第一步分别计算p个变量和p-1个变量模型的-2LL(P)和-2LL(p-1)计算2[LL(p)-LL(p-1)]服从如果2[LL(p)-LL(p-1)]不应删除变量84.3)05.0(21科研教案庞素林.Logistic回归模型在信用风险中的应用.数学的实践与认识.2006,36(9):129~137判别模型建立的基本步骤样本分组将样本分成训练样本组和测试样本组建模过程利用训练样本建立分类模型评价过程利用测试样本评价模型的精度第二步第三步第一步摘要通过运行SPSS,建立Logistic回归信用评价模型(creditevaluationmodel),用来对中国2000年106家上市公司进行两类模式分类,这两类模式是指按照公司的经营状况分为“差”和“正常”两个小组.对每一家上市公司,考虑其经营状况的4个主要财务指标:每股收益、每股净资产、净资产收益率和每股现金流量.仿真结果表明,Logistic回归信用评价模型对总体106个样本,判别准确率达到99.06%.此外,本文的研究结果还发现,当利用SPSS的Discriminant给出的模型系数建立的线性判别分析模型和利用SPSS的MultinomialLogistic给出的模型参数建立的Logistic回归模型,Logistic回归模型的判别结果不如线性判别模型.但如果剔除不合格的样本,或是将样本数据规格化,则可以提高Logistic回归模型的分类准确率.引言中提及的一些研究结果Martin(1977)用Logistic模型预测公司破产及违约的概率Ohlson(1980)将Logistic模型应用于信用风险分析Madalla(1983)采用Logistic模型区别违约与非违约贷款申请人DavidWest(2000)利用5种神经网络和5种统计分类模型(线性判别分析、Logistic回归分析、K最近邻法、核密度分类法、分类树法)分别对德国和澳大利亚两组财务数据进行两类模式分类,研究结果表明:Logistic模型的判别准确率最高,分别为76.3%和87.25%.一个一般结论数据满足正态分布Logistic回归模型与判别分析模型具有相同的判别准确率yesNoLogistic回归模型的判别准确率高于判别分析模型的判别准确率本研究结论当Logistic回归模型和判别分析模型都通过运行SPSS软件来估计模型参数并建立相应模型时,线性判别分析模型优于Logistic回归模型.Logistic模型)](exp[11)(443322110xcxcxcxccpyE每股净收益每股净资产净资产收益率每股现金流量财务状况正常公司陷入财务危机公司iiyi1ST)(0106,,2,1i判别法则财务状况正常公司陷入财务危机公司iipi1