高级统计学2

pop1748
0 ℃
2020-09-15

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

定性数据的建模列联表及列联表分析对数线性模型的基本理论和方法对数线性模型的SPSS实现Logistic回归基本理论和方法Logistic回归步骤以及SPSS实现12345列联表及列联表分析研究两个属性变量之间是否有联系研究步骤：通过问卷调查或统计资料获得属性变量的信息整理问卷或统计资料获得列联表数据通过统计假设检验两个属性变量是否具有独立性女性人口学研究教育婚姻合计合计大学大学以下结婚一次结婚多次5506168114461182512312051436频数列联表1AAB合计合计2A3A1B2B11n12n22n21n32n31n2n1n2n1n3nn事件发生的概率A事件与同时发生的概率频率列联表1A1B1A1AB合计合计2A3A1B2B11p12p22p21p32p31p2p1p2p1p3p1事件发生的概率1B统计假设与检验零假设：属性变量A与B相互独立检验统计量及其分布：n足够大~决策规则：对给定的显著性水平,若则拒绝零假设.IiJjjijiijpppppn1122)()]1)(1[(2JI)]1)(1[(22JI)]1)(1[(2JI检验统计量的计算IiJjjijiijIiJjjijiijnnnnnnnpppppn1121122)()(1436825205)1436825205144(14368251231)14368251231681(1436611205)143661120561(14366111231)14366111231550(2222零假设：婚姻状态与教育水平没有关系检验统计量及其分布：n足够大决策规则：对给定的显著性水平0.05则拒绝零假设，即婚姻状态与教育水平有关联.84.3)1(01.16205.0201.16)(212122ijjijiijnnnnnnnSPSS实现数据结构属性变量1属性变量2Gender*EmploymentCategoryCrosstabulationCount20601021615727742583632784474FemaleMaleGenderTotalClericalCustodialManagerEmploymentCategoryTotalChi-SquareTests79.277a2.00095.4632.000474PearsonChi-SquareLikelihoodRatioNofValidCasesValuedfAsymp.Sig.(2-sided)0cells(.0%)haveexpectedcountlessthan5.Theminimumexpectedcountis12.30.a.对数线性模型的基本理论和方法研究两个属性变量之间的关联方式研究方法：双因素方差分析频率的分解A1AB均值均值2A3A1B2B11122221323121213频率对数表)ln(ijijp频率对数分解式)()()(jiijjiijijji属性A的效应属性B的效应A与B的交互效应0jijiijji=0属性A与B相互独立ijjiijplnjiepijjiijpppIiJjIiJjijjieep11111ji,所有属性间的关联度分析ij正效应独立负效应某个在统计意义上是否为零需要进行假设检验ij的估计ijIiJjijIiijJjijijIiJjijIiijJjijijjiijijnIJnInJnpIJpIpJp11111111ln1ln1ln1lnln1ln1ln1ln对数线性模型的SPSS实现1AAB合计合计2A3A1B2B11n12n22n21n32n31n2n1n2n1n3nn频数列联表SPSS中的数据输入21n12n22n频数A水平B水平12312311122232n11n31n例题某企业想了解顾客对其产品是否满意,同时还想了解不同收入的人群对其产品的满意程度是否相同.在随机发放的1000份问卷中收回有效问卷792份,根据收入高低和满意回答的交叉分组数据如下:列联表与对数线性模型的估计结果满意不满意高中低合计合计53384341081114859819491542159792数据结构激活频数对数线性模型的SPSS实现过程Logistic回归基本理论和方法研究某一事件发生的概率P=P(y=1)与若干因素之间的关系qqxxp110在0和1之间任意范围之间的数量若干个状态的标量logistic变换logistic变换Logistic回归模型),(1lnppqqxxpp1101ln优势比概率p的预测P与多因素之间的关系预测qqqqxxxxeep1101101)(11011qqxxepqqxxpp1101lnP与单因素之间的关系图px1xxeep1010101最可能成功范围最不可能成功范围回归系数的含义优势比(OddsRatio)—事件发生与不发生的概率比优势比与单变量系数之间的关系qqxxeppOR1101),,,,,(),,1,,,(2121qiqixxxxORexxxxORi优势比减小优势比增加00iiLogistic回归系数的估计(分组数据)n组观测数据结构：iN序号x参加调查总数事件出现次数im事件出现频率iiNmLogistic变换12ni1x2xixnxiN1N2NnN1m2mimnm1p2pnpip])1(ln[iipp1p2pipnp拟合模型其中近似服从iiixp10i))1(1,0(2iiippNNni,,2,1权(weight)回归模型具有异方差性转换成经典回归模型(加权最小二乘)iiiiiiiiiiiiiiippNxppNppNpppN)1())1(()1()1(10iiiiuXXz1100iu),0(2N其中近似服从例题在一次住房展销会上,与房地产商签订初步购房意向书的共有n=325名顾客.在随后的三个月里,只有一部分顾客确实购买了房屋.以顾客的年家庭收入x(万元)为自变量,建立Logistic回归模型.点击Logistic回归系数的估计(未分组数据)n组观测数据：~与的关系);,,,(21iiqiiyxxxiyiqiixxx,,,21qqqqxxxxiieepyE1101101)(),1(ipBiy未分组数据结构参数的极大似然估计的分布函数的似然函数iyiiyiyiippyp1)1()(nyyy,,21niniyiyiiiippypL111)1()(似然函数的对数表达利用迭代法求解似然函数对数的最大值点就是参数的极大似然估计，记为：niiiiipypyL1)]1ln()1(ln[lnnixxiqqiiiqqiexxy1110)]1ln()([110qˆ,,ˆ,ˆ10拟合的优良性212)(ˆiiD回归模型的优良性拟合优度回归系数的显著性-2log(L)Wald=2Rgoodness-of-fitstatisticsHosmer-LemeshowTest零假设：因变量实际分布与预测的分布无差异决策准则：拒绝零假设模型不显著例题(估计金融机构正常运转的概率)Detectingailingfinancialandbusinessestablishmentsisanimportantfunctionofauditandcontrol.Table1givessomeoftheoperatingfinancialratiosof33firmsthatwentbankruptafter2yearsand33thatremainedsolventduringthesameperiod.Threefinancialratioswereavailableforeachfirm:IndependentsandDependentassetstotalearningretainedX1assetstotaltaxesandinterestbeforeearningX2assetstotalsalesX3yearsaftersolventifyearsafterbankruptifY2120ResponseVariableLogistic回归步骤以及SPSS实现点击1点击2点击1点击2点击属性变量点击1点击2可选可选变量的选择21第二步第三步第一步分别计算p个变量和p-1个变量模型的-2LL(P)和-2LL(p-1)计算2[LL(p)-LL(p-1)]服从如果2[LL(p)-LL(p-1)]不应删除变量84.3)05.0(21科研教案庞素林.Logistic回归模型在信用风险中的应用.数学的实践与认识.2006,36(9):129~137判别模型建立的基本步骤样本分组将样本分成训练样本组和测试样本组建模过程利用训练样本建立分类模型评价过程利用测试样本评价模型的精度第二步第三步第一步摘要通过运行SPSS,建立Logistic回归信用评价模型(creditevaluationmodel),用来对中国2000年106家上市公司进行两类模式分类,这两类模式是指按照公司的经营状况分为“差”和“正常”两个小组.对每一家上市公司,考虑其经营状况的4个主要财务指标:每股收益、每股净资产、净资产收益率和每股现金流量.仿真结果表明,Logistic回归信用评价模型对总体106个样本,判别准确率达到99.06%.此外,本文的研究结果还发现,当利用SPSS的Discriminant给出的模型系数建立的线性判别分析模型和利用SPSS的MultinomialLogistic给出的模型参数建立的Logistic回归模型,Logistic回归模型的判别结果不如线性判别模型.但如果剔除不合格的样本,或是将样本数据规格化,则可以提高Logistic回归模型的分类准确率.引言中提及的一些研究结果Martin(1977)用Logistic模型预测公司破产及违约的概率Ohlson(1980)将Logistic模型应用于信用风险分析Madalla(1983)采用Logistic模型区别违约与非违约贷款申请人DavidWest(2000)利用5种神经网络和5种统计分类模型(线性判别分析、Logistic回归分析、K最近邻法、核密度分类法、分类树法)分别对德国和澳大利亚两组财务数据进行两类模式分类,研究结果表明：Logistic模型的判别准确率最高，分别为76.3%和87.25%.一个一般结论数据满足正态分布Logistic回归模型与判别分析模型具有相同的判别准确率yesNoLogistic回归模型的判别准确率高于判别分析模型的判别准确率本研究结论当Logistic回归模型和判别分析模型都通过运行SPSS软件来估计模型参数并建立相应模型时,线性判别分析模型优于Logistic回归模型.Logistic模型)](exp[11)(443322110xcxcxcxccpyE每股净收益每股净资产净资产收益率每股现金流量财务状况正常公司陷入财务危机公司iiyi1ST)(0106,,2,1i判别法则财务状况正常公司陷入财务危机公司iipi1