第二章系统因素分析方法--数量化理论方法吉林大学杨印生基本内容框架1、基本概念2、数量化理论Ⅰ3、实例4、说明1、基本概念•数量化理论(theoryofquantification)方法是多元统计分析的一个分支,目的是定量地估计定性变量对一个称为目标变量的影响。•该理论起源于20世纪50年代。变量的分类•根据变量的地位不同:说明变量(explanatoryvariable)或自变量。基准变量(criterionvariable)或因变量。•根据变量的性质不同:定性变量——性质上差别,如性别,职业定量变量——数量上变化,如年龄,重量定量变量和定性变量之间可以相互转化•(1)定量化为定性•在图1的态度量表上取值的变量是定量度量,如果以小于等于3归为“不同意”,大于3归为“同意”,则可实现从定量变量到定性变量的转化。12345很不同意一般很同意图1态度量表定量变量和定性变量之间可以相互转化•(2)定性化为定量•如图2表示一个定性变量的不同反应,根据统计经验,可对优、良、可、差、劣分别赋予语义值1.00,0.80,0.64,0.30,0.20,则可实现从定性变量到定量变量的转化。劣差可良优图2态度量表•数量化理论中,把定性变量称为项目(item),把定性变量的各种取“值”称作类目(category),如,文化程度是项目,而小学以下,初中、高中、专科、大学本科、研究生等是这个项目的类目。2、数量化理论Ⅰ•数量化理论Ⅰ是用于自变量都是定性变量,基准变量是定量变量的因素分析与预测问题,采用说明性多变量模拟线性表示式中基准变量的定量变化。•假设问题涉及m个项目,考虑对基准变量y的影响,从而对y进行预测。第i个项目有Ci个类目,i=1,2,…,m,共有个类目。对于样品w,y(w)表示基准变量的值,为定性变量,表示第i个项目的第k个类目,i=1,2,…,m;k=1,2,…,Ci。当且仅当样品w有第i项目第k类目的特性时,有;反之,12,,...,mxxx1miiCp()ikxw()1ikxw()0ikxw•假设有n个样本观测,原始数据为:111111211111211111211[()][(1),(2),....()][()](1)(1)...(1)...(1)...(1)(2)(2)...(2)...(2)...(2).........()()...()...()...()mmmTikCmmCCmmCCmmCYywyyynXxwxxxxxxxxxxxnxnxnxnxn•X称为反应矩阵,满足对i,j有。•假设基准变量与各项目、各类目间存在线性关系:•其中表示i项目的k类目对基准变量的影响,即是定性变量的一个数量化。是第j次抽样中的随机误差。ika1()1iCikkxj11(),1,2,...(1)iCmjikikjikyxjajnika()ikxwj令系数向量误差向量则式(1)可以写为Y=XA+E于是把所解问题归结为求一个使误差为极小值的线性函数Y=XA*+E*1112[][,,...,]mTikmCAaaaa12[][,,...,]TwnE•由最小二乘法知A*就是定性类目的数量化,就是预测的理论值。•衡量预测精度的指标有两个:一是复相关系数,由下式求得:2121ˆ()()njjyynjjyyrryy复ˆ*YXA1*()TTAXXXy一个是剩余均方:越大或越小,说明预测精度越高;反之,越小或越大,则预测的精度越低。考虑每一个项目对基准变量的贡献度,有下面三个指标可以选择:•第一个指标是偏相关系数,按下面步骤进行计算,令21ˆ()(--1)njjjyynm剩r复r复剩剩()1(1)()1()()()()1(),1,...,;1,2,...,1,2,...,1(),1,2,...,,1,,1,2,...,,1,,1,2,...,,1iCijikikkmjjnujjnuuvvuvjjjuvuvuuvvxxjaimjnxyjnxuxummnSxxxxuvmmSruvmmSS•这样便可以得到m+1个变量(包括基准变量在内)之间的样本相关矩阵为:111211212221111211.....................mmmmmmrrrrrrRrrr•以表示R的逆矩阵中的(u,v)元素,则第u个项目与基准变量y间的样本偏相关系数为:uvr1R1,11umyuuummrrr•第二个指标是方差比,可按下式计算:•第三个指标是个项目的量程(范围)在使用过程中,可同时算出偏相关系数、方差比和量程,综合计算各项目的贡献度。()()221221(),1,2,...,()niijjinyjjxximyy11()maxmin,1,2,...,iiikikkCkCrangeiaaim3、实例•大家知道,一个人的负重能力与体重和性别有关,负重能力以负重多少来测定,它是定量基准变量,体重是定量变量,可以通过如下规则变为定性变量,轻:小于100斤;中:大于等于100斤且小于等于130斤;重:大于130斤。性别有两个类目,即男、女。为了求得负重能力与体重、性别的关系,测得10个样本的原始数据,如表1所示:表1样品项目类目体重性别基准变量轻中重x11x12x13女男x21x22123456789103567911977610001000110001000110001000101010101001010101011010•由表1的原始数据,用数量化理论Ⅰ,可得如下结果:•其预测方程为:为计算预测精度,先计算出表211121321223.81,4.86,6.74,0,3.79aaaaa111213223.814.866.743.79yxxxx表2j12345678910yj356791197763.814.866.747.598.6410.527.598.646.744.86-0.810.14-0.74-0.60.360.481.40-1.640.261.14由表2可算出复相关系数,可见,预测精度相当高。再计算出偏差相关系数、方差比及量程如表3所示:ˆjyˆjjyy0.91r复由表3知,三个指标同时表明,第二个指标(性别)对负重能力的贡献度较大。项目12偏相关系数方差比量程0.780.292.930.900.783.79表34、说明(1)使用数量化理论Ⅰ时,样品数不能过少,一般应大于2P,其中P为类目总数。(2)数量化理论Ⅱ是基准变量和说明变量都是定性变量,解决对样本进行判别分类的问题。与多元统计分析中的判别分析类似,目的是求出以定性的说明变量为自变量的线性判别函数,然后确定数据,由此即可对样品进行分类。(3)数量化理论中变量之间的关系非线性时,值得完善。(4)对于定性类目的量化为隶属度,定量变量为模糊数的情况,可以使用模糊数量化理论方法。0.91r复TheEnd!