定性数据的数量化

hekangle
3 ℃
2020-03-09

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

定性数据的数量化•数学建模会遇到各种各样的实际问题,在许多问题中经常会遇到分类变量.像前两年全国的竞赛题,公务员招聘问题中专家对应聘者的考评,出版社资源分配问题中读者对出版物评价,部门或图书的分类等等,都是一些定性数据.•如何处理这些分类变量的定性数据?一种办法是直接按定性数据建模.如统计数据处理中的对数线性模型,Logit模型等等.有很多情况需要将定性数据数量化,再按数量数据用于建立数学模型.这就要求定性数据数量化一定要合理,否则即使模型是合理的、可行的,但分析结果会脱离实际,没有意义.•如何合理地将定性数据数量化?•定性数据有两大类:一类数据是有顺序的,也就是有大小、优劣等顺序,如专家对应聘者的考评、读者对出版物评价等等.另一类数据则是无顺序,仅有名义,如部门或图书的分类等等.•对有顺序的定性数据往往可直接数量化,但直接将几个等级数量化成1、2、3、4是不可取的.如出版社资源分配问题中读者对出版物评价有{不好,勉强可以,一般,较好,非常好}五个等级,但现实中人们对这些等级有确定的认知,不能认为这些等级是等距的,通常人们对不满意程度的敏感远远大于对满意程度的敏感.对这些等级量值的认定是一个与心理学有关的问题.•一般应选择这种形状的赋值曲线•心理学文献处理的方法是采用七级(或九级)评价:{很不好,不好,不太好,一般,比较好,挺好,非常好},相应标为{1,2,3,4,5,6,7},找一个符合正常心态的风险厌恶型的赋值曲线,如柯西型函数21117[()]()lnxxcfxaxbcx式中为待定参数,c为等级中基本可接受的等级值,比如在上述分级中{一般}是可接受的等级,则c=4.然后,最低的定为接近0,即f(1)=0.01,最高的定为1,f(7)=1,再认定f(c)=f(4)=0.7,这就可确定出参数最后定出各等级的量化值7ln1])(1[{)(12xcbxacxxxfba,,,0451.0,5371.0,7798.0,8003.4ba1)7(,9173.0)6(,8193.0)5(,7.0)4(5066.0)3(,2367.0)2(,01.0)1(fffffff•名义定性变量如何数量化?名义分类没有量的概念,不可能对前面顺序变量那样,根据人们对各等级的认知,给出各等级的数量值.给名义分数量化,需要结合具体情况,需要有具体个体的实测数据,也就是说要有一批样本,再使用统计的分析研究,按照统计学一些准则,赋予适当的数量值.下面分几种情形分别考虑.(I)有数量外基准值Y场合的量化这时样本数据形式为项目1c11----c1K12c21----c2K2RcR1----cRKR类YY1Y2--Yi--Yn111111111111Y在第j个项目有cjk类的反应,则在相应位置记1,对一个项目只能有一种类反应,且必有一种类反应.我们可以定义显然有这样,当我们给cjk赋予数量值xjk时,考虑简单的线性关系的话,第i个体由分类项目1---R确定的值为类反应项目无在第类反应项目有在第kjYkjYjkiii01{)(,0)()(,1)(1'jkkiiijkjkjkjkjkiixjk)(以Y作为基准,当然要求α与Y“相近”或相关程度高,依最小二乘的准则,用度量“相近”,因此我们要选择xjk使Q达到最小,这与经典线性回归分析中求解回归方程参数的要求是一样的.可以用微分求极值的方法,建立正规方程从中解出xjk.jkjkiniiniiixjkYYQ2121))(()(uinijkiiuvkvRuuvjkYxQ1,1,0)())((21用矩阵形式比较简洁.给以矩阵记号由于各项目对每一个i全体类的之和均为1,为使A满秩,从2---R各项目删除一列,相应的xr1取值0,r=2---R.按矩阵记号)()2()2()22()1()11()()2()2()22()1()11()()2()2()22()1()11(212222212211211111RnnnnnnRRRkRkkRkRkkRkRkkA)(jki)()('AxYAxYQ正规方程为解出实际上,可以用现成的回归分析软件求出x,只要输入向量Y和矩阵A,即可.在数量化的基础上可以做一些相应的数值分析,如由x预y,分析1---R这些分类变量间的关系等等0)(2AxYAxQjkYAAAxAxAYA1)(,(II)有分类外基准场合的量化外基准是样本个体的分类,而不是数值变量.此时数据形式为项目分类类1c11----c1k12c21----c2k2------RcR1----cRkR11111-----------n1111---T1111-----------nT111样本总量n=n1+n2+---+nT,我们仍然给予cjk量值xjk,R个项目间考虑为加性,仍然记则有类反应项目无在第类反应项目有在第kjYkjYjkiii01{)(Ttjktntitittjkjktiitnijkjkijkjkiinjkgjkjkgjkgxxjknnxjkt11)()(tn1)(t1)(,)()(),(n1n1)(1)(t有其中而各分组的组内均值为个个体的均值为全体可以求得α的方差和组间方差显然应该要求经计算,可得212212122212)(,1)(1TtttTtttbniiniinnnnnnuvuvbuvbxxx2222222,0.或建立正规方程最大jkjkjkuvjkjkniiiuvjkjkjkuvjkjkTttttuvbxnnnxjkuvnxxnnnxnjkguvgnx2122122))()((2,2))()((2代入前面的式子,得下列方程组用矩阵记号,记H=[h(uv,jk)]F=[f(uv,jk)],则方程组为Hx=η2Fx,x’=(x11,--,x1k1,---,xR1,--,xRkR)即[F-1H-η2I]x=0,)()(,1)()(),(,1)()(),(1,1,),(),(11112TttniijkjkuvniiijkuvTttttujkjkjkjkjkgjknnnnjkuvjkuvfnnnnjkguvgjkuvhkvRuxjkuvfxjkuvh其中方程组[F-1H-η2I]x=0要x有非零解,则η2应是F-1H的特征根,x是相应的特征向量.若有s个非零特征根η12η22---ηs2则可求得x的s组解,可从大到小取定需要的组数,每一个解确定一个一维的分类判定准则,几个准则一起可确定多维分类判定准则.这种情形的数量化实际上与多元Fisher判别类似,可以用其相应的软件进行计算.(III)无外基准场合的量化样本数据直接记成下列形式,出现相同特征的个体应该相近,反之在相同个体中出现的特征应该相近.为了衡量个体与特征间的亲近关系,若个体有值yi,i=1—Q,特征Lj有值xj,j=1---R,可以定义两者间相关系数.个体特征L1L2----------LRS1个1S2个2------------SQ个Q11111-----------11上面的数据表与二变量二维列联表很相似,二维列联表对二维变量(Y,X)由列联表可计算出YXx1x2x3y1n11n12n13n1+y2n21n22n23n2+n+1n+2n+3nxyxynNcxxnNyynNxnxnxnNxynynNyjiijijxyjjjxiiiy2131223122221233221122111,1.1),(1),(1对数据表作类似的计算,定义则整个表可表示如下并记型个体无特征型个体有特征,,)(1,101{)(1R1NmsmjRjQiLiLijQiiiijijjiYXx1---xj---xRy1δ1(1)s1δ1(j)s1δ1(R)s1s1m1--yiδi(1)siδi(j)siδi(R)sisimi--yQδQ(1)sQδQ(j)sQδQ(R)sQsQmQδ1(1)s1+--+δQ(1)sQδ1(j)s1+--+δQ(j)sQδ1(R)s1+--+δQ(R)sQN依列联表的计算则易得这样要使ρ达最大,解正规方程xyxyQiRjjiiixyRjQijiixQiiiiyQiiiiRjQijiicyxxysjNcxxsjNyymsNymsNyxsjNx,)(1,)(1,1,1,)(111211222122111iyyxixyjxxyjxyijyycxxcyx)(,)(20,022或者)()])()()((1)()([))()((1)()1(,1,)()()()1())((1)(11,2)())()()((1)([))()((1)(1,2111111111111211111112CskxsjNxsmjkskymsNyskRkQhskBBymsNyxsjNxjmQhyycAskxsjNxskskymsNysjRkxxcQhhhRjjQiiijiRjQiiiixyQhhhQiiiiQhhhhhhxyQiiiihyxRjjQiiiRjjihhyyxhxyQiiiRjjQiiikQiiixyQiiiQiiiiQiiiikxxykxy对得求和再对式乘上有对从有对从为了有非零解,ρ2应为矩阵F-1A的特征根,解x为相应的特征向量.y易由x导出.kjbdkjbffFaAFxAxskdsksjNbsksjNsmkjaRkxbxdxaxyACjkkjkjkjkjkQiiikQiQiiiiijkQiQiiiiiiQiiiijkRjjjkkkRjjjk当当为式上述方程组写成矩阵形其中的方程组可得关于消去和从式{],[],[,,)())()()((1,))()()((1)()(1),(,)()(2111111121参考文献:林知已夫著,数量化の方法,东洋经济新报社.林知已夫、村山孝喜著,市场调查の计画と实际,日刊工业新闻社