第8章-对应分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

2019/12/18主编:费宇1主编:费宇中国人民大学出版社2019/12/18主编:费宇2第8章对应分析•8.1对应分析基本思想•8.2对应分析原理•8.3对应分析计算步骤•8.4案例2019/12/18主编:费宇38.1对应分析基本思想•第7章介绍的因子分析分为R型因子分析和Q型因子分析,R型因子分析是研究变量间的相关关系,而Q型因子分析是研究样品之间的相关关系.•本章讨论的对应分析(correspondenceanalysis)是R型因子分析和Q型因子分析的结合,利用降维的思想来达到简化数据结构的目的,它同时对数据表中的行和列进行处理,寻求以低维图表表示数据表中行与列之间的关系.2019/12/18主编:费宇48.1对应分析基本思想•对应分析是从R型因子分析出发,直接获得Q型因子分析的结果,从而克服由于样本容量大,作Q型因子分析所带来的计算上的困难,并且根据R型因子分析和Q型因子分析的内在联系,可将变量和样品同时反映在相同坐标轴上,便于对问题进行分析.2019/12/18主编:费宇58.1对应分析基本思想•对应分析通过由原数据矩阵Xn*p出发构建一个过渡矩阵Zn*p,然后得到变量之间的协方差矩阵A=Z’Z和样品之间的协方差矩阵B=ZZ’,由矩阵代数知识知,Z’Z和ZZ’有相同的非零特征值记为λ1≥λ2≥…≥λm,0mmin(n,p)如果A的特征值对应的特征向量为ui,而B的特征值λi对应的特征向量为.1=iiivΖu2019/12/18主编:费宇68.1对应分析基本思想•由于A和B的特征值正好是各个公共因子的方差,因此可以用相同的因子轴来同时表示变量点和样本点,即把变量点和样本点同时反映在具有相同坐标轴的平面上,以便对变量点和样本点一起进行分析.2019/12/18主编:费宇78.2对应分析原理•1.原始数据:设有n个样品,每个样品有p个变量,即数据矩阵为•对X的元素要求都大于0(否则,对所有数据同加上一个数使其满足大于0的条件).111212122212()ppijnpnnnpxxxxxxXxxxx2019/12/18主编:费宇81.原始数据•用xi.、x.j和x..分别表示X的行和、列和与总和,即1111ppnniijjijijjiijxxxxxx,,2019/12/18主编:费宇92.“概率”•2.“概率”•令,即,不难看出,,且,因而可解释为“概率”;类似地分别表示P矩阵的行和与列和.•如果我们将n个样品视为p维空间中的n个点,则这n个点的坐标为•即坐标是用变量在该样品中的相对比例来表示,于是对n个样品的研究转化为对n个样品点的相对关系的研究,如果对样品进行分类,就可以用样品点的距离远近来刻画.111pnijijp..()ijPXxp..ijijpxx11==,pniijjijjipppp01<<ijpijp121,2,,),,,,(ipiiiiipppinppp2019/12/18主编:费宇103.欧氏距离•3.欧氏距离•我们用欧氏距离来刻画两个样品点i与i’之间的距离:•这样定义的距离有一个缺点,如果第j个变量的概率较大时,(8.1)定义的就会偏高,因此我们用作权重,得到如下加权的距离公式22111(,)=(8.1)-piijiippDiipp-ijijiipppp1jp222111111(,)==(8.2)--ppiiiijjjiijijippppDiippppppp2019/12/18主编:费宇113.欧氏距离•3.欧氏距离•可以认为(8.2)式是坐标为的n个样品点中样品点i与i’之间的距离,而且这样定义的样品点的第j个变量的用概率pi.的加权均值为.于是可以写出样品空间中变量点的协方差矩阵为121,2,,),,,,(ipiijijijipppinpppppp111===1,2,,),(nnijjiijjiijijjpppppjppppp(8.3)ijppaA2019/12/18主编:费宇124.协方差矩阵•4.协方差矩阵•(8.3)式中111===nkjkiijiikkikjknkjkiikikkikjknkjjkkiikkikjkppappppppppppppppppppppppppppp2019/12/18主编:费宇134.协方差矩阵•若定义,令Z=(zij)则有A=Z’Z,即变量点的协方差矩阵可以表示为Z’Z.同理样本点的协方差矩阵可以表示为ZZ’.由矩阵代数知,A=Z’Z与B=ZZ’有相同的特征值,这些相同的特征值恰好表示各个公共因子所提供的方差,因此,变量空间Rp上的第一公共因子与样本空间Rn上的第一公共因子相对应,……,变量空间Rp上的第m公共因子与样本空间Rn上的第m公共因子相对应,且各对公共因子在总方差的百分比全部相同.===kiikkiikkiikkiikikikxxxPPPxxxxxxxzPPxxxxxx2019/12/18主编:费宇145.几何含义•5.几何含义•从几何上看,Rp空间中所有样本点与Rp中各因子轴的距离平方和,以及Rn空间中所有变量点与Rn中相对应的各因子轴的距离平方和完全相同,因此,可以把变量点和样品点同时反应在同一因子轴所确定的平面上,即取在同一坐标系中,根据变量点与变量点的的接近程度,样本点与样本点的接近程度,变量点与样本点的接近程度,来对样本点和变量点进行同时分析.2019/12/18主编:费宇158.3对应分析计算步骤1.由数据矩阵计算规格化的概率矩阵P2.计算过渡矩阵Z3.进行因子分析(1)R型因子分析(2)Q型因子分析(3)在同一坐标轴上作变量点图与样本点图2019/12/18主编:费宇168.4案例表8.12012年我国按收入等级分城镇居民家庭平均每人全年现金消费支出数据收入分组肉禽及其制品蛋类水产品奶及奶制品服装耐用消费品文化娱乐用品最低收入户767.5184.3173.39125.75494.8119.37144.68较低收入户946.7196.64235.6169.02746.36185.89209.6中等偏下户1088.3112.02308.75208.341018.94272.85284.93中等收入户1249.37125.68412.72260.071288.06395.16404.79中等偏上户1341.13133.33522.7308.81637.68532.17565.38较高收入户1480.4142.42630.61365.392067.91738.16793.42最高收入户1555.67147.05768.17423.343019.311195.761187.242019/12/18主编:费宇171.卡方检验•读入数据,R程序及结果如下:由于χ2值等于1030.123,p值远小于0.05,所以拒绝原假设H0,接受H1,认为因素A和因素B不独立,即收入与消费支出方向有密切联系,可进一步进行对应分析.X=read.csv(dyfxxjzc.csv,header=T)#读入名为dyfxxjzc的csv文件,并命名为XZ=X[,-1]#第一列为样本名称,不宜代入做分析chisq.test(Z)#卡方检验Pearson'sChi-squaredtestdata:ZX-squared=1030.123,df=36,p-value2.2e-162019/12/18主编:费宇182.行和列得分•计算行和列得分,R程序及结果如下(行得分):library(MASS)ca2=corresp(Z,nf=2)rownames(ca2$rscore)=X[,1]#将ca2$rscore的行命名为X的第一列样本名称ca2Firstcanonicalcorrelation(s):0.179332280.01896212Rowscores:[,1][,2]最低收入户-1.96830644-1.3285223较低收入户-1.44856190-0.9070070中等偏下户-0.97068022-0.4603836中等收入户-0.548453750.5670742中等偏上户-0.032328081.3639620较高收入户0.435074580.9414503最高收入户1.25763257-1.04535092019/12/18主编:费宇192.行和列得分•计算行和列得分,R程序及结果如下(列得分):Columnscores:[,1][,2]肉禽及其制品-1.36707828-0.4637594蛋类-1.59707661-1.1112356水产品0.027258552.6175325奶及奶制品-0.466976401.5261695服装0.48491880-0.2497690耐用消费品1.33266208-0.8879205文化娱乐用品1.13861727-0.10151232019/12/18主编:费宇203.对应分析图•作对应分析图,R程序及结果如下(列得分):biplot(ca2,cex=0.55);abline(v=0,h=0,lty=3)#做对应分析图,并分好象限2019/12/18主编:费宇214.对应结果分析•根据上图可将样本点和变量分为三类:•第一类,变量:蛋类、肉禽及其制品;样品:最低收入户、较低收入户、中等偏下户.•第二类,变量:奶及奶制品、水产品、服装;样品:中等收入户、中等偏上户、较高收入户.•第三类,变量:耐用消费品、文化娱乐用品;样品:最高收入户.2019/12/18主编:费宇224.对应结果分析•第一类中,样品为最低收入户、较低收入户、中等偏下户,这三组收入人群收入较低,收入绝大部分用来购买蛋类、肉禽这些饮食品,以维持正常生活需要.•第二类中,样品为中等收入户、中等偏上户、较高收入户,该类人群的收入除了满足正常生活需求之外,很大一部分收入用来追求高质量的生活,比如购买奶及奶制品、水产品和服装.•第三类中,样品为最高收入户,此人群的收入不仅能满足他们的物质生活需求,而且使得他们有足够的经济实力追求精神的需要,如购买耐用消费品和文化娱乐用品.2019/12/18主编:费宇234.对应结果分析•用对应分析的方法综合评价我国各收入等级家庭现金消费支出情况与实际情况基本上是一致的.•由于我国两极分化较严重,贫富差距较大,各收入等级的现金消费支出情况不是很均衡,有些因素也没有考虑进去.但总体来说,还是反映了我国各收入等级家庭现金消费支出情况,这说明用对应分析的方法来评价我国各收入等级家庭现金消费支出情况是可行的.2019/12/18主编:费宇

1 / 24
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功