主编:费宇中国人民大学出版社2019/12/20主编:费宇1第10章多维标度分析10.1多维标度法的基本思想10.2古典多维标度法多维标度法的几个基本概念;已知距离矩阵时CMDS解;已知相似系数矩阵时CMDS解;10.3非度量多维标度法10.4案例分析与R实现2019/12/20主编:费宇2第10章多维标度分析2019/12/20主编:费宇310.1多维标度法的基本思想•多维标度法:是用低维空间Rk(kp)中的n个点去重新标度和展示高维空间Rp中n个点(的某种距离或某种相似性),将高维空间中的研究对象(样本或变量)简化到低维空间中进行定位、归类和分析且有效保留研究对象间原始关系的多元数据分析技术的总称.•是一种维数缩减方法,主要思想是在降维的同时让新得到的n个点与原来的n个点保持较高的相似度(如位置关系、距离、类别等).2019/12/20主编:费宇4•多维标度法起源于上世纪40年代的心理测度.•1958年Torgerson正式提出了这一方法.•目前应用广泛,内容丰富,方法较多.•主要分为两类:度量分析法,非度量分析法.•它与主成分分析有相通之处:共同点:均先降维,再做简明有效的分析;不同点:主成分法按包含信息大小选取主成分;多维标度法按标度前后距离阵尽量接近或相似来构造拟合点.10.2古典多维标度分析2019/12/20主编:费宇5例10.1在地图上重新标度我国八个城市,使得它们之间的距离尽量接近于表10.1中的距离.北京天津济南青岛郑州上海杭州南京北京0天津1180济南4393630青岛6685713620郑州7147294437720上海125911458867769840杭州132811918728289622030南京1065936626617710322305010.2.1多维标度法的几个基本概念2019/12/20主编:费宇6古典多维标度(CMDS)解的定义对于距离阵,多维标度法的目的是要寻找较小的k和Rk中的n个点,记,表示xi与xj在Rk中的欧氏距离,使得与在某种意义下尽量接近,记称为的一个古典多维标度(CMDS)解,称xi为的一个拟合构造点,称为的拟合构图,称为的拟合距离阵.2019/12/20主编:费宇7T12(,,,)nXxxx()ijnndDXˆijdˆˆ()ijnndD12,,,nxxxˆDDDDXDˆDD特别,当时,称xi为的一个构造点,称为的构图,注意的构图不唯一.2019/12/20主编:费宇8ˆDDDXDD几个相关矩阵构造:2019/12/20主编:费宇9距离阵为欧氏距离阵的充要条件:从欧氏距离阵D出发得到构图X的步骤:见下面例10.2.2019/12/20主编:费宇10DABX例10.2由D求X的过程示例2019/12/20主编:费宇110132311013231013210131011010D=22ijijadA由123473,==0.ijijijbaaaaB由B的特征值和前两个特征向量分别为:T(1)T(2)(32,32,0,32,32,0,0)(12,12,1,12,12,1,0)xx例10.2(续)由D求X的过程示例2019/12/20主编:费宇122(1)(2)ˆ7所得的个构造点在中的欧氏距离阵恰由为和xxRDD(32,12),(32,12),(0,1),(32,12),(32,12),(0,1),(0,0).7个构造点:10.2.2已知距离矩阵时CMDS解上面求解CMDS解的实现过程,可使用stats包中的cmdscale函数;也可使用MASS包中isoMDS函数.例10.3对表10.1给出的我国八个城市间的距离矩阵D,利用R软件stats包中的cmdscale函数求的CMDS解,给出拟合构图及拟合构造点.2019/12/20主编:费宇13ˆD例10.3(续)#打开数据文件eg10.3.xls,选取C2:K10后复制eg10.3=read.table(clipboard,header=T)#读入数据D10.3=cmdscale(eg10.3,k=2,eig=T);D10.3#k取为2,并给出B的前两个特征向量和所有特征值sum(abs(D10.3$eig[1:2]))/sum(abs(D10.3$eig))#j算a1.2sum((D10.3$eig[1:2])^2)/sum((D10.3$eig)^2)#算a2.2x=D10.3$points[,1];y=D10.3$points[,2]plot(x,y,xlim=c(-700,800),ylim=c(-300,600))#根据两个特征向量的分量大小绘散点图text(x,y,labels=row.names(eg10.3),adj=c(0,-0.5),cex=0.8)#将拟合点用行名标出2019/12/20主编:费宇14图10.1我国八城市距离阵的拟合构图:2019/12/20主编:费宇152019/12/20主编:费宇1610.2.3已知相似系数阵阵时CMDS解2019/12/20主编:费宇1712(2)ijiijjijdccc令0()ijdCD则当时为欧氏距离阵例10.4六门课程之间的相关系数矩阵C(它也为相似系数矩阵),求C的CMDS解,并给出拟合构图及拟合构造点.2019/12/20主编:费宇182019/12/20主编:费宇1912(2)22,,1,610.3,.ijiijjijijdccccij令可得六门课程的广义距离阵,余下工作可以仿照例进行:例10.4(续)#打开数据文件eg10.4.xls,选取A10:G16,然后复制eg10.4=read.table(clipboard,header=T)#读入数据D10.4=cmdscale(eg10.4,k=2,eig=T);D10.4sum(abs(D10.4$eig[1:2]))/sum(abs(D10.4$eig))#算a1.2sum((D10.4$eig[1:2])^2)/sum((D10.4$eig)^2)#算a2.2x=D10.4$points[,1]y=D10.4$points[,2]plot(x,y,xlim=c(-0.6,0.8),ylim=c(-0.6,0.7))#绘拟合图text(x,y,labels=row.names(eg10.4),adj=c(0,-1),cex=0.8)•可看出:算术、代数、几何较为接近,英语和盖尔语较为相近,而历史课程与其他课程的差异较大2019/12/20主编:费宇202019/12/20主编:费宇2110.4案例分析与R实现案例10.1表10.5给出了2010年我国31个省市自治区农村居民家庭人均生活消费支出的统计数据.一共选取八个指标:x1为食品消费;x2为衣着消费;x3为居住消费;x4为家庭设备用品及服务;x5为交通通讯;x6为文教娱乐用品及服务;x7为医疗保健;x8为其他商品和服务支出.试用多维标度法对其进行统计分析,并对分析结果的实际意义进行解释.2019/12/20主编:费宇22案例10.1(续)本案例我们采用MASS包中的isoMDS函数来实现#打开数据文件case10.1.xls,选取区域A2:I33,然后复制case10.1-read.table(clipboard,header=T)#读入数据D1=as.matrix(case10.1)#需要将数据转换成矩阵形式D=dist(D1)#求距离阵library(MASS)#载入MASS包,使用isoMDS函数fit=isoMDS(D,k=2);fitx=fit$points[,1];y=fit$points[,2]plot(x,y)#画散点图text(x,y,labels=row.names(case10.1),adj=c(0.5,1.5),cex=0.7)#设置标签位置大小abline(h=0,v=0,lty=3)#采用虚线划分四个象限2019/12/20主编:费宇232019/12/20主编:费宇24从图10.3可以比较直观地看出,在总支出方面,上海、北京、广东、浙江、江苏、天津、福建等沿海地区,是我国传统的经济发达地带,又是改革开放的前沿,雄厚的经济实力为农业和农村经济发展奠定了坚实的基础,农村居民的人均消费水平相对较高.北京在享受型消费方面领先于其他省市,说明北京的农民比较重视文化生活,由于他们身处祖国的政治文化中心,因此在文化、教育、医疗等方面有着很大的消费和投入.而广东农民更重视物质上的消费,尤其在食物方面,广东人很下功夫,但是他们在文化生活上支出却不高,也不太注重这方面的投入.2019/12/20主编:费宇252019/12/20主编:费宇