第十一章多变量的可视化分析第一节引言第二节折线图分析法第三节条形图分析法第四节散点图分析法第五节雷达图分析法第六节星座图分析法第一节引言众所周知,图形是我们直观了解、认识数据的一种可视化手段。如果能将所研究的数据直接显示在一个平面图上,便可以一目了然地看出分析变量间的数量关系。直方图、散点图等就是我们常用的二维平面图示方法。虽然三维数据也可以用三维图形来表示,但观测三维数据却存在一定的难度,而且在许多实际问题中,多变量数据的维数通常又都大于3,那么如何用图形直观表现三维以上的数据呢?自上世纪70年代以来,多变量数据的可视化分析研究就一直是人们关注的一个问题。从研究的成果来看,主要可以分为两类:一类是使高维空间的点与平面上的某种图形对应,这种图形能反映高维数据的某些特点或数据间的某些关系;另一类是对多变量数据进行降维处理,在尽可能多地保留原始信息的原则下,将数据的维数降为2维或1维,然后再在平面上表示。例如前面介绍的主成分分析方法、因子分析方法、多维尺度法等就属于此类方法。这里仅介绍5种实用而有效的多变量可视化方法。表11.1是我国华北地区5个省市2003年城镇居民家庭平均每人全年消费性支出的六项指标数据,下面分别用5种可视化方法对数据进行分析。考虑微机的普及应用,本章主要介绍5种图形的制作方法,图形的制作则通过电脑实现。折线图、条形图、矩阵散点图在SPSS中制作,雷达图和星座图则在EXCEL中实现。(单位:元)地区食品衣着医疗保健交通和通信教育文化娱乐服务居住北京天津河北山西内蒙古3522.692963.851912.421712.131705.56906.21579.7587.6725.81793.53994.01697.76550.9367.47425.881688.08721.28607.75478.09596.211964.191083.91660.58799.35770.5955.771095.61595.24561.49618.18表11.1华北5省市城镇居民家庭消费性支出第二节折线图分析法折线图是将多个样品观测数据以折线的方式表示在平面图中的一种多变量可视化图形。折线图用线段的升降来表示变量的大小,常用于表示现象在时间上的变化趋势、现象的分配情况和两个现象之间的依存关系等。折线图的作图原理如下:(1)作平面坐标系,横坐标取p个点,表示p个变量,纵坐标表示变量取值。(2)对给定的样品观测值,在p个点的纵坐标上标出相应的变量取值。(3)将表示p个变量取值的点连接成一条折线,即得到了表示一个样品观测数据的折线,n次观测可绘出n条折线,构成多变量折线图。在SPSS中作折线图的方法如下:(1)将原始数据输入SPSS中。注意数据的组织形式要像图11.1那样。即把不同地区当成变量,而把支出指标当成观测。图11.1作折线图时的数据组织形式(2)选择菜单项Graphs→Line,打开LineCharts对话框,如图11.2。在对话框上方的三个选项用于选择折线图的形式,由于是这里是多变量作图,所以选择Multiple。在对话框下面的三个选项中选择Valueofindividualcases。单击Define按钮,打开DefineMultipleLine对话框。图11.2LineCharts对话框(3)在DefineMultipleLine对话框中,将代表不同地区的5个变量移入LinesRepresent列表框中,将代表支出指标的变量(variable)移入Variable框中。单击OK按钮,即可作出如图11.4所示的折线图。从图中可以清楚地看出北京市几乎各项支出都排在第一,而山西省则几乎每项支出都是最低的。图11.3DefineMultipleLine对话框VARIABLE居住教育文化交通医疗衣着食品Value40003000200010000北京天津河北山西内蒙古图11.4折线图第三节条形图分析法条形图是由若干平行条状的矩形所构成,而以每一个矩形的高度来代表数值的大小。按图11.1所示的方式在SPSS中组织好数据后,条形图的制作步骤如下:(1)选择菜单项Graphs→Line,打开BarCharts对话框,该对话框与图11.2所示的LineCharts对话框有相同的选项。在对话框上方的三个选项用于选择条形图的形式,由于是这里是多变量作图,所以选择Clustered。在对话框下面的三个选项中选择Valueofindividualcases。单击Define按钮,打开DefineClusteredBar对话框。(2)在DefineClusteredBar对话框中,将代表不同地区的5个变量移入BarsRepresent列表框中,将代表支出指标的变量移入Variable框中。单击OK按钮,即可作出如图11.5所示的条形图。VARIABLE居住教育文化交通医疗衣着食品Value40003000200010000北京天津河北山西内蒙古图11.5条形图可以发现,折线图和条行图的作图过程几乎相同,作图原理也大同小异,折线图是以折线的高低来表示变量的大小,条形图是以矩形的高低来表示变量的大小。从图11.5也可以得出与折线图同样的结论:北京市各项支出都比较高,而山西省各项支出都比较低。第四节散点图分析法散点图又称散布图,它是以点的分布反映变量之间相关关系的可视化方法。矩阵散点图则是一种反映多个变量之间相关关系的二维散点图。利用SPSS制作矩阵散点图的步骤如下:(1)在SPSS中按图11.6的形式组织数据,即把支出指标当成变量,而把不同地区当成观测。图11.6作散点图时的数据组织形式(2)选择菜单项Graphs→Scatter,打开Scatterplot对话框,如图11.7。该对话框用于选择散点图的形式。选定Matrix,即矩阵散点图,单击Define按钮,打开ScatterplotMatrix对话框,如图11.8。图11.7Scatterplot对话框图11.8ScatterplotMatrix对话框(3)在打开的ScatterplotMatrix对话框中,将食品、衣着、居住三个变量移入MatrixVariables列表框中,将标志变量region移入LabelCasesby列表框中。(4)点击OK按钮,得到如图11.9所示的矩阵散点图。从图11.9可以看出,河北、山西、内蒙古在居住和食品消费支出方面与北京、天津相比较低,食品与居住支出变量之间存在一定的线性关系。天津在衣着支出方面较低,与最低的河北接近,与最高居住支出形成鲜明对比。北京则除在居住支出方面低于天津外,其他方面支出均高于华北其他省市。内蒙古则在衣着支出方面仅次于北京,显示出某种特殊消费特征。居住衣着食品食品衣着居住内蒙古山西天津北京内蒙古山西河北天津北京内蒙古山西河北天津北京内蒙古山西天津北京内蒙古山西河北天津北京内蒙古山西河北天津北京图11.9矩阵散点图另外,还可以作三维立体散点图。只需在Scatterplot对话框(图11.7)中选择3-D选项。在跳出的3-DScatterplot对话框中将食品、衣着、居住三个变量分别移入XAxis、YAxis和ZAxis列表框中,将标志变量region移入LabelCasesby列表框中。单击OK按钮,则作出图11.10所示的三维立体散点图。矩阵散点图不仅可以在二维平面上同时反映多个变量数值,而且可以用于直观反映多个变量间是否存在某种关系。与三维立体图相比,有着更好的可视性。比较图11.9与图11.10不难看出这一点。12001100北京10001000天津900居住食品9002000800内蒙古800衣着3000700700山西6006004000河北图11.10三维立体散点图第五节雷达图分析法雷达图是一种较为常用的多变量可视化图形。在雷达图中,每个变量都有它自己的数值轴,每个数值轴都是从中心向外辐射。由于图形就好像雷达荧光屏上的图像,故称其为雷达图。又像蜘蛛网,所以也称蛛网图。雷达图的作图方法:(1)作一圆,并按变量的个数p将圆周分成p等分。(2)连接圆心和各分点,将这p条半径连线依次定义为各变量的坐标轴,并标以适当的刻度。(3)对给定的一次观测值,将每个变量值分别标在相应的坐标轴上,把p个点相连就形成了一个p边形,n次观测值就可画出n个p边形。例如,根据表11.1中的数据,调用EXCEL图表向导,选择雷达图,然后按图表向导提示,即可制作出如图11.11~17所示的雷达图。图11.5画出了北京、天津和河北的雷达图,从图可以看出,三省市消费支出结构有较大差异。北京人均消费支出的各项指标都高,对应面积最大的六边形,其次是天津,在三个省市中面积最小的是河北,天津在居住支出方面与北京较为接近,而在衣着和交通、通讯支出方面则与河北接近。其他支出方面三地存在较大差异。利用雷达图的形状、面积大小,可以对样品进行初始分类分析。为了加强雷达图的效果,在雷达图中适当的分配坐标轴是很重要的,具体的分配办法要结合分析的问题而定。例如可将要对比的指标分布在左、右或上、下方,以便于对比分析。当观测次数n较大和指标较多时,画出的雷达图线段太多,图形的效果会很差。为了获得较好的可视化效果,在一张雷达图上可以画几个样品观测数据,甚至一张雷达图只画一个样品观测数据。如图11.11~11.17所示,对这些图进行比较分析,也可了解其特点。020004000食品衣着医疗保健交通和通信教育文化娱乐服务居住北京天津河北图11.11北京01000200030004000食品衣着医疗保健交通和通信教育文化娱乐服务居住图11.12天津0100020003000食品衣着医疗保健交通和通信教育文化娱乐服务居住图11.13河北0500100015002000食品衣着医疗保健交通和通信教育文化娱乐服务居住图11.14山西010002000食品衣着医疗保健交通和通信教育文化娱乐服务居住图11.15内蒙古010002000食品衣着医疗保健交通和通信教育文化娱乐服务居住图11.1601000200030004000食品衣着医疗保健交通和通信教育文化娱乐服务居住北京内蒙古图11.17第六节星座图分析法星座图是将高维空间的样本点投影到平面上的一个半圆内,用投影点表示样本点的多元图示方法。由于样本点在半圆内的投影犹如浩瀚苍穹中的星座,因此而称其为星座图。星座图的作图方法:(1)通过对观测数据Xij作极差标准化变换,将其变换为角度{ij}:min,max,min,180,0180ijjijijjjxxxx其中:max,1max{}jijinxx,即第j变量的最大值;min,1min{}jijinxx,即第j变量的最小值。(2)取一组权数12,,,p,满足0wij,且1pijjiw。确定权数的一般原则是重要指标的权数应相对大一些,但究竟如何确定权数,目前尚无一个公认的好的解决办法。如果各变量的重要程度相差不大或难以区分,一个简单而实用的方法是等权处理,即取12p。(3)确定第i次观测数据12(,,,)iiiipxxxx对应于平面的点(,)ii及其路径。11coscosplijijjplijijjww1,2,,in称(,)ii为第i次观测数据样本点的星,它将落在以原点为圆心的单位圆的上半部。星的路径坐标点为:()()11(cos,sin)llllijijijijjjww1,2,,lp记为12,,,Pooo,则Po就是样本点的星,12,,,Pooo连成的折线即为该星的路径。(4)画一半径为1的上半圆及半圆的底边直径,将n个样本点的星和路径画在半圆内。以表11-1数据为例说明星座图的制作步骤。首先计算5个省市观测数据各变量的最大值、最小值及极差,分别为:xmax,j=3522.69,906.21,994.01,1688.08,1964.19,1095.61xmin,j=1705.56,579.7,367.47,478.09,660