应用SPSS软件进行列联表分析在许多调查研究中,所得到的数据大多为定性数据,即名义或定序尺度测量的数据。例如在一项全球教育水平的研究中,调查了400余人的个人信息,包括性别、学历、种族等,对原始资料进行整理就可以得到频数分布表。定义四个变量:gender(性别)、educat(学历)、minority(种族)、count(人数),其中前三个为分类变量,并且gender变量取值为0、1,标签值定义为:0表示female,1表示male;educat变量取值为1、2、3,标签值定义为:1表示学历低,2表示学历中等,3表示学历高;minority变量值为0、1,标签值定义为:0表示非少数种族,1表示为少数种族。下面做gender、educat、minority的三维列联表分析及其独立性检验。数据文件如图1所示。图1第一步:用“count”变量作为权重进行加权分析处理。从菜单上依次选Data--weightCases命令,打开对话框,如图2所示。图2点选WeightCasesby项,并将变量“count”移入FrequencyVariable栏下,之后单击OK按钮。第二步:从菜单上依次点选Analyze--DeseriptiveStatistics--Crosstabs命令,打开列联分析对话框(Crosstabs),如图3所示。图3第三步:在Crosstabs对话框中,如图4将变量性别gender从左侧的列表框内移入行变量Row(s)框内,并将受教育年限编码后得到的学历变量educat移入列变量Column(s)框内(若此时单击OK按钮,则会输出一个2*3的二维列联表)。这里要输出一个三维列联表,将变量种族minority作为分层变量移入Layer框中,并且可以勾选左下方的Displayclusteredbarcharts项,以输出聚集的条形图,如图8图9所示。图4第四步:选择统计量,单击Cosstabs对话框下侧的Statistics按钮,打开其对话框,如图5所示。图5在Statistics对话框内,勾选Chi-square项,以输出表2进行独立性检验。这里由于不是定距及定比尺度测量的数据,因此可以不选择简单相关系数Correlations项。接下来根据数据的类型而选择相应的列联相关的测量值:在定类数据Nominal栏下,勾选列联系数Contingencycoefficient和PhiandCramer’sV选项(这里Phi系数可以不选,因它只用于2*2的列联表,但SPSS把它与Cramer的V统计量放在一个选项上,也就只好一并选上了),以及Lamabda和不确定系数Uncertaintycoefficient。也可选择定序数据Ordinal栏下得Gamma、Somers的d、Kendall的b和c。至于NominalbyInterval栏下的Eta选项就不必选了,因为这里不是定距及定比尺度测量的数据。单击Continue按钮回到Crosstabs主对话框。第五步:单击Crosstabs对话框下侧的Cells按钮,打开其对话框,如图6所示。在CellDisplay对话框内,勾选Counts(计数)栏下的Observed(观测频数)与Expected(期望频数)两个选项;并勾选Percentage百分栏下得Row(行百分比)、Column(列百分比)和Total(总百分比)三个选项。由此,可以输出列联表(如表1)。单击Continue按钮回到Crosstabs主对话框。图6第六步:单击Crosstabs对话框下侧的Format按钮,打开TableFormat对话框,如图7所示。它只是一个输出格式的定义,行序(RowOrder)按照Ascending(升序)还是Descending(降序)排列,系统隐含设置是按照Ascending(升序)排列(事实上,一般不必打开此对话框,只用系统隐含设置即可)。单击Continue按钮回到Crosstabs主对话框。图7第七步:在Crosstabs对话框中,单击OK按钮执行。输出结果如表1~4所示。表1性别、学历、种族交叉表表2卡方检验表表3方向性测度表4对称性测度在三维列联表中,结合图7图8,可以看出:非少数种族的女性低学历的比例为72.9%,高于男性低学历的比例25.8%;而相反女性高学历的比例仅为0.6%,远远低于男性高学历的比例。在少数种族中,从低学历至高学历,无论男女都是同样的递减趋势,即低学历的所占比百分比高,中等学历的所占百分比其次,最少的就是高学历的所占百分比,只不过女性这种趋势更明显,分别为75%、25%、0%。图8图9在非少数种族类型中:2=93.724,非常大,相应的p值小于0.001.因此在0.001的显著水平下高度显著,即拒绝:性别与学历相互独立的原假设,两者之间具有高度显著的相关关联。由聚集的条形图可以直观的看到:女性低学历比例比男性高,同时男性高学历比例又比女性高。在少数种族类型内:2=5.926,p=0.0520.05,因此在0.05的显著水平下,没有理由拒绝两个变量独立的原假设,表示性别与学历这两个变量之间相互独立,没有显著的相关关联。在表3的方向性测度(DirectionalMeasures)中,有两类系数:不确定系数(UncertaintyCoefficient)和Somers’d。每种系数均有三种形式:对称的(Symmetric)、以性别为因变量的及以学历为因变量的。事实上,我们关心的是两种形式——对称的(Symmetric)和以学历为因变量的。在这里非少数种族的对称不确定系数为0.173,而少数种族的对称不确定系数为0.050;并且以学历为因变量的非少数种族的对称不确定系数为0.148,而少数种族的列联相关程度高于少数种族的。在对称性测度(SymmetricMeasures)中,Crammer的V值列联表系数、Kendall的系数值以及值(Gamma),非少数种族的上述各项值均高于少数种族的,显示出预测力以非少数种族更强。事实上,在少数种族的Crammer的V值列联表系数的近似的p值为0.052,在0.05的显著水平下不显著。在列联表分析中,列联表的分布除了观察值的分布外,还要构造条件百分比表。这个百分比就是由于对比的基数不同,从而分为行百分比、列百分比和总百分比。所以,列联表由于维数的增加而使得它所包含的信息要比“单个变量”的频数(包括频率)分布表包含的信息多得多,由此我们可以分析出来的内容也更加丰富有价值。参考文献:数据分析与SPSS应用高祥宝董寒青编著,清华大学出版社