9-1统计学STATISTICS(第四版)第9章分类数据分析9-2统计学STATISTICS(第四版)概述第七、八章介绍的估计和检验方法仅主要针对数值型变量。而列联分析是针对分类变量进行分析的方法。9-3统计学STATISTICS(第四版)第9章分类数据分析9.1分类数据与c2统计量9.2拟合优度检验9.3列联分析:独立性检验9.4列联表中的相关测量9.5列联分析中应注意的问题9-4统计学STATISTICS(第四版)学习目标1.解释列联表2.进行c2检验拟合优度检验独立性检验3.测度列联表中的相关性9.1分类数据9.1.1分类数据补充:列联表的构造列联表的分布9.1.2c2统计量9-6统计学STATISTICS(第四版)分类数据1.分类变量的取值表现为类别例如:性别(男,女)2.各类别可用符号或数字代码来测度例如:性别(男用1表示,女用0表示)3.顺序数据也可以看作分类数据原料的质量等级:一等品、二等品、三等品4.数值型数据也可以转化为分类数据数学期末考试成绩是一个数值型数据,可以根据分数段将成绩为“优秀”、“良好”、“及格”和“不及格”几个类别5.对分类数据的描述和分析通常使用列联表9-7统计学STATISTICS(第四版)列联表的构造9-8统计学STATISTICS(第四版)列联表(contingencytable)1.由两个以上的变量交叉分类的频数分布表2.行变量的类别用r表示,ri表示第i个类别3.列变量的类别用c表示,cj表示第j个类别4.每种组合的观察频数用fij表示5.表中列出了行变量和列变量的所有可能的组合,所以称为列联表6.一个R行C列的列联表称为RC列联表9-9统计学STATISTICS(第四版)列联表的结构(22列联表)列(cj)合计j=1j=1i=1f11f12f11+f12i=2f21f22f21+f22合计f11+f21f12+f22n列(cj)行(ri)9-10统计学STATISTICS(第四版)列联表的结构(rc列联表的一般表示)列(cj)合计j=1j=2…i=1f11f12…r1i=2f21f22…r2:::::合计c1c2…n列(cj)行(ri)fij表示第i行第j列的观察频数9-11统计学STATISTICS(第四版)列联表(例题分析)一分公司二分公司三分公司四分公司合计赞成该方案68755779279反对该方案32753331141合计10012090110420【例】一个集团公司在四个不同的地区设有分公司,现该集团公司欲进行一项改革,此项改革可能涉及到各分公司的利益,故采用抽样调查方式,从四个分公司共抽取420个样本单位(人),了解职工对此项改革的看法,调查结果如下表9-12统计学STATISTICS(第四版)列联表的分布9-13统计学STATISTICS(第四版)观察值的分布1.边缘频数行边缘分布(频数)行观察值的合计数的分布例如,赞成改革方案的共有279人,反对改革方案的141人列边缘分布(频数)列观察值的合计数的分布例如,四个分公司接受调查的人数分别为100人,120人,90人,110人2.条件分布与条件频数表中每个具体的观察值都是变量X条件下变量Y的频数,或在变量Y条件下变量X的频数,称为条件分布(频数)9-14统计学STATISTICS(第四版)观察值的分布(图示)一分公司二分公司三分公司四分公司合计赞成该方案68755779279反对该方案32753331141合计10012090110420行边缘分布列边缘分布条件频数9-15统计学STATISTICS(第四版)百分比分布(概念要点)1.条件频数反映了数据的分布,但不适合对比如二分公司赞成人数比一分公司多,并不表明二分公司比一分公司更赞成该方案,因为两公司调查人数不同。2.为在相同的基数上进行比较,可以计算相应的百分比,称为百分比分布行百分比:行的每一个观察频数除以相应的行合计数(fij/ri)列百分比:列的每一个观察频数除以相应的列合计数(fij/cj)总百分比:每一个观察值除以观察值的总个数(fij/n)9-16统计学STATISTICS(第四版)百分比分布(图示)一分公司二分公司三分公司四分公司合计赞成该方案6875577966.4%24.4%26.9%20.4%28.3%68.0%62.5%63.3571.8%—16.2%17.8%13.6%18.8%—反对该方案3245333133.6%22.7%31.9%23.4%22.0%32.0%37.5%36.7%28.2%—7.6%10.7%7.9%7.4%—合计23.8%28.6%21.4%26.2%100%总百分比列百分比行百分比9-17统计学STATISTICS(第四版)(1)列联分析是利用列联表来研究:()A.两个分类变量的关系B.两个数值型变量的关系C.一个分类变量和一个数值型变量的关系D.两个数值型变量的分布(2)以下列联表中,最右边一列称为:()A.列边缘频数;B.行边缘频数;C.条件频数;D.总频数练习(1)AB男学生女学生合计赞成454287反对10578183合计1501202709-18统计学STATISTICS(第四版)(3)对于学生宿舍上网收费的新措施,男女学生的抽样调查结果如下列联表所示,在男女生赞成的比例相同的前提下,男女生赞成该措施的期望频数分别为:()A.48和39B.102和81C.15和14D.25和19A男学生女学生合计赞成454287反对10578183合计150120270c统计量9-20统计学STATISTICS(第四版)概述c2检验(Chi-squaretest)是现代统计学的创始人之一,英国人K.Pearson(1857-1936)于1900年提出的一种具有广泛用途的统计方法,因此又称为Pearsonc2检验。可用于两个或多个率或构成比间的比较,定性资料的关联度分析,拟合优度检验等等。9-21统计学STATISTICS(第四版)c统计量1.用于检验列联表中变量间拟合优度和独立性2.检验统计量为:或c2统计量可以看作是检验真实值与期望值的接近程度。22211()~((1)(1))rcijijijijfijijeijijfeRCecc—列联表中第行第列类别的实际频数—列联表中第行第列类别的期望频数2221()~(1)coejeefoffCffcc—实际频数—期望频数9-22统计学STATISTICS(第四版)c统计量•分布与自由度的关系9.2拟合优度检验(goodnessoffittest)9-24统计学STATISTICS(第四版)c统计量拟合优度检验:1.用于检验一个分类变量中各类别的期望频数和观察频数是否有显著差异。2.其实际为假设检验3.在原假设为观察频数和实际频数一致的前提下,有如下检验统计量:221()1coejeefofffCfc—每一类别的观察频数—每一类别的期望频数其自由度为式中:9-25统计学STATISTICS(第四版)拟合优度检验的期望频数的计算若可求出第i行第j列元素的期望概率pij,则一个实际频数fij的期望频数eij,是总频数的个数n乘以该实际频数fij的期望概率pijijijenp9-26统计学STATISTICS(第四版)期望频数的计算举例举例:要检验各分公司对某项改革方案的看法是否相同?一分公司二分公司三分公司四分公司赞成该方案实际频数68755779反对该方案实际频数324533319-27统计学STATISTICS(第四版)期望频数的分布(例题分析)一分公司二分公司三分公司四分公司赞成该方案实际频数68755779期望频数100*66.4%=66150*66.4%=8090*66.4%=60110*66.4%=73反对该方案实际频数32753331期望频数100*33.6%=34150*33.6%=4090*33.6%=30110*33.6%=37在全部420个样本中,赞成改革方案的人数为279,占66.4%;反对的人数占33.6%。在各分公司对改革方案看法相同的前提下,各分公司赞成(反对)这项改革不同态度的期望频数为分公司总样本数*66.4%(33.6%)。等价于检验各分公司赞成方案的实际频数与期望频数是否一致。9-28统计学STATISTICS(第四版)期望频数的分布(例题分析)A公司B公司其它公司广告后购买人数实际频数1028216期望频数200×0.45200×0.4200×0.15在广告宣传战之前,A公司、B公司和其它公司的市场占有率分别为45%、40%和15%。上表给出了广告后对200个消费者购买意愿的调查的结果,检验广告战前后各公司的市场占有率是否发生了变化?等价于检验三个公司的期望购买人数和实际购买人数是否一致。9-29统计学STATISTICS(第四版)拟合优度检验(例题分析1-1)【例9.1】1912年4月15日,豪华巨轮泰坦尼克号与冰山相撞沉没。当时船上共有共2208人,其中男性1738人,女性470人。海难发生后,幸存者为718人,其中男性374人,女性344人,以的显著性水平(0.05)检验存活状况与性别是否有关。9-30统计学STATISTICS(第四版)拟合优度检验(例题分析1-2)分析:在这次海难中,幸存者共718人,即总存活比例为718/2208=0.325。若存活状况与性别无关,则男性存活的期望人数为:0.3251738=565人,女性存活的期望人数为:0.325470=153人,若男女性期望的存活人数和实际的存活人数非常接近,则可以认为存活率与性别无关,反之,则认为存状况与性别相关。因此可以利用c2统计量来检验。男女合计实际生存人数374344718总人数17384702208期望生存人数1738×0.325470×0.3259-31统计学STATISTICS(第四版)拟合优度检验(例题分析1-3)H0:生存状况与性别无关(观察频数与期望频数一致)H1:生存状况与性别相关(观察频数与期望频数不一致)=0.05df=(2-1)=1临界值(s):统计量:在=0.05的水平上拒绝H0有较充分的理由认为生存状况与性别相关决策:结论:c203.8415=0.1221()303coejefffc9-32统计学STATISTICS(第四版)拟合优度检验(例题分析2-1)【例】一项统计结果声称:某市老年人口(年龄在65岁以上)所占的比例为14.7%,该市老年人口研究会为了检验该项统计是否可靠,随机抽选了400名居民,发现其中有57人年龄在65岁以上。调查结果是否支持该市老年人口比例为14.7%的说法?(=0.05)。9-33统计学STATISTICS(第四版)拟合优度检验(例题分析2-2)解:要回答观察的老年人数与期望的老年人数是否一致,检验如下假设:•H0:老年人口比例为14.7%(观察频数与期望频数一致)H1:老年人口比例并非14.7%(观察频数与期望频数不一致)老年人非老年人实际人数57343期望人数500×0.147=59500×0.853=3419-34统计学STATISTICS(第四版)拟合优度检验(例题分析2-3)=0.05df=(2-1)=1临界值(s):注意:教材P223中作的双侧检验有误。统计量:在=0.05的水平上接受H0有较充分的理由认为老年人比比例为14.7%相关决策:结论:c203.8415=0.1221()0.0795coejefffc9-35统计学STATISTICS(第四版)拟合优度检验(例题分析2-1)注意:第8章介绍的总体比例检验只能用于二项分布,而c2统计量可用于多项分布的比例检验。9.3列联分析:独立性检验9.3.1列联表(已讲)9.3.2独立性检验9-37统计学STATISTICS(第四版)两个变量的独立性检验9-38统计学STATISTICS(第四版)独立变量检验(goodnessoffittest)1.检验两个分类变量是否独立2.检验的步骤提出假设H0:变量X和Y独