第九讲卡方检验一、检验的功能21、适用资料─计数数据计数数据的统计分析,测量数据的统计方法并不适用,卡方检验是较为常用的一种方法。⑴拟合优度检验[例]即通过实际调查与观察所得到的一批数据,其次数分布是否服从理论上所假定的某一概率分布;2、卡方检验的功能■例某广播电视台为了了解广大儿童对其提供的6种儿童节目的偏好(态度),随机抽取了300名儿童,问他们最喜欢哪一种节目(每人只能选一种),得到的数据如下表:节目1节目2节目3节目4节目5节目6858055104030问:就调查的300人而言,他们对6个节目的偏好(体现在人数)是否存在显著的差异?⑵变量间的独立性检验在对一批观察数据进行双向多项分类之后,这两个分类特征是独立无关的还是具有连带相关的关系?■例某师范大学为了了解广大师生对实行“中期选拨”制度的态度。曾以问卷调查的形式对977名低年级学生、790名高年级学生和764名教师进行随机调查,调查结果:主要用于检验不同人群母总体在某一个变量上的反应是否有显著差异。[例]从四所幼儿园分别随机抽出6岁儿童若干,各自组成一个实验组,进行识记测验。测验材料是红、绿、蓝三种颜色书写的字母,以单位时间内的识记数量为指标,结果如下。问四组数据是否可以合并分析。⑶同质性检验分组红色字母绿色字母蓝色字母124171921512932020144102528理论基础是1899年皮尔逊的工作:在分布拟合优度检验中,实际观察次数与理论次数之差的平方除以理论次数近似服从分布,即:22222~dfKefffeofofe二、检验的基本原理-如果实际观察次数与理论次数的差异越大,卡方检验的结果就越可能拒绝无差虚无)假设接受备择假设。-理论次数越大()拟合效果越好。fe5fe■注■注K为类别的数目;是实际观察值;是理论(期待)次数;是约束条件数或利用观察数据时使用的样本统计量的数目;1、卡方检验基本公式Kefffeo22fofe:M⑴分类相互排斥,互不包容;⑵观察值相互独立;⑶期望次数的大小应大于或等于5(较好趋近卡方分布的前提);2、卡方检验的假设①自由度小时,必须,否则利用卡方检验需要进行较正或用精确的分布进行检验;②自由度大时,可以有少许类别的理论次数少于5;③应用卡方检验时,应注意取样设计,保证取样的代表性,否则依据卡方检验的结果难以保证结论的科学性;■注5fe由于检验内容仅涉及一个变量多项分类的计数资料,也称one-waytest)1、配合度检验的一般问题即检验实际观察数据的分布与某理论分布是否有显著的差别。三、卡方检验应用一——总体分布的拟合检验(goodnessoffittest配合度检验)⑴统计假设2、检验过程ffHe00:即:实际观察次数与某分布理论次数之间无差异;ffHeo:1⑶依统计检验公式,计算实得卡方值222~dfKefffeoKefffeo222)(df⑵数理基础ffHe00:⑷作出统计决断pfeeNN:总数Pe:具体类别理论概率■例某项民意测验,答案有同意、不置可否、不同意3种。调查了48人,结果同意的24人,不置可否的人12人,不同意的12人,问持这3种意见的人数是否存在显著差异?3、离散型分布的拟合检验对于连续随机变量的测量数据,有时不知道其总体分布,需要根据样本的次数分布的信息判断其是否服从某种确定的连续性分布。⑴检验方法①将连续性的测量数据整理成次数分布表②画出相应的次数分布曲线;③选择恰当的理论分布;④进行拟合检验;4、连续型分布拟合检验(例)■例:下表是552名学生的身高次数分布,问这些学生的身高分布是否符合正态分布?169~170215.383.030.002371166~167712.382.440.012017163~164229.381.850.04260240.167160~161576.381.260.10888600.150157~1581103.380.670.188581040.471154~1551240.380.070.235441300.277151~152112-2.62-0.520.206151140.035148~14980-5.62-1.110.12746701.429145~14625-8.62-1.700.05562311.161142~1438-11.62-2.290.017109139~1404-14.62-2.880.003962身高组中值次数离均差Z分数P理论次数fffeeo20.1250.0962.154X07.5S552N其一、分组数据第1组理论次数的计算注:=组上限的Z值-组下限的Z值其二、拟合指标卡方值的计算6.12905.323905.2pfeeN11SiZypXCe11Si■分析5、二项分类的配合度检验与比率显著检验⑴设总体比率为,且时p0qp0050pn1,0~00NnpZqppe210000fffqppqppeeoeennnpnpZ■结论:Z检验与卡方检验一致(样本比率p的真正分布是二项分布)21222~2dfefffZeo男生女生某班有100名学生,男生的有42人,问男生的比率是否与0.5有显著差异?①比率显著性检验6.100npZqppefofe425850506.150585042222256.25050■例②用卡方检验(配合度)⑵当且时卡方检验公式qp0050pnfffeeo22当期望次数小于5时,卡方检验需要校正,Yates建议的校正公式为:■注:校正后的结果与二项分布的结果一致2fffeeo2122⑶的连续性校正(二项分类数据或比率)1、功能(例)主要通过对两个或两个以上因素多项分类的计数资料的分析,以研究两变量或多个变量之间的关联性与依存性。四、独立性检验(testofindependence)独立性检验一般多采用表格的形式记录观察结果的计数资料,这种表格即列联表。R×K型列联表(二个因素:一个因素有R个分类,另一有K个分类)2、一个术语-列联表R×K型列联表一般数据结构示意图因素A因素BA1A2……..Aj……ARB1B2…Bi…Bkf11f21fi1fk1f12f22fi2fk2fj1fj2fijfkjfR1fR2fiRfkRf1.f2.fj.fR.f.1f.2fi.fk.N⑴统计假设二因素或多因素之间是独立;(数据)⑵理论次数的计算:0HNiefffjij..11KRdf3、独立性检验的一般问题与步骤⑶自由度的确定⑷卡方检验fffeeo22………(公式1)⑸统计推断1..22fffiijNj22df实际22df实际拒绝假设接受假设◆R×C的卡方检验,允许有的格内的实计数为0,最小的理论次数为0.5;◆R×C的卡方检验中最小的理论次数小于0.5或1(2×C列联表),一般采用合并项目的方法,而不用连续性校正公式;■注⑴检验公式(各单元格理论次数5)⑵自由度2DBCADCBANBCAD221212df因素A分类1分类2因素B分类1分类2ABCD4、独立样本四格表检验(列联表特例)■注:独立样本四格表检验相当于独立样本比率差异的显著性检验。2随机抽取90名学生,将学生按性别与学习成绩进行分类,结果如下表,问男女大学生在学业成绩上是否有关联?或男女学生在成绩中等以上的比率是否存在显著差异?学业水平中等以上中等以下性别男女23172822■例⑴Fisher精确概率检验(略)⑵检验校正公式2DBCADCBANNBCAD2225、四格表中若有单元格理论次数5⑴适用范围分类变量数目多于2个■例:讨论性别(男、女)、婚姻(未婚、已婚)及生活满意状况(刺激、规律、无聊)之间的关系。6、多重列联表分析①确定控制变量(分层变量)[例]性别②分别对在控制变量的每一水平下的另两个变量形成的列联表进行分析;[例]*男性婚姻状况与生活满意状态关联分析*女性婚姻状况与生活满意状态关联分析⑵多重列联表的分析③对于控制变量的不同水平所进行的单个列联表分析ⅰ、如果值不显著,此时可以将各个水平下的值相加,以推测列联表中两个变量总的值,并进行关联性检定。222ⅱ、当控制变量各水平不一致时,必须单独就个别关联表进行分析。■例某通讯公司想了解大学生最喜欢的手机品牌,随机抽取了72名大学生,调查性别、家庭经济水平以及最喜欢的手机品牌,来探讨这三个变量之间的关系,调查结果如下表。甲乙丙经济水平低高甲乙丙手机品牌性男别女132341249378521、同质性检验(testforhomogeneity)◆几个不同的因素之间是否有实质差异◆判断几次重复实验的结果是否同质⑴单因素分类数据的同质性检验①样例四、同质性检验与数据的合并ⅰ、计算各个样本组的值和自由度;ⅱ、累加各样本组值,计算其总和及自由度的总和;ⅲ、将各个样本组原始数据按相应类合并,产生一个总的数据表,并计算这个总数据表的值和自由度;222②检验过程iv、计算各样本组的累计值与总测试次数合并获得的值之差(异质性值),其自由度是各样本组累计自由度与合并后总数据的自由度之差。◆异质性值大于临界值,样本组间数据异质;◆不显著,则同质;2222124171921512932020144102528■例从四所幼儿园分别随机抽出6岁儿童若干,各自组成一个实验组,进行识记测验。测验材料是红、绿、蓝三种颜色书写的字母,以单位时间内的识记数量为指标,结果:问四组数据是否可以合并分析?分组红色字母绿色字母蓝色字母[例]对四所幼儿圆的幼儿颜色命名能力进行了调查,调查材料是15种颜色的彩色铅笔。凡能正确命名8种及8种以上颜色者为达标,低于8种颜色则未达标。调查对象分4岁组、6岁组。四所幼儿园调查的数据见下表。问这四所幼儿园儿童颜色命名能力调查结果是否同质?颜色命名与年龄是否有关联?⑵列联表形式的同质性检验4岁组49701106岁组6439103小计113109222达标未达标年龄组A幼儿园B幼儿园C幼儿园D幼儿园达标未达标达标未达标达标未达标达标未达标4岁组11181015152013176岁组14917101691711年龄组颜色命名能力小计合并数据表变异原因2自由P合并9.7051.05异质0.1043.0522总计9.8094(值分析结果)2■注2DBCADCBANNBCAD222201.012884.83964704939706449222222270643949合并检验总表中儿童颜色命名能力与年龄是否有密切关联时,因自由度为1,值需进行连续性校正。⑴两格表与四格表数据合并方法(例)①简单合并法将所有数据合并成一个两格表或四格表。适用条件:◆各分表同一分类特征比率接近;◆分表小样本齐性(值不显著)22、计数数据合并的方法值相加法男175220.773女65110.545231033ⅱ、例(四格表简单合并法)不同研究者的取样年龄性别某年龄特征A非AnXA特征比率23~4岁ny5~6岁男123150.800女75120.583231033ny1.7931.3391.5011.2257~8岁男113140.786女119200.5502212342.0041.41640112419A非A男女51436430942105.2192.5②相加法ⅰ、各分表值相加;ⅱ、df=分表的数目(各分表自由度之和)缺点:不太灵敏,分辨力较差,没有考虑各分表的方向。■例22305.2298.52③值相加法ⅰ、适用条件◆样本容量相差不超过2倍◆表中各相应比率的取值在0.2-0.8之间ⅱ、检验公式(例)K