计量经济学专题01卡方检验韩纪江XXXX0810

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

卡方检验chi-squaretest,chi-squared,χ2test卡方检验属于非参数假设检验,适用于布尔型或二项分布数据,主要用于分类变量.基于两个概率间的比较,早期用于生产企业的产品合格率等chi-square38.1936.1834.1732.1630.1528.1426.1324.1222.1120.1018.0916.0814.0712.0610.058.046.034.022.01.00概率.12.10.08.06.04.020.00回顾:Chi-squareProbabilityDistributionΧ2分布χ2分布[Chisquaredistribution],与正态分布很相似。是由正态分布派生出来的一种分布.随机变量X服从均值为μ,方差为σ2的正态分布随机变量Z=(X-μ)/σ是标准正态变量,即Z~N(0,1)。X~N(μ,σ2)标准正态变量的平方服从自由度为1的χ2分布用符号表示为,Z2=χ2(1)是平方和中独立观察值的个数。自由度仅为1,这是因为仅考虑一个标准正态变量令Z1,Z2,⋯,ZK为K个独立的标准正态变量(即每一个变量均是均值为0,方差为1的正态变量),对所有的变量ZS平方,则它们的平方和服从自由度为K的χ2分布,可证明定义自由度推广进一步理解设X1,X2,X3,...,Xn,相互独立,且服从标准正态分布N(0,1)则称χ2=X12+X22+X32+...+Xn2,服从自由度为n的Χ2分布记为χ2~χ2(n)χ2分布的概率密度其他00,e)2(21)(2122yynyfynnχ2分布的概率密度曲线设X1,X2,X3,...,Xn,相互独立,且服从正态分布N(μ,σ2))(~)(121222nXniiPropertiesoftheChi-squareDistributionΧ2分布的性质takesonlypositivevalues(afterall,itisthedistributionofasquaredquantity)andrangesfrom0toinfinity.只取正值(是平方和的分布)从0到无限大。1isaskeweddistribution,thedegreeoftheskewnessdependingonthed.f.Forcomparativelyfewd.f.thedistributionishighlyskewedtotheright,butasthed.f.increase,thedistributionbecomesincreasinglysymmetricalandapproachesthenormaldistribution.是斜分布,其偏度取决于自由度大小,自由度越小,越向右偏。随着自由度增大,逐渐呈对称,接近正态分布。2Theexpected,ormean,valueofachi-squarer.v.iskanditsvarianceis2k,wherekisthed.f.Thisisanoteworthypropertyofthechi-squaredistributioninthatitsvarianceistwiceitsmeanvalue.期望为k,方差为2k。即方差是其均值的两倍。3IfZ1andZ2aretwoindependentchi-squarevariableswithk1andk2d.f.,thentheirsum(Z1+Z2)isalsoachi-squarevariablewithd.f.=(k1+k2).独立自由变量的自由度可以相加。4χ2分布的分位点对于给定的α,α∈(0,1)满足条件P{χ2>χα2(n)}=∫χα2(n)∞f(y)dy=α的点χα2(n)为χ2(n)分布的上α分位点对于不同的α,n,可以通过查表求得上α分位点的值一、卡方检验的基本思想1.卡方检验:以卡方分布为基础的一种常用假设检验方法,用于比较两个及以上样本率(构成比),或两个分类变量的关联性分析。用于2个变量都属于分类变量(例如性别、婚姻状态等,属于定性数据)时的数据分析比较理论频数和实际频数的吻合程度或拟合优度例如要分析性别与色盲之间(色盲一般分为“有”和“无”2个分类,属于定性变量)的关系两个率或两个构成比的比较,多个率或多个构成比的比较在分类资料统计推断中的应用包括分类资料的相关分析。2.卡方检验的步骤(1)建立零假说(NullHypothesis),即认为观测值与理论值的差异是由于随机误差所致,观察频数与期望频数没有差别。无效假设H0:假设H0成立,基于此前提,计算理论值(即期望值)。确定数据间的实际差异即求出卡方χ2值表示观察值与理论值之间的偏离程度(2)卡方值的计算残差=A-EA代表某个类别的观察频数E代表基于H0计算出的期望频数表示某一个类别观察值和理论值的偏离程度一方面因为残差有正有负,如果将残差简单相加,会彼此抵消,总和仍然为0。为此,可以将残差平方后求和。另一方面残差大小是一个相对的概念,相对于10,20非常大,但相对于1000就很小。考虑到这一点,将残差平方除以期望频数再求和,以估计观察频数与期望频数的差别。将残差加总χ2统计量公式(i=1,2,3,…,k),k为单元格数。Χ2公式Ai为i水平的观察频数,Ei为i水平的期望频数。n为总频数,pi为i水平的期望频率字母公式当n比较大时,χ2统计量近似服从k-1个自由度的卡方分布。最初是由英国统计学家KarlPearson在1900年首次提出,因此也称之为Pearsonχ2。(3)判断原则χ2值为0χ2值越小由卡方公式当观察频数与期望频数完全一致时观察频数与期望频数越接近,两者之间的差异越小χ2值越大反之,观察频数与期望频数差别越大,两者间差异越大小的χ2值表明观察频数接近期望频数,接近假设大的χ2值表明观察频数远离期望频数,即表明远离假设换言之就倾向于接受H0就倾向于拒绝H0χ2是观察频数与期望频数之间距离的一种度量指标,也是假设成立与否的度量指标。如果χ2值足够小如果χ2值足够大(4)判断标准选定至于χ2在每个具体研究中究竟要大到什么程度才能拒绝H0,则要借助于卡方分布求出所对应的P值来确定如卡方值大于某特定概率标准(即显著性差异)下的理论值则拒绝零假说,即实测值与理论值的差异在该显著性水平下是显著的。根据χ2分布及自由度,确定在H0假设成立的情况下获得当前统计量及更极端情况的概率P。如果P值很小,说明观察值与理论值偏离程度太大,应当拒绝无效假设,表示比较资料之间有显著差异;否则,就不能拒绝无效假设,尚不能认为样本所代表的实际情况和理论假设有差别。22,Pv(5)应用条件只有当样本量比较充足时才可以忽略两者之间的差异,卡方分布本身是连续型分布,但是在分类资料的统计分析中,显然频数只能以整数形式出现,因此计算出的统计量是非连续的。否则将可能导致较大的偏差对于卡方检验中的每一个单元格,要求其最小期望频数均大于1且至少有4/5的单元格期望频数大于5,一般认为此时使用卡方分布计算出的概率值才是准确的行列表卡方检验的适用条件如果数据不符合要求,可以采用不太理想的办法与邻近行或列中的实际频数合并删去理论频数太小的格子所对应的行或列最理想的办法增加样本含量以增大理论频数(但是可能吗)确切概率法3.卡方检验的用途检验某个连续变量的分布是否与某种理论分布相一致如是否符合正态分布、均匀分布、Poisson分布等检验某个分类变量各类的出现概率是否等于指定概率如在36选7的彩票抽奖中,每个数字出现的概率是否各为1/36;掷硬币时,正反两面出现的概率是否均为0.5。检验某两个分类变量是否相互独立如吸烟(二分类变量:是、否)与呼吸道疾病(二分类变量:是、否)有关?产品原料种类(多分类变量)是否与合格(二分类变量:是、否)有关?①②③考察某无序分类变量各水平在两组或多组间分布实际上是否一致控制某种或某几种分类因素以后,另两个分类变量是否相互独立如控制性别、年龄因素影响以后,吸烟是否和呼吸道疾病有关;控制产品加工工艺的影响后,产品原料类别是否与产品合格有关。④检验某两种方法的结果是否一致如采用两种诊断方法对同一批人进行诊断,其诊断结果是否一致;采用两种方法对客户进行价值类别预测,预测结果是否一致。⑤4.举例四格表(fourfoldtable)步骤(1)计算理论频数。基于H0成立,两样本所在总体无差别的前提下计算出各单元格的理论频数来。计算总的理论龋齿率和理论未龋齿率总的理论龋齿率=患龋齿人数合计/总调查人数合计总的理论未龋齿率=未患龋齿人数合计/总调查人数合计①实际调查结果牙膏类型患龋齿人数未患龋人数调查人数龋患率(%)含氟牙膏701302000.3500一般牙膏45551000.4500合计1151853000.3833理论频数与实际频数的比较H0成立后,在理论上牙膏类型患龋齿人数未患龋人数调查人数含氟牙膏76.67123.332000.3833一般牙膏38.3361.671000.3833合计1151853000.3833使用含氟牙膏人群总的理论龋齿率×含氟牙膏调查人数=使用含氟牙膏龋齿率总的理论未龋齿率×含氟牙膏调查人数=使用含氟牙膏未龋齿率使用一般牙膏人群总的理论龋齿率×一般牙膏调查人数=使用一般牙膏龋齿率总的理论未龋齿率×一般牙膏调查人数=使用一般牙膏未龋齿率步骤(2)计算残差22211()()kkiiiiiiiiAEAnpEnp残差=A-E设A=某个类别的观察频数,E=基于H0计算出的期望频数表示某一个类别观察值和理论值的偏离程度调整残差残差有正有负,相加后会彼此抵消,总和仍然为0。为此,将残差平方后求和,以表示样本总的偏离无效假设的程度。进一步调整残差大小是一个相对的概念,相对于期望频数为10时,20的残差非常大;可相对于期望频数为1000时20就很小。因此又将残差平方除以期望频数再求和,以标准化观察频数与期望频数的差别。最终得卡方统计量公式为:步骤(3)理解22211()()kkiiiiiiiiAEAnpEnp从卡方的计算公式可见当观察频数与期望频数完全一致时,卡方值为0实际观察频数与期望频数越接近,两者之间的差异越小,卡方值越小;反之实际观察频数与期望频数差别越大,两者之间的差异越大,卡方值越大。当然,卡方值的大小也和单元格数(自由度)有关。步骤(4)具体操作82.267.6167.615533.3833.384533.12333.12313067.7667.767022222建立检验假设和确定检验水准H0:使用含氟牙膏和一般牙膏儿童龋患率相等H1:使用含氟牙膏和一般牙膏儿童龋患率不等=0.05①②计算检验统计量х2值③查附表χ2界值表,得p0.05。或者CHIINV(0.05,1)】=3.841按=0.05水准,不拒绝H0,尚不能认为使用含氟牙膏比使用一般牙膏儿童的龋患率低。④卡方检验假设的等价性两组龋齿率相同两组发生率的比较实际数据的频数分布和理论假设相同理论分布与实际分布的检验使用不同的牙膏并不会影响龋齿的发生(两个分类变量间无关联)两变量的相关分析①②③二、各类检验点数ab118202192032320420205162062420检验二者的接近程度利用样本数据检验总体分布是否为某一特定分布。1.适合度检验实际执行多项式试验而得到观察次数,与假设的期望次数相比较以掷骰子为例(1)掷一骰子120次各点数的出现次数为a各点数出现的期望值b=120×1/6=20零假设H0:观察分布等于期望分布。点数ab卡方计算118200.2219200.05323200.45420200516200.8624200.8卡方统计量=2.

1 / 65
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功