《应用统计学》第10章:卡方检验和非参数检验

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1第10章卡方检验和非参数检验本章教学内容:总体分布的卡方检验;两个比例差异的卡方检验(独立样本);两个以上比例差异的卡方检验(独立样本);独立性的卡方检验;两个比例差异的McNEMAR检验(相关样本);两个独立总体的非参数检验(Wilcoxon秩和检验);单因素方差分析的非参数检验(Kruskal-Wallis秩检验)2在总体分布形式已知条件下未知参数检验问题。但实际问题中总体的分布形式往往是未知的,虽然根据中心极限定理可以有相当的把握认为大多数经济变量服从或近似服从正态分布,但有时为了使所做的统计推断更具说服力,就需要对总体的分布形式进行检验。非参数检验概述3检验的基本原理:(1)设x1,x2,…,xn为总体X的一组样本观察值,F(x)为某一已知分布的分布函数,1,2,…,r是F(x)的r个待定参数,分别是r个参数的点估计,以分别代替1,2,…,r,作原假设H0:总体X的分布函数为F(x)(2)将F(x)的定义域划分为k个互不相交的区间(ai,ai+1,i=1,2,…,k;记fi为样本观察值x1,x2,…,xn落在第个区间(ai,ai+1内的频数,并记Pi=P{aiX≤ai+1}=F(ai+1)-F(ai)2§10.1总体分布的检验4为以F(x)为分布函数的随机变量在区间(ai,ai+1上取值的概率,i=1,2,…,k。则当H0为真时,由贝努里定理,当n充分大时,n次独立重复试验结果的实际频率与其概率Pi之间的差异并不显著,于是显然可以用统计量来刻画它们间总的差异的大小。其中nPi为理论频数。其中nPi为理论频数。当H0为真时,下式的值就应当较小nfi221()kiiiifnPnP5(3)可以证明,当n充分大时(n≥50),若H0为真,则统计量近似服从(k-r-1)分布。其中r为分布F(x)中待定参数的个数。于是在给定显著性水平下,若就拒绝H0,说明总体X的真实分布函数与F(x)间存在显著差异;否则接受H0,即可以认为两者在水平下并无显著差异。221()kiiiifnPnP22(1)kr6某厂有一台经常需要维修的设备,该设备中有一个易损坏的重负荷轴承,设备故障的主要原因是轴承损坏。为了制定该设备的维修计划和维修预算,需要了解该轴承的寿命分布。下表给出了100个轴承寿命的观察数据,问:该轴承寿命是否服从正态分布?10715510514849143120115142871031411181681231058010717212289699713592316888951469912110463125712013910715616713617313617912988751441051921491281111279110314511311412313681901811211588322393721201301031448911360761769419013914015114514211818514059118212117521281681741551167解:由表中数据,用Excel可求得=120.95,S2=40.582,故可作原假设H0:X~N(120,402)将实轴划分为如下7个互不相交的区间。用Excel的FREQUENCY函数计算数据落在各区间内的频数,用NORMDIST函数求出各理论频数nPi,统计量的计算如表所示。x8区间finPiiiinPnPf2)((-,701110.560.0183(70,901012.100.3645(90,1101817.470.0161(110,1302119.740.0804(130,1501917.470.1340(150,1701012.100.3645(170,+)1110.560.0183合计1001000.99619取显著性水平=0.25(由于原假设H0是我们希望得到的结果,为使检验结论更具说服力,控制的重点应是与原假设H0不真而接受H0的概率,故应取的稍大些)。本例中k=7,r=2,k–r-1=4。故在水平=0.25下接受原假设H0,即可认为该轴承的使用寿命服从N(120,402)分布。220.250.9961(4)5.38510§10.2比例差异的检验(独立样本)1.两个比例差异的检验前面,我们研究了两个比例的Z检验。这部分从不同角度检验数据。假设检验过程使用近似卡方()分布的检验数据。如果想要比较两个独立样本组的分类变量,可以做两维的列联表,显示每组的第1类(正向类,如“成功”,“是”等)和第2类(反向类,如“失败”,“否”等)出现的频数,如表所示22列变量行变量组一组二总计类1(正向)1x2x12,()Xxx类2(反向)11nx22nxnX总计1n2n12,()nnn11为了检验组一样本有关类1的比例是否等于第二组样本有关类1的比例,即假设检验为:原假设为两比例之间无显著差异:备择假设为两比例之间有差异:使用卡方()检验的基本思路为:(1)确定统计量为其中为列联表中特定单元的观测频数,为列联表中特定单元的期望频数,因此这里的统计量是观测频数和期望频数差的平方除以每单元的期望频数,并对表中的所有单元格取和求得;012:Hpp112:Hpp222()oeefff表格中所有元ofef212(2)可以证明上述统计量近似服从自由度为1的分布,因此在显著性水平下,决策规则为:如果,拒绝否则,接受。为了计算任意单元期望频数,必须知道如果原假设为真,那么两项比例和是相同的,但要计算的每组样本比例有可能不同。每组的样本比例都可以作为参数和的估计值。将两个独立比例参数估计组合起来的统计量比各自独立的比例参数估计提供更多的信息。用表示两组组合样本属于前面表中类1比例的估计值,则就是两组组合样本中属于类2比例的估计值。使用该表中的符号,的定义如下式所示。2222(1)0H0H1212xxXpnnn1p2p1p2ppp1p13这样,为了计算属于类1(即列联表中第一行)的期望频数ef,用p乘以组一(或组二)的样本容量1n(或2n)即可得到;类似的,为了计算属于类2(即列联表中第二行)的期望频数ef,用1p乘以组一(或组二)的样本容量1n(或2n)即可得到,如表10.4所示。如下表所示:14应用案例有两家酒店,为了确定服务质量,要求顾客离开时做满意度调查,顾客可能会再次入住;根据调查数据得到的列联表如下表所示。问在显著性水平的情况下,顾客会回到酒店一和酒店二的比例是否相同。酒店是否再次入住酒店一酒店二总计类1(是)163154317类2(否)64108172总计227262489151617182.两个以上比例差异的检验19统计量是观测频数和期望频数差的平方除以每单元的期望频数,并对表中的2×c个所有单元格取和求得统计量的自由度为2(1)c因此在显著性水平下,两个以上源自独立样本的比例差异假设检验的决策规则为:如果22(1)c,拒绝cpppH.....:210否则,接受0H。20nXnnnxxxpcc2121此时,21应用案例如果有四家酒店,根据调查数据得到的列联表如下表所示。问在显著性水平的情况下,顾客会回到这四家酒店的比例是否相同。222324独立性检验25假设在上面例子中的酒店顾客满意度的调查中,向表明不会再次入住酒店的顾客问第二个问题。即不会再次入住的原因是什么,包括价格、位置、客房服务和其他等。调查结果的列联表如下表所示。试问在显著性水平的情况下,不会再次入住理由与酒店之间是否有联系?2627282930§10.3两个相关样本比例差异检验上述几节用2检验来检验比例差异时都要求独立性条件。然而,有时检验比例间差异的数据来自重复度量或配对取样,因此样本相关。譬如,当希望确定在一段时期态度、比例、或行为是否发生变化时,这样的情况经常发生。313233应用案例3435§10.4两个独立总体的非参数分析:Wilcoxon秩和检验如果样本容量很小,并且无法确定样本数据是否来自正态分布总体,此时可以选择以下两种方法来分析两独立总体均值间的区别:(1)用不依赖于正态总体假设的Wilcoxon秩和检验;(2)对于数据进行正态转换后使用合并方差的t检验。36秩设X为一总体,将一容量为n的样本观察值按从小到大的次序编号排列成(1)(2)()nXXX,称()iX的足标i为()iX的秩,1,2,,in。当其中几个数据相等时,那么这几个数据的秩取平均值。3738应用案例394041§10.5单因素方差分析的非参数分析:Kruskal-Wallis秩检验如果第9章中单因素方差分析的F检验的正态分布假设条件不符合时,可以使用Kruskal-Wallis秩检验。Kruskal-Wallis秩检验是两独立总体Wilcoxon秩和检验的延伸,主要用于检验项独立总体是否有相等均值。Kruskal-Wallis秩检验和单因素方差分析的F检验一样有效。

1 / 41
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功