卡方检验与方差分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1第十三章2检验与方差分析我们前面已经比较系统地讨论了双样本的参数和非参数检验的问题。现在,我们希望利用一般的方法来检验三个以上样本的差异,2检验法和方差分析法就是解决这方面问题的。2检验法可以对拟合优度和独立性等进行检验,方差分析法则可以对多个总体均值是否相等进行检验。后者由于通过各组样本资料之间的方差和组内方差的比较来建立服从F分布的检验统计量,所以又称F检验。第一节拟合优度检验1.问题的导出第十一章最后一节,我们将累计频数检验用于经验分布与理论分布的比较,实际已经提供了拟合优度检验的一种方法。2拟合优度检验与累计频数拟合优度检验相对应,在评估从经验上得到的频数和在一组特定的理论假设下期望得到的频数之间是否存在显著差异时,是一种更普遍的检验方法。2.拟合优度检验(比率拟合检验)据经验分布来检验总体分布等于理论分布的零假设,检验统计量是2o=频数理论理论频数观察频数/)(2理论证明,当n足够大时,该统计量服从2分布。因此对给定的显著性水平α,将临界值2与2o比较,可以就Ho作出检验结论。对于拟合优度检验,在试验规模小时,否定零假设的意义大,接受零假设的意义不大;若试验规模大时,则接受零假设的意义大,否定零假设的意义不大。3.正态拟合检验第二节无关联性检验2检验的另一个重要应用是对交互分类资料的独立性检验,即列联表检验。由于列联表一般是按品质标志把两个变量的频数进行交互分类的,所以,①2检验法用于对交互分类资料的独立性检验,有其它方法无法比拟的优点;②如何求得列联表中的理论频数就成了独立性检验的关键。21.独立性、理论频数及自由度检验统计量2o=eeofff2)(=cirjeijeijoijfff112)(进一步上式可变为2o=cirjeijoijff112n在使用2检验法进行列联表检验之前,还必须确定与2o这个检验统计量相联系的自由度,即(r×c-1)-(r-1)-(c-1)=(c-1)(r-1)。2.关于频数比较和连续性修正用卡方2o作为列联表的统计量,有两点我们应该特别注意。首先,列联表检验是通过频数而不是通过相对频数的比较进行的。其次,使用卡方2o对列联表进行检验.每一格理论频数eijf必须保持在一定数目之上。3.列联表的卡方分解若一个复杂的列联表具有显著性,有时需要检查子表以确定表格的那一部分卡方2o影响最大。一种可行的简便方法就是考察每一格的残差ije,其公式为ije=eijeijoijfff根据计算结果可以知道哪一个残差对卡方影响大。另一种方法是利用卡方分布的可加性,把r×c表的总体卡方分解为若干独立部分。4.关系强度的量度到目前为止,本节一直在讨论列联表变量间是否存在关系。其方法是建立变量间无关系的零假设,然后再试图否定它。然而,对变量间是否存在关系的讨论,必然引出对变量间关系强弱的讨论。在样本小的时候,获得显著性即表明变量间有强关系。对大样本来说,更重要的问题是:“如果变量间存在关系,其强度有多大?”现在由于PRE准则,许多不同测量层次的变量已经可以统一起来进行关联强度的讨论了。第三节方差分析方差分析,是一种很重要的分析方法,它可以检验两个以上样本均值之差。方差分析是均值差检验的推广,一般用于处理自变量是一个(或多个)定类变量和因变量是一个定距变量之间的关系。方差分析所包含的假定与均值差检验所包含的假定差不多,例如正态分布、独立随机样本、等方差性等,但检验本身却很不相同。方差分析直接涉及的是方差而不是均值和标准差。同时,比较也不取两种估计量之差,而是取两种估计量的比率。在两种估计量彼此独立的前提下,两种估计量之比率F具有已知的抽样分布,因而可进行很简单的检验。31.总变差及其分解第十二章已经引入了变差的概念。但在方差分析中,由于自变量都是定类变量,我们不能像回归分析那样找出自变量和因变量的线性或非线性关系,即不能确定自变量X取不同值时因变量Y的拟合值Yc,而只能研究自变量X取不同类别时,因变量Y的均值iY是否有所不同。但是在三种变差的讨论中,iY和Yc的地位是一样的。所以,有了上一章的知识,方差分析的方法是不难掌握的。首先我们看总变差。总变差这个概念不同于方差,在方差分析中记作SST,它表示ijY对于总均值Y的偏差之平方和,即SST=211)(cinjijiYY为什么会形成总变差这个散布度呢?显然有两个原因:一是三个样本可能不同,这使全部数据ijY有三个“中心”;二是随机抽样误差的影响,使数据在每个中心附近有散布。这样,将总变差分解成两部分。第一部分是各观测值ijY对其所属类别均值iY的偏差的平方和,称为组内变差,记作SSW。组内变差反映了数据围绕各“中心”的散布程度,即反映了ijY因随机波动所产生的变异,与自变量因素无关。换言之,SSW是自变量因素所没有解释的ijY的变异。因此,又称之为残差。第二部分是组间平方和,记作SSB,它涉及到诸类别均值iY对总均值Y的偏差,反映数据在c个“中心”附近的散布程度。2.关于自由度弄清了组间变差和组内变差,检验零假设(H0:μ1=μ2=…=μc)的思路也就梳理出来了:关键是比较两种变差是否有显著差异。但在统计学上,方差分析不取两者之差而取两者之比来进行这种比较。而且,方差分析不是直接用SSB/SSW作为检验统计量,而是用(可以解释的方差)/(不能解释的方差)作为检验统计量,即不能解释的方差可以解释的方差oF在统计学上,变差除以自由度即可“规格化”成方差。总自由度=组内自由度+组间自由度,即n―l=(n―c)+(c―1)。这样一来,在零假设(H0:μ1=μ2=…=μc)之下,检验统计量Fo的计算公式就找到了4Fo=WBMSMS=)/()1/(cnSScSSWB3.关于检验统计量Fo的计算总平方和(SST)=211)(cinjijiYY=2ijY―nYij2)(组间平方和(SSB)=21)(YYnciii=ciinjijnYi112)(―nYij2)(组内平方和(SSW)=总平方和(SST)―组间平方和(SSB)注意,由于总变差等于另两个变差之和,所以三个变差中仅需求出两个变差。求出组内平方和比求另两个平方和繁琐得多,故通常我们都是从总平方和减去组间平方和来求组内平方和的。检验统计量Fo=WBMSMS4.相关比率当方差分析的检验呈显著性后,进一步讨论两变量间的相关程度是很自然的。方差分析中相关程度的测定仍采用PRE法。PRE=010EEE=TWTSSSSSS=TBSSSS正是因为上式,我们把SSB称为已解释的变差。显然,已解释的变差越大,预测Y所减少的误差就越多,X与Y之间的关系就越密切。据此,方差分析中把已解释的变差对总变差的比值称为相关比率,用符号2表示2=1―TWSSSS2可用于一个定类变量与一个定距变量的相关程度的测定,当然也可以用于定序—定距变量或定距—定距变量的相关程度的测定。相关比率2研究的是定类—定距变量之间的相关程度。由于定类变量不具有数量大小的问题,不存在关系是否线性的问题。因此,当2被用于研究定距—定距变量之间的关系时,不仅可以作为线性相关的量度,也可以作为非线性相关的量度。这意味着,对线性相关,5相关比率2与r2(积差系数之平方)有相同的PRE性质;但如果对非线性相关,用积差系数r来讨论就不行了。对于定距—定距变量,曲线相关既然要用R来测量,那么反过来,同一资料通过相关指数R与积差系数r计算的比较,可以判断确定两定距变量的关系是不是直线。如果同时求出r与R,r等于或略大于R,可说明两变量关系是直线的,用r去测量是合适的;如果r<R,则说明两变量关系可能是曲线的。5.关于方差分析的几点讨论鉴于方差分析的重要性,我们有必要对它进行某些深入讨论:(1)MSB和MSW可以分别称为组间方差和组内方差,其中(在等方差的假设下)组内方差总是σ2的无偏估计;而组间方差,只有当诸总体(即各样本所代表的子总体)均值实际上相等时,它才是σ2的无偏估计。(2)方差分析的优点在于,一个检验可以代替多个检验。(3)方差分析中的自变量X如果是二分变量,也可以采用均值差t检验。(1)如果对因变量Y影响的自变量由一个变为两个以上,我们就将面对多元方差分析了。总变差分解的思想可以直接推广至多因素显著性检验。第四节回归方程与相关系数的检验1.回归系数的检验检验两个总体变量(定距—定距变量)是否具有线性关系,主要是检验总体的回归系数B是否等于零。在H0成立的条件下,检验回归直线的统计量可构造为Fo=)2/()(1/)(22nYYYYcc~F(1,n―2)对选定显著性水平α,可查表得临界值Fα。若出现Fo>Fα(1,n―2)的情况,则拒绝H0,即认为回归方程中X变量对Y的解释力是显著的;若出现Fo<Fα(1,n―2)的情况,则不能拒绝H0,即认为回归方程中X变量对Y没有的显著的解释力。2.积差系数的检验在社会研究中,要想确切了解两总体变量(定距—定距变量)间的积差系数是很困难的。所以,通常需要通过样本积差系数的统计检验来认识总体的积差系数ρ。设有两变量X和Y,它们的积差系数记为ρ。当ρ=0时,表示X和Y不具有线性相关关系,当ρ≠0时,表示X和Y具有线性相关关系。统计理论证明,样本积差系数r是总体积差系数ρ的一个无偏估计量,有)(rE=ρ,)(rD=212nr6而且当ρ=0时,样本容量越大,r(显然为一随机变量)的抽样分布越接近于自由度为n―2的t分布(见图13.1)。因而有检验统计量to=r212rn~t(n―2)3.回归方程的区间估计对于定距—定距变量计算积差系数r时,要求相关的两个变量均为随机变量。回归分析则不同,因为回归方程旨在披露X和Y之间的因果联系,所以自变量X是给定的,只有因变量Y才是随机的。这样一来,就回归线来说,Y值在每个估计值Yc两侧都有个随机分布。而且,Yc对Y的代表性越高,Y值在回归线两侧分布得就越集中;Yc对Y的代表性越差,Y值在回归线两侧分布得就越分散。根据第九章的知识,当知道Y和X有关系后,用Yc来估计Y固然可以消减不少估计误差,这也不过是点估计。而如果我们能在拟合值Yc上下设置一个合适区间,那么Y被估计到的可能性便会大大增加。这样一来,回归方程区间估计的问题便提出来了。当然,在回归线两侧设置一个估计区间总是容易做到的,但问题是我们需要对估计的信度和效度作通盘考虑。为此,我们必须了解Y在Yc两侧的分布特征以及Y在Yc两侧的分散程度。所幸的是,由于误差为正态分布的原理(即中心极限定理),当样本容量n大于30时,我们可以作如下假定:(1)Y的实际观测值在对应的每个估计值Yc周围都是正态分布。越靠近Yc的地方,Y值出现的机会越多;反之出现的机会越少;(2)所有正态分布都具有相同的标准差,即所谓的同方差性。于是,除了重温过去的知识,只有一个具体问题要解决:为了测定回归线的代表性,有必要参照标准差的意义,引进一个离中趋势的量度——估计标准误差,记作SY/X,用来反映围绕回归线的Y值的离散程度。在这里,求算估计标准误差具有第九章中求算抽样平均误差同样的意义。SY/X=22nYYc)(直接采用上式来计算估计标准误差比较麻烦,实际计算时,一般将上式简化为SY/X=22nYXbYaY有了估计标准误差,再结合回归方程,就可以对因变量Y进行估计和推断了。具体来说,就是建立回归估计的置信区间(参见第九章“区间估计”一节),借以确定回归方程预测或控制Y的范围。

1 / 6
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功