数据统计分析软件——SPSS五、平均数比较与T检验假设检验是非常重要的一类统计推断问题。假设检验技术不仅可以对总体分布的某些参数,而且也可以对总体本身的分布做出假设,通过对样本的统计分析来判定该假设是否成立,从而对总体分布给以进一步的确认。如:已知样本来自正态总体,是否有理由说它是来自均值为的正态总体;再如,已知两个相互独立的样本,分别来自两个正态总体,能否说这两个总体均值相同或方差相同。0假设检验中的几个基本概念1.原假设与备择假设2.两类错误3.检验统计量4.拒绝域与临界值5.显著性水平例:一种零件的生产标准是直径应为10cm,为对生产过程进行控制,质量监测人员定期对一台加工机床检查,确定这台机床生产的零件是否符合标准要求。如果零件的平均直径大于或小于10cm,则表明生产过程不正常,必须进行调整。试陈述用来检验生产过程是否正常的原假设和备择假设。解:建立的原假设和备择假设为H0:u=10cmH1:u≠10cm1.第Ⅰ类错误(弃真错误)原假设为真时拒绝原假设第Ⅰ类错误的概率记为被称为显著性水平2.第Ⅱ类错误(取伪错误)原假设为假时未拒绝原假设第Ⅱ类错误的概率记为假设检验中的两类错误两类错误的关系N一定,不能同时减少两类错误!和的关系就像翘翘板,小就大,大就小拒绝域与临界值假设检验的目的在于判断样本统计量与假设的总体参数之间的差异。不同的抽样方法对应着不同的标准。显著性水平就是用来判断接受和拒绝原假设的标准,通常用表示。1.在一次试验中,一个几乎不可能发生的事件发生的概率为零。2.在一次试验中小概率事件一旦发生,我们就有理由拒绝原假设。3.由研究者事先确定。假设检验的步骤1.根据具体问题的要求,建立原假设H0和备择假设H1。2.选择一个合适的检验统计量,它应与原假设有关,而且当原假设H0为真时统计量的分布已知。3.给定显著性水平,当原假设H0为真的,求出临界值。4.由样本观测值计算检验统计量的数值,按检验规则,对原假设作出拒绝或接受的判断。注:当总体标准差未知时一般采用T分布检验;当总体标准差已知时一般采用正态分布检验。SPSS的输出结果中给出了相应检验统计量的实际取值,但由于显著性水平根据不同要求而有所不同,SPSS并不给出临界值。如果不查概率表,就无法直接采用上面的步骤进行检验。SPSS给出了检验统计量的概值即文献中常见的p值(p-value),或称为相伴概率。利用p值就可以直接进行检验。p值是在零假设成立的情况下,检验统计量的取值等于或超过检验统计量的实际值的概率,从而p值即为否定零假设的最低显著性水平。p值经常被称为实际显著性水平,以区别于给定的显著性水平当p时,意味着如果给定一个真实的零假设,那么检验统计量的取值等于或超过实际观察到的极端值的概率为。大多数学者都把这一结果解释为支持你否定零假设而接受替代假设的证据。有学者称p值为“实验使零假设相信者感到吃惊的程度的度量”。p值越小,零假设相信者吃惊的程度越高。为了便于记忆,我们可以把p值理解为零假设的支持率或可信程度。当p时,我们拒绝零假设,如在0.05的显著水平下,如果p0.05,我们就可以否定零假设。在进行单侧检验时,需要比较和的大小。2pSPSS提供了计算指定变量的综合描述统计量的过程和对均值进行比较检验的过程:(1)用于计算变量的综合统计量的Means过程[Analyze]=[CompareMeans]=[Means](2)用于单独样本的t检验过程[Analyze]=[CompareMeans]=[One-SampleTTest](3)用于独立样本的t检验过程[Analyze]=[CompareMeans]=[Independent-SamplesTTest]用于检验是否两个不相关的样本来自具有相同均值的总体。(4)用于配对样本的t检验过程[Analyze]=[CompareMeans]=[Paired-SamplesTTest]用于检验两个相关的样本是否来自具有相同均值的总体。1、分组平均数的比较“DependentList”选项框中选入的是因变量,可直接用来计算各级平均数。“IndependentList”选项框中入选的是独立变量,即“分组变量”,此时要清楚是平行的分组变量还是层叠分组变量。如:若同时按照年龄、性别分组情况下的年经济收入是平行分组;先按不同性别分组,再按年龄分组情况下的年经济收入是层叠分组。并行分组时同时输入性别和年龄变量;而层叠分组应先输入性别变量,单击“Next”按钮,再输入年龄变量。2、单一样本T检验单样本T检验是指样本平均与总体平均数的差异检验。样本平均数()与总体平均数μ往往大小不一,这差异是由于抽样误差造成,还是本质性误差—样本根本不是来源于该总体。如果差异显著,则认为样本平均数与总体平均数μ的差异已不能完全认为是抽样误差了。x对于单个正态总体,常用T统计量来检验样本均数是否等于总体平均数即若计算的T统计量大于等于,或相伴概率小于,则认为在显著性水平下,样本统计量落入拒绝域,所以拒绝原假设;反之,则不能拒绝原假设。x01::HxHx,/xTsn0.05T0.05AnalyzeCompareMeansOneSampleTtest在“TestVariables”选项框中输入需要检验的变量。在“TestValue”输入一个值作为假设检验值。在“Options”对话框中,还可以输出置信区间,一般取为90%,95%,99%等。以及缺失值的处置方式。例1、以“Employeedata.sav”为资料,计算公司职工的平均受教育年数,假定该地区人口平均受教育年数为13年,现问,公司职工文化程度是否等同于居民文化程度?其中,显著性水平为=0.05统计量观测值为t=3.71,自由度为df=473,双尾概率P值为Sig=0.000,拒绝原假设,平均受教育年数不等于13年。实际上,样本平均数与总体平均数的差异为0.492,以95%的可靠性估计平均数在(13.23,13.75)之间,确实不包含13。例2、某省大学英语四级考试的平均成绩为65分,现从某校随机抽取20份试卷,其分数为:7276687862596485707561748783547656666862。问该校英语水平与全区是否基本一致。其中,显著性水平为=0.05。例3、某企业生产的零件直径服从正态分布,从中抽取5件测得直径分别为:22.3,21.5,22.0,21.8,21.4。问零件的平均直径是否为21。其中,显著性水平为=0.05。练习题利用住房状况调查数据,推断家庭人均住房面积的平均值是否为20平方米。其中,显著性水平为=0.05。利用保险公司人员构成的数据,推断35岁以下年轻人所占比例的平均值与0.5有无显著差异。推断具有大专及其以上教育水平的员工的平均比例是否不低于0.8。其中,显著性水平为=0.05。3、两独立样本平均数差异T检验独立样本(IndependentSample)是指两个样本彼此独立,没有任何关联。例如实验组与控制组、男生组与女生组、高收入组与低收入组、大学数学系与物理系等。利用来自两个总体的独立样本,推断两个总体的均值是否存在显著差异。两个独立样本均值之间差异用T统计量进行检验。AnalyzeCompareMeansIndependentSampleTtest例4、例4:用“Employeedata.sav”资料,问:清洁工(jobcat=1)的受教育年数与保管员(jobcat=2)和经理(jobcat=3)的受教育年数是否有显著差异?其中,显著性水平为=0.05。在“TestVariables”选项框中加入要检验的变量。在“GroupingVariable”选项框中输入分组变量,此时可以通过“DefineGroups”定义分组值,其中,“Usespecifiedvalues”是选择合适的第一组、第二组分组变量值。“Cutpoint”是输入一个临界点值,将数据分为两组,大于等于该分组值的case属于同一个组,其余的为另外一个组。结果分析:1、由上表中可以看出前者为111人,平均受教育年数分别为15.53,后者363人,平均受教育年数为12.87,有一定差异。2、第一步:F统计量的观测值为20.93,由于对应的概率P值Sig=0.000.05,所以认为清洁工与保管员和经理之间的受教育年数两总体方差有显著差异。由于两总体方差有差异,所以应看第二行(Equalvariancesnotassumed)t检验的结果,对应的t观测值为7.484,对应的概率P值Sig=0.000.05,所以认为两总体的均值有显著差异。练习题利用住房状况调查数据,推断本市户口总体和外地户口总体的家庭人均住房面积的平均值是否有显著差异。利用保险公司人员构成数据,分析全国性保险公司与外资合资保险公司的人员构成中具有大专及其以上学历的员工比例的均值是否有显著差异。4、两配对样本平均数差异T检验配对样本(PairedSample)或相关样本(CorrelatedSample),指两个样本的观测值之间彼此有关联,如实验前和实验后的测量,研究者感兴趣的是二次测量之间是否存在差异。如为研究某种减肥茶是否有显著的减肥效果,对肥胖人群喝茶前后的体重进行分析,看均值有无显著差异。两个配对样本均值之间差异用T统计量进行检验。配对样本检验就是根据配对样本均值之间的差异,检验两个总体均值是否相等。在“Paired-SamplesTTest”对话框中定义要比较的变量对,如,员工的目前工资与起始工资。AnalyzeCompareMeansPaired-SamplesTtest例5、例5、用“Employeedata.sav”资料,分析美国企业现在工资与过去工资是否有明显差异。由于Sig=0.000,所以原假设不成立,既可以认为目前工资与开始时工资有显著性差异。练习题利用减肥茶数据,推断减肥茶是否有明显的减肥作用。检验两个或多个样本平均数间差异是否有显著性意义,是通过样本方差比较而得到的,又称为方差分析。OneWay过程是一个因变量单因素简单方差分析过程,在“Analyze”菜单中的“CompareMeans”过程组中,用“OnewayANOVA”菜单项调用。5、多个平均数检验