假设检验统计检验方法1.假设检验2.拟合优度检验3.因子分析4.聚类分析5.组合分析假设检验的逻辑•得到原始数据之后,我们通过编辑、编码、输入、分析等步骤最后得到可以做为决策依据的信息;•疑问:这个信息是不是只代表了这一次的取样特点?假设检验的逻辑•例:为了对于荒野地区和国家公园的开发和控制。总共有一万人参加了调查,并回答了一系列问题。其中一个主要的问题是如何控制某些广受欢迎的漂流运动河流的人数。一种极端的政策是限制性非常强的政策,通过许可证制度,保护国家公园的荒野特征。另一种相反的极端政策是不受限制的使用这些荒地。这个问题用尺度的方法测量。假设检验的基本步骤1.问题的界定2.明确零假设和被择假设3.选择适当的检验方法和适当的概率分布4.选择临界值5.比较检验统计量和临界值6.作出判断,拒绝或接收假设检验的基本概念1.零假设与被择假设•注:假设检验的目的不是质疑样本的统计量的计算结果。而是对样本统计量和总体参数假设之间的差作出一个判断2.假设检验的能力•理想情况应该可以接收错误的零假设•置信度假设检验的基本概念3.自由度:•样本统计量不受约束的数据数量4.单尾检验和双尾检验•注:假设检验的目的不是质疑样本的统计量的计算结果。而是对样本统计量和总体参数假设之间的差作出一个判断选择合适的概率分布假设检验组数/样本数检验目的统计检验频数一拟合优度卡方分布二独立性检验卡方比例一比较样本和总体各自的比例比较两个样本各自的比例tt均值一比较样本和总体各自的均值t二比较多个样本均值F方差一二比较样本方差和总体方差比较样本方差卡方F选择临界值•显著性水平的概念(板书)•显著性水平的选择没有简单的规则可循,通常选取接近于0的正数•常用的显著性水平有1%5%和10%两种错误H0为真接受H0正确拒绝H0错误(弃真)H0为伪接受H0错误(取伪)拒绝H0正确人们当然希望这两类错误都很小,但是当样本容量n一定的时,第一类错误和第二类错误发生的概率是互补的。要同时要降低这两类错误,则要求增加样本容量。实际操作时是控制的大小来进行调整的。参数检验——统计推断——平均数分析统计推断•概念–根据已收集到的样本数据推断样本来自的总体的分布或总体均值、方差等总体统计参数。•产生原因–总体数据无法全部收集到;–总体数据虽能全部收集到,但将要耗费大量的人力和物力。统计推断•分类–参数检验•假设总体分布已知,根据样本的参数推断总体的参数。–非参数检验•假设总体分布未知,根据样本的分布推断总体的分布。平均数分析•功能–用样本均值来推断总体均值的方法。•内容–单样本t检验–两独立样本t检验–两配对样本t检验–一般平均数分析•原理–检验目标:通过计算样本均值来估计总体均值是否为某个确定的值。–前提:•大样本,总体方差未知;•小样本,要求总体服从正态分布。–原假设–计算检验统计量;–根据统计量的值查表得到对应的相伴概率值;–作出判断:•当,拒绝,总体均值与检验值之间存在显著差异;•当,接受,总体均值与检验值之间不存在显著差异。单样本t检验00:Hip0Hip0HnSut/0tip030n30n单样本t检验•SPSS操作步骤–打开单样本t检验对话框•AnalyzeComparemeansOne-SampleTTest…–选择分析变量–确定待检参数–确定置信度和缺失值的处理方法–输出t检验结果单样本t检验•实例–对“休闲调查1”中的“住房面积”变量进行单个样本的t检验。原假设为:城市居民的户均住房面积为38平方米。•原理–检验目标:根据样本数据对它们来自的两独立总体的均值是否有显著性差异进行推断。–前提:•两样本相互独立(个案数目可不同,变量值顺序可更改)•样本来自的两个总体服从正态分布–原假设两总体均值之间不存在显著差异–判断两总体的方差是否相等(方差检验,F检验)–根据判断结果,决定t统计量和自由度的计算公式–对两样本的均值差进行t检验,作出判断两独立样本t检验:0H两独立样本t检验•SPSS操作步骤–打开两独立样本t检验对话框•AnalyzeComparemeansIndependent-SamplesTTest…–选择分析变量–确定分组变量–确定分组变量的取值–确定置信度和缺失值的处理方法–输出t检验结果两独立样本t检验•实例–1.用“休闲调查”中的数据分析不同性别的被调查者家庭的住房面积是否有差异。–2.用“休闲调查”中的数据分析初中学历与高中学历的被调查者家庭的住房面积是否有差异。(练习)–3.用“休闲调查”中的数据分析40岁以下与40岁以上被调查者家庭的住房面积是否有差异。•原理–配对样本:同一样本的某个变量进行前后两次测试所获得的两组数据,或是对两个完全相同的样本在不同条件下进行测试所获得的两组数据。–检验目标:根据样本数据对它们来自的两配对总体的均值是否有显著性差异进行推断。–前提:•两样本是配对的(个案数目相同,变量值顺序不能随意更改);•样本来自的两个总体服从正态分布;–原假设两总体均值之间不存在显著差异。–求出两总体对应观测值的差值,得到差值序列。–对差值序列的均值进行单样本t检验,判断该均值是否与零有显著差异。–根据差值序列的t检验判断结果。两配对样本t检验:0H两配对样本t检验•SPSS操作步骤–打开两配对样本t检验对话框•AnalyzeComparemeansPaired-SamplesTTest…–选择分析变量–确定置信度和缺失值的处理方法–输出t检验结果两配对样本t检验•实例–“贫困调查”中的“满意度1”是贫困人口获得低保以前的生活满意度测量结果,“满意度2”是贫困人口获得低保以后的生活满意度测量结果。检验获得低保前后的生活满意度是否有变化。一般平均数分析•功能–均值的比较和检验过程。•原理–根据某分类变量对数据进行分组后,通过比较各组的均值的差异的大小来确定总体中这两个变量是否相关。一般平均数分析•SPSS操作步骤–打开平均数分析对话框•AnalyzeComparemeansMeans…–选择分析变量–确定分组变量–选择输出的统计量–输出平均数分析结果一般平均数分析•实例–用“休闲调查”中的数据进行不同教育水平的被调查者的户均住房面积的平均数分析。补充练习•1、某轮胎厂的质量分析报告中说明,该厂某轮胎的平均寿命在一定的载重负荷与正常行驶条件下会大于25000公里。平均轮胎寿命的公里数近似服从正态分布。现对该厂的这种轮胎抽取一容量为15个的样本如下,能否作出结论:该产品与申报的质量标准是否相符?21000,19000,33000,31500,18500,34000,29000,26000,25000,28000,30000,28500,27500,28000,26000补充练习•2.某物质在处理前与处理后分别抽样分析其含脂率如下:–处理前:0.19,0.18,0.21,0.30,0.41,0.12,0.27–处理后:0.15,0.13,0.07,0.24,0.19,0.06,0.08,0.12假定处理前后的含脂率都服从正态分布,且方差相同。问:处理前后的含脂率的均值是否有显著变化?补充练习•3.某单位研究饮食中缺乏维生素E与肝中维生素A含量的关系。将同种属的大白鼠按性别相同、年龄体重相近者配成对,共8对,并将每对中的两头动物随机分到正常饲料组和维生素E缺乏组。一定时期后,将大白鼠杀死测得其肝中维生素A的含量。结果如下表,问:不同饲料的大白鼠中维生素A含量有无差别?大白鼠对号12345678正常饲料组35502000300039503800375034503050维生素A缺乏组24502400180032003250270025001750上机实践•主题:参数检验–熟练掌握使用SPSS进行统计分析的操作方法。•练习–SPSS电子教材案例。–补充练习(下课前提交)。非参数检验本讲主要内容1.非参数检验概述2.单样本非参数检验3.多样本非参数检验非参数检验概述•假设总体分布未知,根据样本的分布推断总体的分布。单样本非参数检验•卡方检验•二项分布检验•K-S检验•游程检验•四种单样本非参数检验方法的比较•原理–检验目标:根据样本数据推断总体的分布与期望分布或某一理论分布是否有显著差异。–零假设:样本来自的总体其分布形态与期望分布或某一理论分布无显著差异;–统计量–根据统计量的值查表得到对应的相伴概率值;–作出判断:•当,拒绝•当,接受卡方检验0Hip0Hip0H1~2kQipQ卡方检验•SPSS操作步骤–打开卡方检验对话框•AnalyzeNonparametricTestsChiSquare–选择分析变量–确定理论分布范围–确定分布的理论值–选择输出结果的形式及缺失值的处理方法–输出检验结果卡方检验•实例–从以往的了解得知,贫困人口中的大部分人是因为疾病或年老而丧失劳动能力的人,其身体状况的分布基本为生活完全不能自理的占5%,生活基本不能自理的占10%,生活能自理但无劳动能力的占20%,部分丧失劳动能力的占25%,身体健康的占40%。用“贫困调查”中“身体状况”这一变量的数据的分布来检验本次调查总体的贫困人口身体状况的分布与上述比例是否一致。•二项分布–某一变量的取值是两类的,若一类出现的概率是p,则另一类出现的概率是1-p,这种分布称为二项分布。12.2.2二项分布检验•原理–检验目标:根据样本数据推断总体的分布与指定的某个二项分布是否有显著差异。–零假设:样本来自的总体其分布形态与期望分布或某一理论分布无显著差异;–统计量–根据统计量Z的值查表得到对应的相伴概率值;–作出判断:•当,拒绝•当,接受12.2.2二项分布检验0Hip0Hip0HnBZ~ip二项分布检验•SPSS操作步骤–打开二项分布检验对话框•AnalyzeNonparametricTestsBinomial–选择分析变量–确定二分值–确定检验概率的值–选择输出结果的形式及缺失值的处理方法–输出检验结果二项分布检验•实例–前期调查表明,贫困人口中的绝大多数都是无业者,在职人员不到10%。用“贫困调查”的“人员类别”这一变量的数据的分布来检验本次调查的总体是否为上述比例。•原理–检验目标:根据样本的分布来确定总体是否服从某种分布。–零假设:样本来自的总体其分布形态服从给定的分布;–统计量T–根据统计量T的值查表得到对应的相伴概率值;–作出判断:•当,拒绝•当,接受K-S检验0Hip0Hip0HipK-S检验•SPSS操作步骤–打开K-S检验对话框•AnalyzeNonparametricTests1-sampleK-S–选择分析变量–确定要检验的分布(4个选项)–选择输出结果的形式及缺失值的处理方法–输出检验结果K-S检验•实例–检验“休闲调查”中的“住房面积”变量是否服从正态分布。游程检验住房面积19243544475658687886899198120140156学历0001000011111011•游程的概念–设有两个变量X和Y,X为定距以上变量,Y为二分名义变量。如果Y不是二分名义变量,可取分割点进行转换。将X按大小排列后,再用Y的取值作为数据的标志,将数据分为两类。在数列的排序中,每个标志的一个持续就是一个游程。–如X--住房面积;Y--学历(0:大学以下学历;1:大学或大学以上学历)•原理–检验目标:根据样本数据对总体某变量的取值是否随机进行检验或检验两个总体的分布是否相同。–零假设:两个总体的分布无显著性差异。–统计量–根据统计量的值查表得到对应的相伴概率值;–作出判断:•当,拒绝•当,接受游程检验0Hip0Hip0H2u~,Nip游程检验•SPSS操作步骤–打开游程检验对话框•AnalyzeNonparametricTestsRuns–选择分析变量–指定分割点–选择输出结果的形式及缺失值的处理方法–输出检验结果游程检验•实例–检验在“休闲调查1”中,大专以下文化水平与大专和大专以上文化水平的被调查者的住房面积是否有显著差异。四种检验方法的