第三章全距也称极差,是一组数据的最大值与最小值之差。R=最大值-最小值组距分组数据可根据最高组上限-最低组下限计算。四分位数:数据按大小顺序排序后把分割成四等分的三个分割点上的数值。SPSS中四分位数的位置为(n+1)/4,2(n+1)/4,3(n+1)/4。Excel中四分位数的位置分别为(n+3)/4,2(n+1)/4,(3n+1)/4。如果四分位数的位置不是整数,则四分位数等于前后两个数的加权平均。四分位距等于上四分位数与下四分位数之差IQR=Q3-Q1反映了中间50%数据的离散程度,数值越小说明中间的数据越集中。不受极端值的影响。可以用于衡量中位数的代表性。方差是一组数据中各数值与其算术平均数离差平方的平均数,标准差是方差正的平方根。是反映定量数据离散程度的最常用的指标。离散系数:标准差与其相应的均值之比,表示为百分数。特点:(1)反映了相对于均值的相对离散程度;(2)可用于比较计量单位不同的数据的离散程度;(3)计量单位相同时,如果两组数据的均值相差悬殊,离散系数可能比标准差等绝对指标更有意义数据分布的不对称性称作偏态。偏态系数就是对数据分布的不对称性(即偏斜程度)的测度。峰度:数据分布的扁平或尖峰程度。峰度系数:数据分布峰度的度量值,对数据分布尖峰或扁平程度的测度,一般用K表示。箱线图用于描述数据分布特征的一种图形。最简单的箱线图可以根据数据的最大值、最小值和三个四分位数绘制的:先根据三个四分位数Q1、Q2、Q3画出中间的盒子,然后由盒子两端分别向最大、最小值连线。在SPSS中标准的箱线图一般是这样绘制的:先根据三个四分位数Q1、Q2、Q3画出中间的盒子;由Q3至Q3+1.5*IQR区间内的最大值向盒子的顶端连线,由Q1至Q1-1.5*IQR区间内的最小值向盒子的底部连线;处于Q3+1.5*IQR至Q3+3*IQR或者Q1-1.5*IQR至Q1-3*IQR范围内的数据用圆圈标出;大于Q3+3*IQR或者小于Q1-3*IQR的用星号标出。例子:数据的Z值也称标准化值,等于变量值与其平均数的离差除以标准差,用Z表示。Z值的均值等于0,标准差等于1。sxxiiz是对某一个值在一组数据中相对位置的度量。z0说明观测值大于均值。z0说明观测值小于均值。z=1.2说明观测值比均值大1.2倍的标准差第四章假设检验推断统计:在搜集、整理观测样本数据的基础上,对有关总体作出推断特点:随机性的观测样本数据以及问题的条件和假定,对未知事物作出以概率形式表述的推断参数估计(1)基本概念:点估计:用估计量的数值作为总体参数的估计值。一个总体参数的估计量可以有多个。例如,在估计总体方差时,和都可作为估计量。点估计量常用的评价准则:a无偏性:估计量的数学期望与总体待估参数的真值相等:b有效性:在两个无偏估计量中方差较小的估计量较为有效。c一致性:指随着样本容量的增大,估计量越来越接近被估计的总体参数。区间估计:根据事先确定的置信度1-α给出总体参数的一个估计范围。置信度1-α的含义是:在同样的方法得到的所有置信区间中,有100(1-α)%的区间包含总体参数。置信是什么?抽样分布:区间估计的理论基础。从总体中抽取一个样本量为n的随机样本,我们可以计算出统计量的一个值。如果从总体中重复抽取样本量为n的样本,就可以得到统计量的多个值。统计量的抽样分布就是这一统计量所有可能值的概率分布。抽样分布的要点:抽样分布是统计量的分布而不是总体或样本的分布。在统计推断中总体的分布一般是未知的,不可观测的(常常被假设为正态分布)。样本数据的统计分布是可以直接观测的,最直观的方式是直方图,可以用来对总体分布进行检验。抽样分布一般利用概率统计的理论推导得出,在应用中也是不能直接观测的。其形状和参数可能完全不同于总体或样本数据的分布。.样本均值的均值(数学期望)等于总体均值.样本均值的方差等于总体方差的1/n样本均值抽样分布结论:一般的,当总体服从N(μ,σ2)时,来自该总体的容量为n的样本的均值x也服从正态分布,X的期望为μ,方差为σ2/n。即x~N(μ,σ2/n)。σ2=10/4=2.5中心极限定理:从均值为μ,方差为2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为2/n的正态分布。简单随机抽样、重复抽样时,样本均值抽样分布的标准差等于n,这个指标在统计上称为标准误。统计软件在对变量进行描述统计时一般会输出这一结果。简单随机抽样、不重复抽样时,样本均值抽样分布的方差略小于重复抽样的方差,等于1n2NnN,称为有限总体校正系数,当抽样比(n/N)0.05时可以忽略有限总体校正系数。总体均值和比例的区间估计总体比例的区间估计:当时总体比例的置信区间可以使用正态分布来进行区间估计。(样本比例记为,总体比例记为π)置信区间的补充说明:P=1-α置信度含义的说明:必要样本容量的确定:(1)实际抽样误差:总体参数估计值与真实值之间的绝对离差称为实际抽样误差,是一个随机变量。(2)抽样平均误差:样本均值的标准差,也就是前面说的标准误。它反映样本均值(或比例)与总体均值(比例)的平均差异程度。例如对简单随机抽样中的样本均值有:我们通常说“抽样调查中可以对抽样误差进行控制”,就是指的抽样平均误差。影响因素:1.总体内部的差异程度;2.样本容量的大小;3.抽样的方式方法(3)最大允许误差:在确定置信区间时样本均值(或样本比例)加减的量,一般用E来表示,等于置信区间长度的一半。置信区间=是人为确定的,是调查者在相应的置信度下可以容忍的误差水平。必要样本量受以下几个因素的影响;(1)总体标准差。总体的变异程度越大,必要样本量也就越大。(2)最大允许误差。最大允许误差越大,需要的样本量越小。(3)置信度1-α。要求的置信度越高,需要的样本量越大。(4)抽样方式。其它条件相同,在重复抽样、不重复抽样;简单随机抽样与分层抽样等不同抽样方式下要求的必要样本容量也不同。简单随机抽样时的必要样本量(计算题):估计总体比例时样本容量的确定:上式中的总体比例π可以通过以下方式估计:根据历史资料确定通过试验性调查估计取为0.5估计总体均值时样本容量的确定:上式中的总体方差σ可以通过以下方式估计:根据历史资料确定通过试验性调查估计不重复抽样时的必要样本量比重复抽样时的必要样本量要小。n0是重复抽样时的必要样本容量。例子需要多大规模的样本才能在90%的置信水平上保证均值的误差在±5之内?前期研究表明总体标准差为45.95%置信度时,22Z/2=1.96,π未知时取为0.5假设检验:事先作出关于总体参数、分布形式、相互关系等的命题(假设),然后通过样本信息来判断该命题是否成立(检验)。利用假设检验进行推断的基本原理是:小概率事件在一次试验中几乎不会发生。假设检验的步骤:(1)根据实际问题提出一对假设(零假设和备择假设);(2)构造某个适当的检验统计量,并确定其在零假设成立时的分布;(3)根据观测的样本计算检验统计量的值;(4)根据犯第一类错误的损失规定显著性水平a;(5)确定决策规则:根据确定检验统计量的临界值并进而给出拒绝域,或者计算p值等;下结论:根据决策规则得出拒绝或不能拒绝零假设的结论。注意“不能拒绝零假设”不同于“接受零假设”。零假设和备择假设是互斥的,它们中仅有一个正确;等号必须出现在零假设中;单侧检验时零假设和备择假设的选择(1)通常把研究者要证明的假设作为备择假设;(2)将所作出的声明作为原假设;(3)把现状作为原假设;(4)把不能轻易否定的假设作为原假设;检验统计量:用来决策(拒绝或不能拒绝零假设)时依据的样本统计量。不同的总体参数适用的检验统计量不同。拒绝域:检验统计量取值的集合,当根据样本得到的检验统计量的值属于该集合时,拒绝零假设。假设检验中的两类错误与显著性水平两类错误的概率两类错误不可避免;要减小其中的一种错误,通常只能通过增加另一种错误的方法做到。求下使犯第二类错误的概率尽量小。允许犯第一类错误的概率α称为显著性水平。通常α取为0.01,0.05,0.1。根据α可以确定检验统计量的临界值,并根据统计量的样本观测值和临界值得出检验结论。单个总体的假设检验均值的双边检验某厂生产的铁丝抗拉力服从正态分布,其平均抗拉力为570kg,标准差为8kg。由于更换原材料,标准差不会变,但不知其抗拉力是否不变,从中抽取10个样品,得平均抗拉力575kg,能否认为平均抗拉力无显著变化?(α=0.05)1、提出零假设和备择假设2、选择检验统计量:根据题意3、检验统计量的观测值4、显著性水平等于0.05。确定了零假设和备择假设,就可以确定是什么检验了,σ是标准差,s是方差均值右侧检验问题平均说来,一个有丈夫和两个孩子的家庭主妇每周用于与家庭有关活动的时间不超过55h。抽取8个家庭主妇的每周工作时间作为样本,得到数据:58,52,64,63,59,62,62,55。有妇联组织认为每周平均工作时间超过55小时,你的结论是什么?(假设总体为正态分布)解:根据题意,观测到的t统计量的值等于对于t分布,用表示t统计量的观测值,双侧检验时,p值=P(obstt),右侧时,p=P(obstt);左侧p=P(obstt)描述统计结果pα=0.05,所以不能拒绝两个总体均值的比较:检验统计量的选择两个总体方差相等和不相等时,t统计量的计算公式不同。因此,检验两个总体的均值是否相等时,需要先检验两个总体的方差是否相等!例:某农业研究所研制出一种新的化肥,现要研究施肥土地的小麦产量是否比不施肥土地的小麦产量有显著提高,随机抽取几块土地进行试验。选10快试验田不施肥,结果最后的每亩产量数据为(单位:公斤):172、158、186、214、224、228、196、190、202、170。另选8块试验田施肥,结果最后的每亩产量数据为:252、204、234、246、222、210、244、212。试检验施肥和不施肥的平均亩产量有无显著差异(α=0.05)两个总体均值差异的检验(匹配样本)如果两个样本是非独立的匹配样本,即两个样本中的数据是一一对应的,这时对两个总体的均值的比较,就是对两个样本对应数据之差的检验。p值=0.5820.05,不能拒绝方差相等的原假设。在方差相等时下面一行的输出结果无效。在方差不相等时上面一行的输出结果无效。p值=0.0040.05,拒绝均值相等的原假设。第5章方差分析方差分析:主要目的是通过对方差的比较来检验多个均值之间差异的显著性(可看作t检验的扩展,只比较两个均值时与t检验等价),主要用于研究一个定量因变量与一个或多个定性自变量的关系。基本原理:1.比较两类误差,以检验均值是否相等2.比较的基础是方差比3.如果系统(处理)误差显著地不同于随机误差,则均值就是不相等的;反之,均值就是相等的4.误差是由各部分的误差占总误差的比例来测度的随机误差因素的同一水平(总体)下,样本各观察值之间的差异。比如,同一专业下不同毕业生的起薪是不同的。这种差异可以看成是随机因素的影响,称为随机误差系统误差因素的不同水平(不同总体)下,各观察值之间的差异。比如,不同专业之间的毕业生的起薪之间的差异这种差异可能是由于抽样的随机性所造成的,也可能是由于专业所造成的,后者所形成的误差是由系统性因素造成的,称为系统误差组内方差(withingroups):因素的同一水平(同一个总体)下样本数据的方差;比如,专业一的毕业生的起薪的方差;组内方差只包含随机误差组间方差(betweengroups):因素的不同水平(不同总体)下各样本之间的方差;比如,四个专业的毕业生的起薪的方差;组间方差既包括随机误差,也包括系统误差方差分析中的基本假设(1)每个总体都应服从正态分布(2)各个总体的方差必须相同(3)观察值是独立的。(比如,每个专业毕业生的起薪与其他专业毕业生的起薪相互独立)单因素方差分析:一个自变量(因素)和一个因变量。张三的起薪=专业1的平均起薪+随机因素带来的影响=总平均起薪+专业1的平均值与总平均值之差+随机因素带来的影响iji