2统计推断(Statisticalinference):用样本信息推论总体特征的过程。包括:参数估计:运用统计学原理,用从样本计算出来的统计指标量,对总体统计指标量进行估计。假设检验:又称显著性检验,是指由样本间存在的差别对样本所代表的总体间是否存在着差别做出判断。主要内容第一节标准误第二节t分布第三节总体均数的估计第四节假设检验第五节未知总体与已知总体均数的比较第六节完全随机设计两总体均数的比较第七节配对设计资料均数的比较第八节均数假设检验的注意事项4第一节标准误(Standarderror)一、概念抽样误差:由于抽样引起的样本统计量与总体参数之间的差异。标准误:(xSx)表示抽样误差大小的指标;样本均数的标准差;X1S1X2S2XISiXnSnxσμσ标准误示意图6三、(均数)标准误意义:反映抽样误差的大小。标准误越小,抽样误差越小,用样本均数估计总体均数的可靠性越大。与样本量的关系:S一定,n↑,标准误↓二、(均数)标准误的计算nssx7SPSS计算标准误Analyze----DescriptiveStatistics----Frequencies----Statistics----Dispersion---S.E.mean---Continue----OK8大数定理:当样本量足够大时,样本的均数以很大的概率接近总体均数(计量资料)。当试验次数足够多时,事件A出现的频率就会接近于概率P(计数资料)。中心极限定律:正态分布也称为中心分布。如果所研究的随机变量可以表示为大量独立随机变量的和,其中每一个随机变量对于总和只起微小作用,则可以认为这个随机变量近似服从正态分布,其均数也近似服从正态分布。两个基本定律(了解)9一、t分布的概念:从正态分布演化到t分布的5个步骤。反应抽样误差分布的规律。二、t分布图形:三、t分布面积特征(t界值表):第二节t分布10t分布的图形(u分布是t分布的特殊形式)11t值表(附表2)横坐标:自由度,υ纵坐标:概率,p,即曲线下阴影部分的面积;表中的数字:相应的|t|界值。t值表规律:(1)自由度(υ)一定时,p与t成反比;(2)概率(p)一定时,υ与t成反比;13第三节总体均数的估计统计推断的任务就是用样本信息推论总体特征。参数估计,用样本均数估计总体均数。1、点(值)估计(近似值)2、区间估计(近似范围)141、点(值)估计(pointestimation):用样本均数直接作为总体均数的估计值,未考虑抽样误差。152、区间估计(intervalestimation)▲概念:根据样本均数,按一定的可信度计算出总体均数很可能在的一个数值范围,这个范围称为总体均数的可信区间(confidenceinterval,CI)。▲方法:(1)u分布法(2)t分布法16(1)u分布法公式应用条件:例题意义:与正常值范围进行比较(xu·sx,xu·sx)即(x±u·sx)样本量较大,已知或可计算出x及Sx换句话说,做出校全体女大学生身高均数为163.0--164.5cm的结论,说对的概率是95%,说错的概率是5%;做出校全体女大学生身高均数为162.7–164.7cm的结论,说对的概率是99%,说错的概率是1%。意义:虽然不能知道某校全体女大学生身高均数的确切数值,但有95%的把握说校全体女大学生身高均数在163.0--164.5cm之间,有99%的把握说校全体女大学生身高均数在162.7–164.7cm之间。18(2)t分布法公式应用条件例题意义(xt·sx,xt·sx)即(x±t·sx)样本量较小,已知或可计算出X及sx19SPSS求可信区间Analyze----DescriptiveStatistics----Explore----Statistics----Descriptives---Continue----OK20区间估计的准确度:说对的可能性大小,用(1-)来衡量。99%的可信区间好于95%的可信区间(n,S一定时)。区间估计的精确度:指区间范围的宽窄,范围越宽精确度越差。99%的可信区间差于95%的可信区间(n,S一定时)。准确度与精确度的关系:(例如预测孩子的身高)21正常值范围概念:绝大多数正常人的某指标范围。(95%,99%,指绝大多数正常人)计算公式:用途:判断观察对象的某项指标是否正常.可信区间概念:总体均数所在的数值范围(95%,99%指可信度)计算公式:用途:估计总体均数正常值范围估计与可信区间估计22第四节假设检验▲显著性检验;▲科研数据处理的重要工具;▲某事发生了:是由于碰巧?还是由于必然的原因?统计学家运用显著性检验来处理这类问题。假设检验:1、原因2、目的3、原理4、过程(步骤)5、结果241、假设检验的原因由于个体差异的存在,即使从同一总体中严格的随机抽样,X1、X2、X3、X4、、、,不同。因此,X1、X2不同有两种(而且只有两种)可能:(1)分别所代表的总体均数相同,由于抽样误差造成了样本均数的差别。差别无显著性。(2)分别所代表的总体均数不同。差别有显著性。2、假设检验的目的判断是由于何种原因造成的不同,以做出决策。反证法:当一件事情的发生只有两种可能A和B,为了肯定其中的一种情况A,但又不能直接证实A,这时否定另一种可能B,则间接的肯定了A。概率论(小概率):如果一件事情发生的概率很小,那么在进行一次试验时,我们说这个事件是“不会发生的”。从一般的常识可知,这句话在大多数情况下是正确的,但是它一定有犯错误的时候,因为概率再小也是有可能发生的。3、假设检验的原理/思想274、假设检验的一般步骤▲建立假设(反证法):▲确定显著性水平():▲计算统计量:u,t,2▲确定概率值:▲做出推论(1).建立假设•检验假设或者称无效假设(nullhypothesis),用H0表示,H0假设是假设两总体均数相等。•备择假设(alternativehypothesis),用H1表示。H1是与H0相反的假设,假设两总体均数不相等。(2)确定显著性水平(significancelevelα)显著性水平()就是我们用来区分大概率事件和小概率事件的标准,是人为规定的。当某事件发生的概率小于时,则认为该事件为小概率事件,是不太可能发生的事件。通常取0.05或0.01。游戏规则(3)计算统计量根据资料类型与分析目的选择适当的公式计算出统计量,比如计算出u值或t值。注意:在检验假设成立的情况下,才会出现的分布类型或公式。(4)确定概率值(P)将计算得到的u值或t值与查表得到u或t,ν,比较,得到P值的大小。根据u分布和t分布我们知道,如果|u|u或|t|u,则P;如果|u|u或|t|u,则P。(5)作出推断结论如果p,认为在检验假设H0成立的条件下,得到等于或大于现有统计量u值或t值的可能性大于,不属于小概率事件,则不拒绝H0,差别无统计学意义,结论是不认为两总体均数不相等。如果p,我们认为在检验假设H0成立的条件下,得到等于或大于现有统计量u值或t值的可能性小于,可判断为小概率事件,则拒绝H0,接受H1,差别有统计意义,结论是两总体均数不相等,或者某一总体均数大于(或小于)另一总体均数。5、假设检验的结果接受检验假设拒绝检验假设正确理解结论的概率性(都隐含着犯错误的可能性)。34第五节未知总体与已知总体均数的比较一、大样本一般女性平均身高160.1cm。某大学随机抽取100名女大学生,测量其身高,身高的均数是163.74cm,标准差是3.80cm。请问某大学18岁女大学生身高是否与一般女性不同。35▲目的:比较样本均数所代表的未知总体均数与已知的总体均数有无差别▲计算公式:u统计量xSx036▲适用条件:(1)已知一个总体均数;(2)可得到一个样本均数;(3)可得到该样本标准误;(4)样本量不小于100。例题:(1)一个总体均数:160.1cm;(2)一个样本均数:163.74cm;(3)可计算出样本标准误:3.8/100=0.38(4)n=100;38假设检验:▲建立假设:检验假设:某校女大学生身高均数与一般女子身高均数相同;H0:μ=μ0;备择假设:某校女大学生身高均数与一般女子身高均数不同;H1:μ≠μ0▲确定显著性水平():0.0539▲做出推论:U=9.581.96,p0.05=,小概率事件发生了,原假设不成立;拒绝H0,接受H1,可认为:某校女大学生身高均数与一般女子身高均数不同;某校女大学生身高均数与一般女子身高均数差别有显著性。▲计算统计量:u统计量:u=▲确定概率值:|u|=9.58u=1.96uup=0.05;xSx0二、小样本已知中学一般男生的心率平均为74次/分钟。为了研究常参加体育锻炼的中学生心脏功能是否与一般的中学生相同,在某地区中学生中随机抽取常年参加体育锻炼的男生16名,测量他们的心率,结果见数据“男生心率.SAV”。41▲目的:比较一个小样本均数所代表的未知总体均数与已知的总体均数有无差别。▲计算公式:t统计量:t=自由度:=n-1xSx042▲适用条件:(1)已知一个总体均数;(2)可得到一个样本均数及该样本标准误;(3)样本量小于100;(4)样本来自正态或近似正态总体。43例题:已知:(1)一个总体均数:74次/分;(2)一个样本均数:65.63次/分;(3)可计算出样本标准误:7.2/16=1.8(4)n=16100;44假设检验:▲建立假设:检验假设:常参加体育锻炼的中学男生的心率与一般中学生相等;H0:μ=μ0;备择假设:常参加体育锻炼的中学男生的心率与一般中学生不同;H1:μ≠μ0▲确定显著性水平():0.0545▲计算统计量:t=:t=4.65▲确定概率值:n=16,自由度=n–1=15,t0.05(15)=2.131tt0.05(25),p0.05▲做出推论:p0.05,小概率事件发生了,原假设不成立;拒绝H0,接受H1,可认为:常参加体育锻炼的中学男生的心率与一般中学生不同;常参加体育锻炼的中学男生的心率比一般中学生心率慢;常参加体育锻炼的中学男生的心率与一般中学生差别有显著性。xSx046SPSS进行单一样本的假设检验Analyze----CompareMeans----OneSampleTtest----testVariable----Option---ConfidenceInterval----Continue----OK47第六节完全随机设计两总体均数的比较例题:为了比较国产药和进口药对治疗更年期妇女骨质疏松效果是否相同,采取随机双盲的临床试验方法。国产药组20例,进口药组19例,评价指标为第2-4腰椎骨密度的改变值(骨密度.sav)。48▲目的:由两个样本均数的差别推断两样本所代表的总体均数间有无差别。▲计算公式及意义:t统计量:t=自由度=n1+n2–2▲适用条件:(1)已知/可计算两个样本均数及它们的标准差;(2)两个样本之一的例数少于100;21||21xxSxx)11(21221nnSScxx2)1()1(212221212nnnSnSSc49例题:已知:(1)一个样本:均数48.25,标准差32.0;另一个样本:均数36.37,标准差27.65;(2)n1=20;n2=1950假设检验:▲建立假设:检验假设:两组药疗效相同;备择假设:两组药疗效不同不同;▲确定显著性水平():0.0551▲计算统计量:t统计量:t=1.238;自由度:20+19–2=37表中:t0.05(37)=2.026▲确定概率值:tt0.05(37),p0.05;▲做出推论:因为p0.05,不能拒绝H0:认为两组药疗效相同。可以用国产药代替进口药。52SPSS进行两个样本的假设检验Analyze----CompareMeans----IndependentSamplesTtest----testVariable----Grouping---DefineGro