章目录一抽样分布简介三二项式分布二抽样分布四推论统计研究总体与从中抽取的样本之间的关系是统计学的中心内容。对这种关系的研究可从两方面着手:一是从总体到样本,这就是研究抽样分布的问题;二是从样本到总体,这就是统计推断问题。总体与样本之间的关系•抽样调查根据调查其抽取部分调查单位的准则不同可分非概率抽样和概率抽样。•1、非概率抽样:•抽取调查单位的原则是根据主观判断或其它操作的方便。•非概率抽样的优点:成本低、花时短、回答率高•缺点:不能做统计推论。•非概率抽样的结果是否有代表性与主观本身的水平有很大关系。一、非概率抽样和概率抽样:•2、概率抽样:•原则:随机原则。•随机原则:在抽选调查对象时,规定了一定的程序,以保证每一个单位都有同等入选的机会,从而避免了主观因素的影响。•优点:可以作统计推论。二、样本统计量•在简单随机抽样中,样本具有随机性,样本的参数,s2等也会随着样本不同而不同,故它们是样本的函数,记为T(x1,x2,……,xn),称为样本统计量。•统计量的概率分布称为抽样分布(Sampledistribution)x三、三种不同性质的分布(一)总体分布(二)样本分布(三)抽样分布1.总体中各元素的观察值所形成的分布2.分布通常是未知的3.可以假定它服从某种分布(一)总体分布(populationdistribution)总体1.一个样本中各观察值的分布2.也称经验分布3.当样本容量n逐渐增大时,样本分布逐渐接近总体的分布(二)样本分布(sampledistribution)样本1.样本统计量的概率分布,是一种理论分布–在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布2.随机变量是样本统计量–样本均值,样本比例,样本方差等3.结果来自容量相同的所有可能样本4.提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据(三)抽样分布(samplingdistribution)抽样分布的形成过程(samplingdistribution)总体计算样本统计量如:样本均值、比例、方差样本•抽样分布:是根据“机率”的原则而成立的理论性分布,•它可以表明:由同一总体中反复不断抽取不同样本时,各个可能出现的样本统计值的分布情况。•抽样分布Samplingdistribution:从已知总体中随机地抽取含量为n的样本,研究所得样本的各种统计量的概率分布即所谓的抽样分布.(三)抽样分布一、样本平均数的抽样分布(一)原总体标准差已知时的样本平均数的分布1、原始总体与样本平均数抽样总体设有一个总体,总体平均数为μ,方差为σ2,总体中各变数为x,该总体称为原总体。现从这个总体中随机抽取含量为n的样本,样本平均数记为。X的期望值与总体均值相同,而方差缩小为总体方差的1/nx一、样本均值的分布(一个正态总体中的抽样分布)•总体服从正态分布N(m,s2),样本均值的抽样分布仍为正态分布,即:2(,)XNnsmx(0,1)XNnms(一)原总体标准差已知时的样本平均数的分布样本平均数的抽样总体(,)xμxσ样本平均数构成的总体称为样本平均数的抽样总体,其平均数记为、方差记为。抽样总体参数和原总体参数有以下关系:Xnσ=σμ=μ2xxxμσ2x例:设某村有5户人家,以下是总体家庭人口的统计表.人口数户数4151617181表1、某村家庭人口统计表•则有:总体均值=(4+5+6+7+8)/5=6人总体标准差==1.4总体方差==212nxxs122nxxs•现从总体(N=5)中,作样本容量n=2的简单随机抽样,它可能选出的样本有5×5=25种可能选出的全部简单随机样本第一次第二次平均家庭人口数444.0454.5465475.5486544.5555565.5576586.5645.0第一次第二次平均家庭人口数655.5666.0676.5687745.5756.0766.5777787.5846.0856.5867.0877.5888续表•经过整理,得出样本平均家庭人口数的抽样分布如下表平均家庭人口数频次概率4.011/254.522/255.033/255.544/256.055/256.544/257.033/257.522/258.011/25012345644.555.566.577.58P平均家庭人口数的概率分布图•样本的平均值仍等于总体平均值6。•样本的平均值•==(4.01+4.52+…+8.01)/25=6•可见样本的均值平均数等于总体均值。2.样本均值的方差ffxxSE22所有可能出现的样本均值的方差12222nSEs比较及结论:1.样本均值的均值(数学期望)等于总体均值2.样本均值的方差等于总体方差的1/n•设有均值u,方差的分布总体,如随机抽取所有可能容量为n的样本,则样本平均数的抽样分布将随着n的增大而渐渐接近于以下正态分布•N=30为大样本•n30为小样本),(~nNXm1.样本均值的数学期望2.样本均值的方差:统计抽样误差是指平均误差,等于样本均值的标准差–重复抽样–不重复抽样样本均值的抽样分布(数学期望与方差)m)(xEnx22ss122NnNnxss3.抽样总体标准误standarderrorofmean即样本平均数的标准差①意义:反映了抽样误差的大小,即精确度的高低,也反映了代表μ的可靠性。②性质:和总体标准差σ成正比,而与样本含量n的平方根成反比。某一总体σ是一定的,所以只有增加样本含量才可以降低标准误。)nσ=(σσxxXnX估计的标准误(standarderrorofestimation)1.当计算标准误时涉及的总体参数未知时,用样本统计量代替计算的标准误,称为估计的标准误2.以样本均值的抽样分布为例,当总体标准差s未知时,可用样本标准差s代替,则在重复抽样条件下,样本均值的估计标准误为nsxsˆ4.中心极限定理(centrallimittheorem)m=50s=10X总体分布n=4抽样分布xn=165xs50xm5.2xs当总体服从正态分布N(μ,σ2)时,来自该总体的所有容量为n的样本的均值x也服从正态分布,x的数学期望为μ,方差为σ2/n。即x~N(μ,σ2/n)4.中心极限定理(centrallimittheorem)当样本容量足够大时(n30),样本均值的抽样分布逐渐趋于正态分布ssxn中心极限定理:设从均值为m,方差为s2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为的正态分布。一个任意分布的总体mmxXns中心极限定理(centrallimittheorem)的分布趋于正态分布的过程X抽样分布与总体分布的关系总体分布正态分布非正态分布大样本小样本样本均值正态分布样本均值正态分布样本均值非正态分布中心极限定理的应用例:某厂商声称其生产的电瓶具有均值为60个月、标准差为6个月的寿命分布。质检部门为检验该厂的说法是否正确,随机抽取50个该厂生产的电瓶进行寿命实验。(1):假定该厂商声称是正确的,试描述50个电瓶的平均寿命的抽样分布。(2):假定该厂商声称是正确的,50个样本的平均寿命不超过57个月的概率是多少?例题答案50个电瓶平均寿命近似服从正态分布,正态分布的均值为60,方差为62/50=0.72,标准差为0.85.~N(60.0.852)x605760(57)()(3.529)0.850.85=1-(3.529)0.0002XPXPPZ•例1,随机抽取某大学的学生100名,平均体重58kg,根据过去材料知道大学生体重的标准差为10kg,求抽样误差为多少?•解:已知n=10030δ=10•SE==1kg•例2,某学院1000名学生,其平均身高是168cm,标准差为22.5cm,现从学生中随机抽出100名,求其样本平均数大于1.70m的概率。•解:已知n=100δ=22.5u=168•SE==2.25•即(168,22.5/10)•P(x170)=p[z(170-168)/2.25]=•p(z>0.889)=0.5-φ(0.889)=0.5-0.313=0.186•答:样本平均数大于1.70m的概率为18.6%),(~nNXmNX~总体方差已知的均值抽样分布总结:•如果样本相当大,N30,不管原分布如何,抽样分布接近正态分布。•抽样分布的均值就是总体的均值。•抽样误差就是抽样均值的标准差。•如果N足够大,不知道总体的标准差时,可用样本的标准差作为总体的标准差。•均值的抽样分布接近正态分布,因此任何两值之间的样本均值次数所占比例可以知道。(二)原总体标准差未知时的样本平均数的抽样分布…t分布(t-distribution)1—n=df自由度,∞+t∞分布t变量具有的分布称为t,nsμ—x=t令nsμ—x=变为Znσμ—x=标准化变量Z.)σ估计(snσ估计ns即用XXxx—2σμ,2sμ,总体σ未知时,抽样总体S估计σ第一,T分布的几个重要概念从一个正态总体中抽取的样本统计量的分布样本平均数和样本方差S2是描述样本特征的两个最重要的统计量x如果原总体的平均数为μ,标准差为σ,那么样本平均数抽样总体:平均数为:标准差为:为样本平均数抽样总体的标准误差简称为标准误,标准误表示平均数抽样误差的大小,反映样本平均数与新总体平均数之间的离散程度。xmxs经计算得出两个重要结论mmxnxss抽样的样本平均数的平均数等于总体平均数,即抽样的抽样平均数的标准差等于总体标准差除以样本单位数的平方根。即4.t-分布(不要求)设有服从正态分布的随机变量x,正态分布的标准化公式为:smxu对于总体方差σ2已知的总体,根据公式可以知道样本平均数在某一区间内出现的概率,公式为:xxusmxxuxusmsmnxss附:服从标准正态分布假如σ2未知,而且样本容量又比较小(n≤30)时:标准化公式可变换为:xSxmt它不再服从标准正态分布T分布类似于正态分布,也是一种对称分布,它只有一个参数,就是自由度所谓自由度是指独立观测值的个数,应为计算标准差时所使用的n个观测值,受到平均数x的约束,这就等于有一个观测值不能独立取值,因此自由度为df=n-1服从具有n-1自由度t-分布第二,一个重要的t统计量t分布由标准正态分布/2分布构成(0,1)XNnms(1)(1)222nSns/XTYn(1)(1)22nSnsSs(1)XtnSnmT分布的计算已列成表格,应用时可根据需要由t值,自由度查概率;也可以由概率,自由度查t值.1、T分布的密度函数为:21df+2)dft+(12)Γ(df/2]/1)Γ[(df+πdf1=f(t)2)(df2)—(dfdf=σ1),0(df=μ∞+t∞tt2.t分布曲线的特点t分布受自由度的制约,每一个自由度都有一条t分布曲线。t分布密度曲线以t=0为中心,两边对称,且在t=0时,分布密度函数取得最大值。与标准正态分布曲线相比,t分布曲线顶部略低,两尾部稍高而平。df越小这种趋势越明显。df越大,t分布越趋近于标准正态分布。当n30时,t分布与标准正态分布的区别很小。3.t分布概率分布函数11)()(1)(tdftdttfttpF-11t∞t∞11dtf(t)1=dtf(t)1=)t≤P(t1=)t≥P(tα=]F-2[1=]dtf(t)-2[1=)∞+≤tP(t2=dtf(t)2=)t-≤t-∞P(2=)∞+≤tP(t+)t-≤t-∞P(=)t≥tP((df)tt∞-1t-∞-11111112倍左尾概率2倍右尾概率两尾概率4.查t分布表(附表4)对于不同自由度下t分布的两尾概率及其对应的临界t值已编制成附表4,即t分布表。该表第一列为自由度df,表头为单尾概率值,而表尾为两尾概率值,表中数字即为临界t值。例如,当df=15时,查附表4得两尾概率等于0.05的临界t值为=2.131,