统计学STATISTICS常用的抽样分布统计学STATISTICS抽样分布的概念相关知识点:随机变量的概率分布概率——用来度量发生的可能性大小的数值随机变量X的概率分布——X的所有可能取值与其概率之间的对应关系。概率分布的例子•5件产品中2件优质品,先从中抽取3件的优质品数•随机变量:抽出产品中优质品件数X•分布列:•分布图X=xi012P(X=xi)=pi0.10.60.30.60.30012xP(x)X的平均水平和波动状况如何?•随机变量:抽出产品中优质品件数X•分布列:•分布图X=xi012P(X=xi)=pi0.10.60.30.60.30012xP(x)随机变量的数学期望随机变量的数学期望又称均值,描述一个随机变量的平均值(理论上的或真实的),记为如E(X)iipxXE)(随机变量的方差方差是随机变量的各个可能取值偏离其均值的离差平方的均值,记为如D(x)或σ2XiipXExXEXEXD22)]([)]([()(抽样分布(samplingdistribution)抽样分布:样本统计量的概率分布。学生ABCDEFG成绩30405060708090按随机原则抽选出4名学生,并计算平均分数。样本均值的抽样分布01230405060708090样本均值样本均值样本均值ABCDABCEABCFABCGABDEABDFABDGABEFABEGABFGACDEACDF4547.55052.55052.5555557.56052.555ACDGACEFACEGACFGADEFADEGADFGAEFGBCDEBCDFBCDGBCEF57.557.56062.56062.56567.55557.56060BCEGBCFGBDEFBDEGBDFGBEFGCDEFCDEGCDFGCEFGDEFG62.56562.56567.5706567.57072.575样本均值4547.55052.55557.560出现次数1123445样本均值62.56567.57072.575出现次数443211样本均值4547.55052.5概率1/351/352/353/35样本均值……75概率……1/35抽样分布的形成过程总体计算样本统计量如:样本均值、方差样本注意点:1.样本统计量是随机变量。2.抽样分布是一种概率分布,是一种理论分布。3.一个样本统计量的抽样分布,是指统计量的所有可能取值与相应概率值的对应关系。4.考虑的是来自从同一总体中用相同方法重复抽取的容量相同的所有可能样本的统计量的所有取值的分布确定抽样分布的步骤1.第一步:确定样本个数及每一个样本。2.第二步:确定每一个样本对应的统计量的取值。3.第三步:确定每一个取值发生的概率。4.第四步:确定对应关系,形成抽样分布。统计学STATISTICS样本统计量的抽样分布以简单随机抽样为讨论对象从样本统计量的分布形态及数学特征(期望和方差)两个角度介绍从重复抽样和不重复抽样两个角度介绍统计学STATISTICS样本均值的抽样分布定义:在重复选取容量为n的样本时,由样本均值的所有可能取值形成的概率(相对频数)分布一种理论概率分布推断总体均值的理论基础样本均值的抽样分布统计学STATISTICS样本均值的抽样分布形状(注意:中心极限定理)考察样本均值的抽样分布形状,分两种情况:1)总体分布已知且为正态分布;2)总体分布未知或非正态分布;样本均值抽样分布的形状1)总体分布已知且为正态分布=50=10X总体分布n=4抽样分布xn=165x50x5.2x当总体分布已知且为正态分布或接近正态分布时,则无论样本容量大小如何,样本均值都为正态分布统计学STATISTICS(2)当总体分布未知或非正态分布需要用到中心极限定理描述大量随机变量之和的分布趋近于正态分布的一系列定理的统称中心极限定理(centrallimittheorem)当样本容量足够大时(n30),无论总体的分布如何,样本均值的抽样分布逐渐趋于正态分布中心极限定理:设从一个任意总体中抽取容量为n的简单随机样本,当n充分大时,样本均值的抽样分布近似服从正态分布一个任意分布的总体x中心极限定理x的分布趋于正态分布的过程样本均值抽样分布形状总结(1)从正态总体中抽取的全部可能样本,无论样本容量有多大,样本均值的抽样分布必定遵从于正态分布;(2)非正态总体无论它呈现何种分布,只要样本容量n足够大(只要n≥30),那么样本均值的抽样分布,必定趋近于正态分布;统计学STATISTICS重复抽样下样本均值的数学特征样本均值的期望(均值)和标准差样本均值的抽样分布【例】设一个总体,含有4个元素(个体),即总体单位数N=4。4个个体分别为x1=1,x2=2,x3=3,x4=4。总体的均值、方差及分布如下总体分布14230.1.2.3总体均值和方差5.21NxNii25.1)(122NxNii现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有?个样本。所有样本的结果如下表现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能的n=2的样本(共16个)计算出各样本的均值,如下表。并给出样本均值的抽样分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值(x)x样本均值的抽样分布1.000.10.20.3P(x)1.53.04.03.52.02.5重复抽样下样本均值的数学期望与方差为样本个数MnMxExniix222122625.016)5.20.4()5.20.1())((5.2160.45.10.1)(1MxxEnii结论:重复抽样下:1.样本均值的数学期望等于总体均值2.样本均值的方差等于总体方差的1/n样本均值的分布与总体分布的比较(例题分析)=2.5σ2=1.25总体分布14230.1.2.3抽样分布P(x)1.00.1.2.31.53.04.03.52.02.5x5.2x625.02x重复抽样下样本均值的抽样分布),N(2nxμ~正态总体及大样本(n≥30)下统计学STATISTICS不重复抽样下样本均值的数学特征(补充内容)样本均值的期望(均值)和标准差思考:不重复抽样的数字特征和重复抽样哪里会有不同?学生ABCDEFG成绩30405060708090按随机原则抽选出4名学生,并计算平均分数。不重复抽样下样本均值的数学特征01230405060708090样本均值样本均值样本均值ABCDABCEABCFABCGABDEABDFABDGABEFABEGABFGACDEACDF4547.55052.55052.5555557.56052.555ACDGACEFACEGACFGADEFADEGADFGAEFGBCDEBCDFBCDGBCEF57.557.56062.56062.56567.55557.56060BCEGBCFGBDEFBDEGBDFGBEFGCDEFCDEGCDFGCEFGDEFG62.56562.56567.5706567.57072.575样本均值4547.55052.55557.560出现次数1123445样本均值62.56567.57072.575出现次数44321101234564550556065707501230405060708090二者均值相等样本均值4547.55052.55557.560出现次数1123445离差-15-12.5-10-7.5-5-2.50样本均值62.56567.57072.575出现次数443211离差2.557.51012.5152007.7100214201747122nNnNx07.7x不重复抽样下,样本均值的数学特征不重复抽样下样本均值的期望样本均值的标准差修正系数(因子)的两种表现形式12NnNnx)(xE不重复抽样下样本均值的抽样分布无限总体不重复抽样,可不使用修正系数(因子))1--,N(2NnNnxμ~正态总体及大样本下样本均值抽样分布的总结1、抽样分布的形态总体分布正态分布非正态分布大样本小样本正态分布正态分布非正态分布(t分布近似)样本均值的数学期望样本均值的方差重复抽样不重复抽样2、样本均值的数学特征(数学期望与方差))(xEnx22122NnNnx统计学STATISTICS样本比率的抽样分布以简单随机抽样为讨论对象重复抽样下样本比率(比例)的抽样分布不重复抽样下样本比率的抽样分布•在经济与商务的许多场合,需要用样本比率p对总体比例π进行统计推断。样本比率抽样分布的相关信息:p的:期望值、标准差、抽样分布形状比率是指总体(或样本)中具有某种属性的单位数与全部单位数之比;样本比率的抽样分布是样本比率所有可能值的概率分布。合格品率为例pnXniXnXXniiiii1),,2,1(1101010则的质量情况为的样本,每个样本单位抽取容量为为合格品率其中分布为服从合格品不合格品的质量情况为设总体中的每一件产品1.样本比率的均值(数学期望)等于真实的总体比率•2.样本比率的方差等于总体方差的1/nπ)(pEnp)1()(2ππ重复抽样下样本比率的数学特征不重复抽样下,样本比率的数学特征•样本比率的均值不变,方差添加修正系数1)1(NnNnPππσπ)(pE样本比率抽样分布中大样本的确定P的频数分布图抽样1(n=20,π=0.4)抽样2(n=100,π=0.4)抽样3(n=10,π=0.5)n=10,=0.5p的均数为0.5010p的标准差为0.15931581.0105.05.0抽样4(n=100,π=0.01)根据中心极限定理有:当样本容量足够大时(大样本)(np≥5且n(1-p)≥5),样本比率抽样分布趋向于正态分布。样本比率抽样分布的形状当样本容量足够大时,样本比率的分布接近正态分布。样本比率的期望为总体比率,方差为总体方差的1/n(运用中心极限定理)重复抽样下样本比率的抽样分布5)1(5))1(,(~pnnpnNpπππ•当样本容量足够大时,样本比率的分布接近正态分布。•样本比率的期望为总体比率,方差为总体方差的1/n并乘以修正系数。(二)不重复抽样下样本比率的抽样分布5)1(5)1--)1(,(~pnnpNnNnNpπππ样本比率的抽样分布总结大样本下,近似服从正态分布样本比率的数学期望样本比率的方差重复抽样不重复抽样1)1(2NnNnPππσπ)(pEnp)1()(2ππ统计量(样本均值和样本比率)特点总结分布形态数学特征——集中趋势(期望)——离散程度(方差)样本比率的数学特征举例教师是否博士A是(1)B是(1)C是(1)D否(0)E否(0)F是(1)具有博士学位的总体比率:π=4/6=2/3总体期望=4/6=π)()()(总体方差131329263202321422为具有博士学位的比率其中)(分布为服从博士非博士的情况为设总体中的每一个教师3/2)3/1(1101010iiXX样本比率的数学特征举例教师是否博士A是B是C是D否E否F是具有博士学位的总体比率π总体期望π总体方差π(1-π)从总体中按不重复抽样方法随机抽取4人,计算其样本比率的期望和标准差。样本成数离差样本成数离差ABCDABCEABCFABDEABDFABEFACDEACDF0.750.7510.50.750.750.50.750.080.080.33-0.170.080.08-0.170.08ACEFADEFBCDEBCDFBC