5-3统计量及其分布(1)概率论与数理统计习题和课件(历史上最好的概率论与数理统计)

giggs622
1 ℃
2020-03-17

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

第三节统计量及其分布一、统计量与抽样分布二、样本均值及其抽样分布三、样本方差与样本标准差四、样本矩及其函数五、次序统计量及其分布六、样本分位数与样本中位数七、五数概括与箱线图1.统计量的定义.),,,(,,,,,),,,(,,,,21212121计量是一个统则称不含未知参数中若的函数是的一个样本是来自总体设nnnnxxxTTxxxxxxTXxxx.),,,(),,,(,,,,,,,21212121的观察值是则称的样本值是相应于样本设nnnnXXXgxxxgXXXxxx一、统计量与抽样分布•按照这一定义，若x1,x2,…,xn为样本，则以及Fn(x)都是统计量。必须指出的是：尽管统计量不依赖于未知参数，但是它的分布一般是依赖于未知参数的。niiniixx121,?,,,,),(,,22321哪些不是些是统计量判断下列各式哪为未知为已知其中样本的一个是来自总体设NXXX,11XT,3212XeXXT),(313213XXXT),,,max(3214XXXT,2215XXT).(123222126XXXT是不是实例1例2设为来自总体的一个样本，nXX,1),(~2NX已知，未知其中2,问下列随机变量中哪些是统计量？..)(;)(;;2);,,,min(12211121nnXXXXnXXXXXXXnnnnn定义设为取自某总体的样本，其算术平均值称为样本均值，一般用表示，即在分组样本场合，样本均值的近似公式为nxxx,,,21.11niixnxkiikkfnnfxfxx111其中k为组数，xi为第i组中值，fi为第i组的频数。样本均值及其抽样分布4.99)1258479(201x例3某单位收集到20名青年人的某月的娱乐支出费用数据：79848488929394979899100101101102102108110113118125则该月这20名青年的平均娱乐支出为将这20个数据分组可得到如下频数频率分布：组序分组区间组中值频数频率/％1(77,87]823152(87,97]925253(97,107]1027354(107,117]1123155(117,127]122210合计20100100)2122592382(201x对上表的分组样本，使用公式进行计算可得：两种计算结果不同。事实上，由于未用到真实的样本观测数据，因而给出的是近似结果。定理若把样本中的数据与样本均值之差称为偏差，则样本所用偏差之和为0，即证明从均值的计算公式看，它使用了所有的数据，而且每一个数据在计算公式中处于平等的地位。所以数据与样本中心的误差被相互抵消，从而样本的所有偏差之和必为零。0)(nxnxxnxxxiiii0)(1niixx证明:对任意给定的常数c2222222)()()())((2)()()()(xxcxnxxcxxxcxnxxcxxxcxiiiiii定理数据观察值与均值的偏差平方和最小，即在形如的函数中，最小，其中c为任意给定常数。2)(xxi2)(cxi设x1,x2,…,xn为来自某个总体的样本，为样本均值。则n较大时的渐近分布为,常记为这里渐近分布是指n较大时的近似分布。（1）若总体分布为则的精确分布为；x),(2Nx2)(,)(xVarxE)/,(2nN)/,(~2nNx)/,(2nNx（2）若总体分布未知或不是正态分布，但(2)由中心极限定理，这表明n较大时的渐近分布为证明：(1)利用卷积公式，可得知，由此可知。)/,(2nN)/,(~2nNx)1,0(/)(NxnL),(~21nnNxniix例4设总体分布为均匀分布，该总体的均值和方差分别为3和4/3。)5,1(U)21.0,3()3034,3(~2NNx若从该总体抽取容量为30的样本，则其样本均值的渐近分布为例5设总体分布为倒三角分布，其密度函数为该总体的均值和方差分别为3和2，若从该总体抽取容量为30的样本，则样本其均值的渐近分布为其它,053,4/)3(31,4/)3()(xxxxxp)26.0,3()302,3(~2NNx)18.0,1()30/1,1(~2NNx例6设总体分布为指数分布，该总体的均值和方差均等于1，若从该总体抽取容量为30的样本，则其样本均值的渐近分布为)1(Exp例7在总体中，随机抽取一个容量为36的样本，求样本均值落在50.8到53.8之间的概率。)3.6,52(2NX解)36/3.6,52(~2NX故6/3.6528.506/3.6528.53)8.538.50(XP8239.0)1429.1()7143.1(样本方差与样本标准差定义设x1,x2,…,xn为取自某总体的样本，则它关于样本均值的平均偏差平方和称为样本方差。其算术根称为样本标准差。相当样本方差而言，样本标准差通常更有实际意义，因为它与样本均值具有相同的度量单位。niixxns122*)(1在n不大时，常用作为样本方差(也称无偏方差)，其算术根也称为样本标准差。在实际中，后者比前者更常用。niixxns122)(11样本偏差平方和的不同表达式分组样本场合下，样本方差的近似计算公式：22222)()(xnxnxxxxiiii][11)(11212122xnxfnxxfnskiiikiii其中k为组数，xi为第i组中值，fi为第i组的频数。4.99)1258479(201x例8某单位收集到20名青年人的某月的娱乐支出费用数据：798484889293949798991001011011021021081101131181255731.119368.133,9368.133])4.99125()4.9984()4.9979[(12012222ss组序分组区间组中值x频数fxf1(77,87]823246-189722(87,97]925460-83203(97,107]10277142284(107,117]1123336124325(117,127]122224422968和2020002720xxfxx2)(将这20个数据分组可得到如下频数频率分布：96.1116.143,16.1431202720,1002020002ssx对上表的分组样本kiiixxfns122)(11kiikkfnnfxfxx111可得：2)(,)(XVarXEx1,x2,…,xn为从该总体得到的样本，和s2分别是样本均值和样本方差，则.xnxVarxE/)(,)(222)(sE定理设总体X具有二阶矩，即此定理表明，样本均值的均值与总体均值相同，而样本均值的方差是总体方差的1/n。nnnxVarnxVarnnxEnxEniinii222121)(1)(,)(1)(21212)(xnxxxniinii,/)()()(,)()(22222222nxVarxExExVarExExiii2222212)1()/()())((nnnnxxEnii证明注意到，而于是两边各除以n-1，即得第二个结论。例9设总体X的概率密度函数为101)(xxxxf为总体的样本,求),,,(5021XXX(1)X的数学期望与方差；(2))(2SE(3))02.0(XP解(1)0d)()(11xxxXEXE1001d2501)(501)(501)(1022xxxXEXDXD8414.0)01.0,0(~NX近似(3)由中心极限定理(2).2/1)()()(22XEXDSE2.0Φ121.0002.012)02.0(1)02.0(XPXP定义样本k阶(原点)矩.,2,1,11kxnanikik样本k阶中心矩.,3,2,)(11kxxnbnikik,,,,21是来自总体的一个样本设nxxx例10从一批机器零件毛坯中随机地抽取10件,测得其重量为(单位:公斤):210,243,185,240,215,228,196,235,200,199求这组样本值的均值、方差、二阶原点矩与二阶中心矩。解),,,(1021xxx令)199,200,235,196,228,215,240,185,243,210(43.433)(9110122iixxs101225.47522101iixa0.390)(101109101222iixxsb19.217)199200235196228215240185243230(101x则,,,,21是来自总体的一个样本设nxxx样本偏度样本峰度2/3231/bb32242bb成绩组中值甲班人数f甲乙班人数f乙90～100955480～8985101470～7975221660～6965111450～59551240～494510例11下表是两个班(每班50名同学)的英语课程的考试成绩。下面分别计算两个班级的平均成绩、标准差、样本偏度及样本峰度。下表分别给出甲班和乙班的计算过程。甲甲fxx2)(甲甲fxx3)(甲甲fxx4)(乙乙fxx2)(乙乙fxx3)(乙乙fxx4)(xf甲xf甲xf乙xf乙9554751843.2035389.440679477.24808510850846.407786.88071639.29607522165014.08-11.2649.011265117151283.04-13856.832149653.785655155432.64-8998.912187177.369645145948.64-29218.112899917.8496和5037905368-8908.81987874.569543801474.5628311.552543581.7984851411901184.9610901.632100295.01447516120010.24-8.1926.553665149101632.96-17635.968190468.4544552110865.28-17997.824374354.7392和50379051683571.21208706.56可算得两个班的平均成绩、标准差、偏态系数、峰态系数分别为：，）（，）（，）（，）（，，乙甲乙甲乙甲乙甲74.0350/516850/56.120870645.0350/536850/56.1987874068.050/516850/2.357116.050/536850/8.890827.1049516847.10495368,8.75503790,8.7550379022222/312/31ssxx由此可见，两个班级的平均成绩相同，标准差也几乎相同，样本偏度分别为：-0.16和0.068，显示两个班的成绩都是基本对称的。但两个班的样本峰度明显不同。乙班的成绩分布比较平坦，而甲班则稍显尖顶。次序统计量及其分布设x1,x2,…,xn,是取自总体X的样本，x(i)称为该样本的第i个次序统计量，它的取值是将样本观测值由小到大排列后得到的第i个观测值。其中x(1)=min{x1,x2,…,xn}称为该样本的最小次序统计量x(n)=max{x1,x2,…,xn}称为该样本的最大次序统计量。x012p1/31/31/3例12设总体X的分布为仅取0，1，2的离散