二、中心极限定理一、大数定律第五章大数定律与中心极限定理第一章引入概率概念时,曾经指出,事件发生的频率在一、二次或少数次试验中是有随机性的,但随着试验次数n的增大,频率将会逐渐稳定且趋近于概率。特别,当n很大时,频率与概率会非常“接近”的。这个非常“接近”是什么意思?这与高等数学中的极限概念有否联系?本章将从理论上讨论这一问题。定理1设随机变量的数学期望E=,方差D=2,则对任意的正数,不等式(1.1)成立。这个不等式称为契贝雪夫(Chebyshev)不等式。22}|{|P一、大数定律证我们仅就连续型随机变量情形加以证明。设的概率密度为f(x),于是xxdxxfxdxxfP)()()(||222222)()(1dxxfx证毕式(1.1)表明当D很小时,概率更小。这就是说在上述条件下,随机变量落入E的邻域之外的可能性很小,落入E的邻域内可能性很大。由此说明的取值比较集中,也即离散程度较小,这正是方差的意义所在。契贝雪夫不等式在理论研究和实际应用中都有很重要的价值。||EP例1已知正常男性成人血液中,每一毫升血液中白细胞的平均数是7300,均方差是700。试估计每毫升血液中白细胞数在5200~9400之间的概率。解设每一毫升血液中白细胞数为,则由(1.2)式有98)2100700(12100|7300|940052002PP契贝雪夫不等式也可以写成如下等价形式221||P(1.2)的值。不等式估计试用切比雪夫的方差为思考题:设随机变量}5.7|{|,5.2EP定理2(伯努利(Bernoulli)大数定律)设是n次独立重复试验中事件A发生的次数,p是事件A在每次试验中发生的概率,则对任意正数0,有An1limpnnPAn(1.3)或0limpnnPAn(1.4)证令)1(.,0,,1niiAiAi次试验中不出现在第次试验中出现在第则1,2,…,n是n个相互独立的随机变量,且nippDpEii,2,1,)1(,易知nAn21于是nEnnpnpnnniniiiAA11)(22111)(|)(|nDnEPpnnPniininiiiA由契贝雪夫不等式得又由1,2,…,n的独立性可知niiniipnpDD11)1()(从而有)(0)1(1)1(||222nppnnpnppnnPA证毕上述伯努利大数定律从理论上给出了频率“接近”概率这种“现象”的更加确切的含意,它反映了大数次重复试验下随机现象所呈现的客观规律性。设1,2,…,n,…是一个随机变量序列,a是一个常数,若对任意的正数,有1}|{|limaPnn则称随机变量序列{n}依概率收敛于a,记作)(naPn定理2′是n次独立重复试验中事件A发生的次数,p是事件A在每次试验中发生的概率,则An)(npnnPA定理3(契贝雪夫大数定律)设1,2,…,n,…是相互独立的随机变量序列,又设它们的方差有界,即存在常数c0,使得,2,1,icDi则对任意的0,有证明(略)11111limniniiinEnnP(1.5)或01111limniniiinEnnP(1.6)伯努利大数定律是契贝雪夫大数定律的特例,在它们的证明中,都是以契贝雪夫不等式为基础的,所以要求随机变量具有方差。但进一步的研究表明,方差存在这个条件并不是必要的。下面我们介绍独立同分布的辛钦大数定律。定理4(辛钦(ХИНЧИН)大数定律)设是一独立同分布的随机变量序列,且数学期望存在,,,,21n,2,1,iEi则对任意的0,有证明(略)111limniinnP(1.7)伯努利大数定律说明了当n很大时,事件发生的频率会非常“接近”概率,而这里的辛钦大数定律则表明,当n很大时,随机变量在n次观察中的算术平均值也会“接近”它的期望值,即niin11)(11nnniPi这就为寻找随机变量的期望值提供了一条实际可行的途径。在第二章介绍正态分布时曾经特别强调了它在概率论与数理统计中的地位与作用,为什么会有许多随机变量遵循正态分布?仅仅是经验猜测还是确有理论根据?这当然是一个需要弄清的问题。实践表明,客观实际中有很多随机变量,它们往往是由大量的相互独立的随机因素的综合作用所形成的。而其中每一个别因素在总的影响中所起的作用是微小的。下面将要介绍的中心极限定理从理论上阐明了这样的随机变量总是近似地服从正态分布的。二、中心极限定理定理5(独立同分布的林德贝尔格-勒维(Lindeberg-Levy)中心极限定理)设是相互独立,且服从同一分布的随机变量序列,并具有数学期望和方差:,,,,21n,2,1,0,2iDEii则对任意的x有证明(略)两点说明:dtexnnPxtniin21221lim(2.1)nnniin11°无论随机变量服从同一分布的情况如何,只要{i}满足定理的条件,则随机变量序列,,,,21n当n无限增大时,总以标准正态分布为其极限分布。或者说,当n充分大时,近似服从标准正态分布。根据这一点,在实际应用中,只要n充分大,我们便可把n个独立同分布的随机变量的和当作正态随机变量。n2°因为对niiniinnnn11中每一被加项ni有nDnnDii1)(12故有01limlimnnuDnin即n中每一被加项对总和的影响都很微小,但它们迭加的和却以标准正态分布作为极限。解由于i服从参数为=0.05的指数分布。因此100,,2,1,4001,2012iDEii又由题设知,因此由定理5得:1001ii1002020100180010020201001800PP12002000112002000PP8413.0)1()1(1211212dtet例1设有100个电子器件,它们的使用寿命均服从参数为=0.05(h-1)的指数分布,其使用情况为:第一个损坏第二个立即使用,第二个损坏第三个立即使用等等。令表示这100个电子器件使用的总时间,试求超过1800h小时的概率。10021,,,作为定理5的推论有定理6(德莫佛—拉普拉斯(DeMoivre-Laplace)定理)在n重贝努里试验中,事件A在每次试验中出现的概率为p,n为n次试验中事件A出现的次数,则对任意的x,有dtexpnpnpPtxnn2221)1(lim(2.2)证由§5.1的定理2的证明可知,n可以看成是n个相互独立,且服从同一(0-1)分布的随机变量1,2,…,n之和,即)1(,ppDpEii且niin1由定理5得dtexpnpnpPtxnn2221)1(lim定理表明,二项分布的极限分布是正态分布。因此,当n充分大时,我们可以利用(2.2)式来计算二项分布的概率。对于相互独立但不同分布的随机变量和的分布的极限问题,有李雅普诺夫中心极限定理。定理7(李雅普诺夫Liapunov定理)设随机变量1,2,…,n,…相互独立,且niiniiiiBiDE1222),2,1(,0,,记若存在0,使得)(0||1212nEBiniin则对任意的x,有证略。xtniiinndtexBP21221)(1lim(2.3)不难看出,当n很大时,nininiiiniinnBB1111)(1近似服从标准正态分布N(0,1),也即niinnniiB11近似服从正态分布),(21nniiBN.这就是说,无论各个随机变量i(i=1,2,…)服从什么样的分布,只要满足定理7的条件,那么它们的和iin1当n很大时,就近似地服从正态分布。这也就说明了为什么正态随机变量在概率论与数理统计中占有重要地位的一个最基本的原因。,例2某单位有300架电话分机,每个分机有5%的时间要用外线通话,可以认为各个电话分机用不用外线是相互独立的。试问该单位总机至少应配备多少条外线,才能以95%的把握保证各个分机在用外线时不必等待?解令)300,21(.,0,,1,,个分机不要用外线第个分机要用外线第iiii)05.01(05.030005.0300)05.01(05.030005.0300300300xPxPn=300,p=0.05的二项分布。根据题意,要求确定最小的正整数x,使得95.0300xP则i服从(0-1)分布,且p=0.05。如果假定300架分机中同时要求使用外线的分机数为300,显然有=3001ii是服从参数成立。运用定理6,有25.14152125.141525.141525.141523002xdtexPxt因此应有95.025.1415x查正态分布表得95.09505.0)650.1(由此可取x151425165..解得23.21x取最接近的整数x=22,即总机至少应配备22条外线,才能有95%以上的把握保证各个分机在使用外线时不必等候。