1概率论和数理统计起源(1)从随机现象谈起在自然界和现实生活中,一切事物都是相互联系和不断发展的。在它们彼此间的联系和发展中,根据它们是否有必然的因果关系,可以分成截然不同的两大类:一类是确定性的现象。这类现象是在一定条件下,必定会导致某种确定的结果。举例来说,在标准大气压下,水加热到100度,就必然会沸腾。又如,把铁加热到1530度的时候,必然会熔化成液态。事物间这种联系是属于必然性的。通常的自然科学各学科就是专门研究和认识这种必然性,寻求这类必然现象的因果关系,把握它们之间的数量规律,以达到认识世界和改造世界的目的。另一类是不确定性的现象。这类现象是在一定条件下,它的结果是不确定的。举例来说,同一工人在同一车床上加工同一种零件若干个,它们的尺寸总会有些差异。又如,在同样条件下,进行小麦品种的人工催芽试验,各颗种子的发芽情况也不尽相同,有强弱和早晚之别等等。为什么在相同的一定条件下,会出现这种种不确定的结果呢?这是因为,我们说的“相同条件”是指一些主要条件来说的,除了这些主要条件外,还会有许多次要条件和偶然性因素影响着结果。而这些次要的、偶然起作用的因素又是人们无法事先一一能够掌握的。正因为这样,我们在这一类现象中,就无法用必然性的因果关系,对个别现象的结果事先作出确定的答案。事物间这种关系是属于偶然性的,这种现象叫做偶然现象,或者叫做随机现象。在自然界,在生产、生活中,随机现象十分普遍,也就是说随机现象是大量存在着的。比如:拿北京地区来说,测量每年七月份的天气平均气温,每年都各有差异,不完全相同,而且也不能准确地预测来年七月份的平均气温。这样,“北京七月份平均气温”就是随机现象。又如,同一名工人,用同一台车床在同一条件下(同材料、同一操作规程)加工一种标准长度150毫米的零件等现象,也是随机现象。因此,我们说随机现象就是:在同样条件下,多次进行同一试验或调查同一现象,所得结果不完全一样,而且无法准确地预测下次所得结果的现象。随机现象这种结果的不确定性,是由于一些次要的、偶然因素影响所造成的。随机现象表面上看来,似乎是杂乱无章的、没有什么规律的现象。但实践证明,如果同类的随机现象大量重复出现,它的总体就呈现出一定的规律性。2举例采说,掷一枚均匀的五分硬币,有两种可能性,一种是“国徽面”朝上,一种是“伍分面”朝上。每掷一次,很难断定是哪种结果。但是如果多次重复地掷这枚硬币,就会越来越清楚地发现“国徽面”朝上的次数和“伍分面”朝上的次数大体相同这样的规律性。在同样条件下,同一名工人加工同一种零件,每一件的长和标准长150毫米都有差异,但是如果检验他所加工的许多同一零件的时候,就会发现这些零件中比标准长150毫米大的件数和比标准长150毫米小的件数大体相同,而且和标准长相比,相差过大的占少数,相差不多的占多数。大量同类随机现象所呈现的这种规律性,随着我们观察次数增多而愈加明显。我们把这种由大量同类随机现象所呈现出来的集体规律性,叫做统计规律性。概率论和数理统计就是研究大量同类随机现象的统计规律性的数学学科。(2)概率论的产生和发展概率论产生于十七世纪,本来是由保险事业的发展而产生的,但是来自赌博者的请求,却是数学家们思考概率论的一些特殊问题的源泉。早在1654年,有一个赌徒梅累向当时的数学家帕斯卡提出一个使他苦恼了很久的问题:“两个赌徒相约赌若干局,谁先赢m局就算获胜,全部赌本就归胜者。但是,当其中一个人赢了)(maa局,另一个人赢了)(mbb局的时候,赌博中止。问赌本应当如何分法才合理?”三年后,也就是1657年,荷兰著名的天文、物理兼数学家惠更斯企图自己解决这一问题,结果写成了《论机会游戏的计算》一书,这就是最早的概率论著作。近几十年来,随着科技的蓬勃发展,概率论大量应用到国民经济、农业生产及各学科领域。许多兴起的应用数学,如信息论、对策论、排队论、控制论等,都是以概率论作为基础的。概率论和数理统计可以算作一门随机数学分支,它们是联系密切的同类学科,我们现在就是把它们合起来作为一门分支进行介绍的。但是,应该指出,概率论、数理统计、统计方法又各有它们自己所包含的不同内容。概率论是根据大量同类随机现象的统计规律,对随机现象出现某一结果的可能性作出一种客观的科学定义,对这种出现的可能性大小作出数量上的描述;比较这些可能性的大小,研究它们之间的联系,从而形成一整套数学理论和方法。3数理统计是应用概率的理论来研究大量随机现象的规律性,对通过科学安排的一定数量的试验所得到的统计方法给出严格的理论论证,并判定各种方法应用的条件以及方法、公式、结论的可靠程度和局限性。使我们能从一组样本来判定是否能以相当大的概率保证某一判断是正确的,并可以控制发生错误的概率。统计方法是以上提供的方法在各种具体问题中的具体应用,它不去注意这些方法的理论根据、数学论证。因而就有象森林统计学、纺织工业统计、教育统计、生物统计、天气预报的统计方法等等。由于随机现象在人类的实际活动中大量存在,概率统计随着现代工农业、近代科技的发展而不断发展,因而形成了许多重要分支。如:随机过程(其中重要的有“马尔可夫过程”和“平衡过程”)、信息论、极限理论、试验设计、多元分析等。概率统计的应用,在国民经济、自然科学各具体领域中又是非常广泛的。如现代物理对微观世界的研究、无线电通讯和导航、生产过程的质量控制、气象水文地震的预报、企业事业的管理、教育质量的统计、地理、物理、化学、生物的研究都离不了这个方法。应当指出,概率统计在研究方法上也有它的特殊性,和其他学科不同的主要特点有下列几点:第一,由于随机现象的统计规律是一种集体规律,必须在大量同类随机现象中才能呈现出来,所以,进行观察、试验、调查就是概率统计这门学科研究方法的基石。但是,要注意它作为数学学科的一个分支,也是具有本学科的定义、公理、定理的。而这些定义、公理、定理也是确定的,不存在任何随机性。只不过这些定义、公理、定理是来源于自然界的随机现象罢了。第二,在研究概率统计中,使用的是“由部分推断全体”的统计推断方法。这是因为它研究的对象——随机现象的范围是很大的,在进行试验、观测和调查的时候,不可能也不必要全部进行,只能取其一部分(就是样本)进行试验、观测。但是由这一部分资料所得出的一些结论,要去推断在全体范围(就是总体)内这些结论的可靠性。第三,要特别指出,随机现象的随机性,是指试验、调查之前来说的。就是说,随机观象是对于某一试验、调查之前,我们说它可能出现不确定的结果。而4真正做了试验之后,那么对于每一次试验来说,它只能得到这些不确定的结果中的某一个确定结果。我们研究这一现象的时候,应当注意在试验以前能不能对这一现象找出它本身的内在规律。(3)概率论的内容概率论作为一门数学分支,它所研究的内容一般包括随机事件的概率、统计独立性和条件概率、随机变量、概率分布、正态分布和方差等等。至于概率论的一些分支,这里就不介绍了。现在我们先介绍概率论最基本的一些概念和符号。随机事件一般用大写字母A、B、C等来表示,叫做事件A、事件B等。必然发生的事件,叫做必然事件,用符号U表示。不可能发生的事件,叫做不可能事件,用符号V表示。事件之间的相互关系,一般也用符号表示。比如,“A+B”表示事件A和事件B至少发生其中一件的事件。“A·B”表示事件A和事件B同时发生的事件。事件A和事件B不能同时发生,叫做互斥事件。如果事件21AA是必然事件,而且1A和2A互斥,就把1A(或2A)叫做2A(或1A)的对立事件,并用符号表示成21AA或12AA如果n个事件nBBB,,,21能够满足这样的条件:彼此互斥,nBBB21是必然事件,就是UBBBn)(21,那么,就把这n个事件叫做完全事件系。概率是随机事件发生的可能性的数量指标。什么叫做概率呢?这里还要介绍其他几个概念。如果随机事件A在n次独立重复的随机试验中出现了k次,nk0,那么,k叫做事件A在n次试验中的频数,nk叫做频率。人们通过长期试验,发现如果试验次数很大,频率虽然仍有微小的波动,但是比较明显地稳定在某一个固定的常数附近。这样就得到结论:事件A发生的频5率nk将稳定在一个常数b附近。我们就把常数b叫做事件A的概率。一般用符号表示成bAP)(很明显,必然事件U的概率是1)(UP不可能事件V的概率是0)(VP也可以断定,对于任何一件事件A的概率)(AP一定介于0与1之间,也就是1)(0AP在实际中,有一类随机现象,具有两个特点:第一,只有有限个可能的结果(比如n个);第二,各个结果发生的可能性是相等的。具有这两个特点的随机现象,叫做“古典概型”。对于古典概型,用不着做大量试验,只要确定事件A包含了多少个可能的结果,比如是m个,那么就可以得出下面的公式:nmAP)(如果事件A和事件B不可能同时出现,它们就叫互斥事件,互斥事件的概率有以下的公式:)()()(BPAPBAP在计算基一事件的概率比较复杂的时候,可以间接地通过先计算它的对立事件的概率而求出事件的概率。这是因为相互对立的事件A和事件A显然是互斥的,并且(AA)是必然事件。因此,1)()()(APAPAAP那么,又可以得到)(1)(APAP如果事件A的发生或不发生并不影响事件B的发生,反过来,事件B的发生6或不发生也不影响事件A的发生,就把事件A和事件B叫做相互独立事件。独立事件的概率有下公式:)()()(BPAPBAP在实际工作中,往往有一些更为复杂的问题,比如,在某一事件B已经发生的条件下,要求事件A发生的概率。这种概率就叫做条件概率。一般用符号记成)(BAP。要求这条件概率,只要知道)(BP和)(ABP就可以了。因为)()()(BPABPBAP根据这个公式,显然有另一条件概率公式)()()(APABPABP一般地,就有公式)()()()()(APABPBPBAPABP在某些情况下,给出了条件概率要求计算无条件概率,这时候就要用到全概率公式。比如,有n个基本事件nBBB,,,21组成一个完全事件系,那么,对于任何事件A,都有)()()(1iniiBPBAPAP这就是全概率公式。如果把全概率公式代入条件概率公式:niiiiiiBPBAPABPAPABPABP1)()()()()()(再把其中的)(iABP用)()(iiBPBAP代换,就可得niiiiiiiBPBAPBPBAPAPABPABP1)()()()()()()(这个公式叫做贝叶斯公式。它应用广泛,在解决一些复杂问题的时候,常常要用7到它。还有一类问题的特点和其他问题不同,它在每一次试验中)(AP不受其他各次试验的影响,它的结果也不依赖其他各次试验的结果,也就是各次试验是独立的,另外,事件A和对立事件A在同一次试验中,总要出现而且只能出现其中一件。遇到这类问题,如果知道事件A在一次试验中发生的概率是p,一般就用贝努利公式可以求得在n次试验中事件A出现k次的概率)(APk。贝努利公式是knkknkppCAP)1()()(在客观世界中,存在大量随机现象,随机现象产生的结果构成了随机事件,这些前面已经叙述了。那么,随机现象的各个结果能不能用变量来描述呢?实践证明,能够用变量来描述,这就产生了新的概念,叫做随机变量。随机变量有“有限”和“无限”的区分,一般又根据变量的取值情况分成离散型随机变量和非离散型随机变量等。一切可能的取值能够按一定次序一一列举,这样的随机变量叫做离散型随机变量。如果可能的取值充满了一个区间,无法按次序一一列举,这种随机变量就叫做非离散型随机变量。怎样全面描述离散型随机变量的统计规律呢?这就要研究概率的分布。如果有随机变量,它可能取的值是nxxx,,,21,而且取每一个值的概率分别是nppp,,,21,列成表就是nxxx,,,21概率nppp,,,21其中121nppp,这就是概率分布。在离散型随机变量的概率分布中,比较简单而应用广泛的是二项式分布。二项式分布只适用于n是一个确定的试验次数,如果重复试验次数0