随机事件与概率随机变量及其分布概率论随机变量的数字特征大数定律与中心极限定理概率论与数理统计参数估计数理统计假设检验方差分析和回归分析随机事件的关系与运算基本概念概率与条件概率事件的独立性加法公式(第1章)乘法公式随机事件与概率基本公式全概率公式Bayes公式频率方法(统计方法)基本方法古典概型伯努利概型第1章随机事件与概率一、基本概念概率论研究随机现象的统计规律性。1.事件的运算及关系事件的并A∪B=“两事件A与B中至少有一件发生”。事件的交A∩B=AB=“两事件A与B都发生”。1niiA=“n个事件12,,,nAAA中至少有一件发生”;1niiA=“n个事件12,,,nAAA都发生”。事件的运算规律(1)交换律:ABBA,ABBA;(2)结合律:()()ABCABC,()()ABCABC;(3)分配律:()ABCABAC,()()()ABCABAC;(4)对偶律:ABAB,ABAB。11nniiiiAA;11nniiiiAA.包含若事件A的发生必然导致事件B的发生,则称事件B包含事件A,记为BA。相等当事件B包含事件A且事件A也包含事件B时,则称事件A与B相等,记为A=B。互不相容(互斥)若两事件A与B不可能同时发生,即AB=φ,则称事件A与B互不相容。对立若两事件A与B互不相容,且它们的并是必然事件,即A∪B=Ω,AB=φ,则称A与B互为对立事件,记为AB或BA。独立称A与B相互独立,如果P(AB)=P(A)P(B)。注意两事件互不相容、对立与独立之间的关系。2.概率与条件概率随机事件发生的可能性大小称为随机事件的概率.条件概率是指事件B已经发生的条件下,事件A发生的概率,记作(|)PAB。定义设()0PB,则在事件B已发生的条件下,事件A的条件概率定义为()(|)()PABPABPB。二、基本方法1.频率方法(统计方法)独立重复试验n次,当n充分大时,可把事件A出现的频率nAAfnn)()(作为A的概率P(A)的近似值。伯努利大数定律.doc2.古典概型(1)样本空间只包含有限个不同的基本事件;(2)每个基本事件出现的可能性相等.在古典概型中,如果基本事件总数为N,事件A所包含的基本事件数为M(MN),则()MPAN。3.伯努利概型将一试验独立重复n次,这一系列试验称为n重伯努利概型(独立试验序列)。设每次试验中事件A的概率为p(0p1),则在n重伯努利概型中事件A恰好发生m次的概率为()(1)mmnmnnPmCpp(m=0,1,2,…,n)。三、基本公式1.加法公式:()()()()PABPAPBPAB注:如果AB=φ,()()()PABPAPB。()()1PAPA。2.乘法公式:()()(|)PABPBPAB,如果()0PB。注:当P(AB)不容易直接得到时,可考虑利用乘法公式间接求得。3.全概率公式:1()()(|)niiiPAPBPAB,如果1niiB,ijBB(ij)。注:一个结果有许多原因,求结果发生的可能性可尝试用全概率公式。4.Bayes公式:niiijjjjBAPBPBAPBPAPABPABP1)|()()|()()()()|(,如果1niiB,ijBB(ij)。注:知道结果找原因,用Bayes公式。典型例题例1.1用甲胎蛋白法诊断肝癌,灵敏度(即癌症患者检测结果呈阳性的概率)是95%、特异度(即正常人检测结果呈阴性的概率)是90%。如果在例行检查(譬如单位每年一度的体检)中,某人的检验结果是阳性,试问:他应该沮丧到什么程度?答案是令人惊讶的,他甚至应该保持谨慎乐观的态度。为什么呢?我们只须计算出检验结果是阳性的条件下他患肝癌的概率就可以了。令A={检测结果是阳性},B={他患肝癌},则%90)|(%,95)|(BAPBAP。现在已知的只是癌症患者检测结果呈阳性的概率和正常人检测结果呈阴性的概率,为了利用Bayes公式计算检验结果是阳性的条件下他患肝癌的(后验)概率,还需要知道人群中肝癌的罹患率。根据广州市近年来的调查资料,我们可以假设人群的肝癌发病率大约为0.04%,即%04.0)(BP,则由Bayes公式得到他患肝癌的条件概率为)|()()|()()|()()|(BAPBPBAPBPBAPBPABP%38.0%)901(%)04.01(%95%04.0%95%04.0。这么小的概率自然不值得他担心。分布列联合分布列、边缘分布列离散型变量常用离散型随机变量随机变量函数的分布列(第2章)随机变量及其分布密度联合密度、边缘密度连续型变量常用连续型随机变量随机变量函数的密度或分布第2章随机变量及其分布一、随机变量及其分布1.分布函数:()()FxPXx,x。注:概率计算公式:1221()()()PxXxFxFx,其中实数12xx;2.联合分布函数:(,)(,)FxyPXxYy,,xy.注:(1)X的边缘分布函数为()()(,)(,)XFxPXxPXxYFx;Y的边缘分布函数为()()(,)(,)YFyPYyPXYyFy.(2)称随机变量X与Y独立,如果(,)()()XYFxyFxFy,,xy.二、离散型随机变量1.分布列:iipxXP)(,1,2,,,in。注:分布列的性质:(i)0ip;(ii)1iip.2.联合分布列:(,)ijijPXxYyp,i=1,2,…,m…;j=1,2,…n,…。注:(1)联合分布列的性质:(i)0ijp;(ii)1ijijp.(2)X的边缘分布列为()(,)iijijjjPXxPXxYyp,i=1,2,…,m…。Y的边缘分布列为()(,)jijijiiPYyPXxYyp,j=1,2,…n,…。(3)X与Y独立的充要条件是ijijijjippp,i=1,2,…,m…,j=1,2,…n,…。3.常用离散型随机变量的分布列(1)“0-1”分布:1()(1)kkPXkpp,0,1k。例.抛掷一枚均匀硬币,则徽花向上的次数X服从参数为1/2的“0-1”分布。(2)几何分布:1()(1)kPXkpp,1,2,3,k。例.某种定期奖券中奖率为p(0p1)。某人每次购买一张;如没有中奖,下次再继续购买一张,直到中奖为止,则该人所需购买次数X服从几何分布()Gp.(3)超几何分布:()knkMNMnNCCPXkC,0,1,2,,kn。例.一批产品共N件,其中次品M件,进行不放回抽样检查(每次从中任取一件,取出的产品不再放回去),连续取n次,则取出的n件产品中的次品数X服从超几何分布(,,)HnNM。(4)二项分布:()(1)kknknPXkCpp,0,1,2,,kn。例.一批产品共N件,其中次品M件,进行放回抽样检查(每次从中任取一件,取出的产品检查质量后仍放回去),连续取n次,则取出的n件产品中的次品数X服从二项分布(,)Bnp,其中/pMN。(5)泊松分布:()!kPXkek,0,1,2,k。例.泊松分布常见于稠密性的问题中,如一段时间内电话用户对电话站的呼唤次数、候车的旅客数、原子放射粒子数,都服从或近似服从泊松分布.定理1当N时,超几何分布(,,)HnNM趋近于二项分布(,)Bnp。定理1指出,当N充分大时,二项分布是超几何分布的近似分布.事实上,当一批产品的总数N很大,而抽取的样品数n远较N为小(10%nN)时,不放回抽样与放回抽样没有多大差别.定理2当n时,二项分布(,)Bnp趋近于泊松分布()P,其中np.定理2指出,当n充分大时,泊松分布是二项分布的近似分布;但只有当p的值很小(0.1p)时,用泊松分布取代二项分布所产生的误差才较小.三、连续型随机变量1.概率密度:()()fxFx。注:(1)()()xFxftdt。(2)概率密度()fx的性质:(i)()0fx;(ii)()1fxdx。(3)概率计算公式:2112()()xxPxXxfxdx。2.联合概率密度:(,)(,)xyfxyFxy。注:(1)(,)(,)yxFxyftsdtds。(2)联合概率密度(,)fxy的性质:(i)(,)0fxy;(ii)(,)1fxydxdy。(3)概率计算公式:((,))(,)RPXYRfxydxdy。(4)X的边缘概率密度为()()(,)XXfxFxfxydy.Y的边缘概率密度为()(,)Yfyfxydx.(5)X与Y独立的充要条件是(,)()()XYfxyfxfy,,xy。3.常用连续型变量及其概率密度:1)[,]ab上的均匀分布(],[~baUX):1,;()axbfxba0,其它.可描述“四舍五入”原则下的误差;每隔一定时间发车一部的车站乘客的候车时间。2)指数分布()(~eX):,0;()0xexfxx0,.可描述电子元件、动物的寿命;排队的服务时间。3)正态分布的概率密度与分布函数(i)标准正态分布(0,1)N的密度为221()2xxe,x;分布函数为221()2xtdtxe,其数值可查标准正态分布表(()1()xx)。(ii)正态分布),(~2NX:22()21()2xfxe,x;其分布函数为222()2211()22xxttxdtdtFxee;于是2112()xxXxPx,12xx。可描述测量误差;信号噪声;考试成绩;产品的质量指标;生物的生理指标等等.后面的中心极限定理告诉我们:大量独立同分布的随机变量的和近似正态分布!典型例题例2.1设连续随机变量X的概率密度为:2()1Afxx,x求:(1)常数A;(2)X落在区间[0,1]内的概率。[解](1)由概率密度的性质,有2211()arctan11AfxdxdxAdxAxAxx,故1A。(2)由概率计算公式知,所求概率为110201111(01)arctan(1)44PXdxxx。例2.2已知2007年广东省高考文科报考人数是24.7万人,本科计划招生5.8万人,本科录取率为23.4%。如果广东省高考文科总分X服从正态分布)100,500(2N,试问最低控制分数线应是多少,才能使得高校在录取新生时有多10%的选择机会?[解]设最低控制分数线为m,要使得高校在录取新生时有多10%的选择机会,只须%7.25%)101(%4.23)(mXP%7.25)100500(1m743.0)100500(m65.0100500m565m