龚Y寒假专用资料概率统计1.1随机事件一.随机试验满足的3个特点:1.试验可在相同的条件下重复地进行2.试验的所有可能结果在试验前已经明确,且不止一个3.试验前不能确定试验后会出现哪一个结果。二.样本空间一个随机试验每一个可能出现的结果称为样本点,全体样本点组成的集合称为样本空间。三.随机事件我们通过随机试验来研究随机现象时,通常不关心某一个样本点在试验后是否出现,而是关心满足某些条件的样本点在试验后是否出现。称一个随机试验的样本空间的子集为随机事件,简称事件。仅含一个样本点的事件称为基本事件。试验后,如果出现事件A中所包含的某个样本点,称A发生,否则称A不发生。称整个样本空间为必然事件,空集为不可能事件。四.随机事件间的关系与运算(集合运算关系)1.若A交B为空集,称A与B互不相容或互斥。它的含义是A与B在一次试验后不会同时发生。如果一组事件(可以是无限个)中任意两个都互斥,称这组事件两两互不相容。2.对立事件若A交B为空集,A并B为全集,则称A、B为对立事件。龚Y寒假专用资料1.2概率,等可能概型一.概率:一次试验后,随机事件A可能发生,可能不发生。随机事件发生的可能性的大小用区间[0,1]中的一个数来刻画,这个数称为概率。事件A的概率记作P(A)。二.等可能概型1.定义:样本空间中的每个样本点在一次试验后以相等的可能性出现。又分为古典型概率和几何型概率。2.古典型概率两个特征:(1)试验的样本空间是有限集(2)每个样本点在1次试验后以相等的可能性出现。古典概型是概率论初期的主要研究对象。在古典概型中,若事件A中包含m个样本点,样本空间共有n个样本点(m=n),则规定P(A)=m/n,用这种方法算得的概率称为古典概率。3.几何型概率这种问题中,样本空间通常是一维区间、二维区域、三维区域,它们一般用长度、面积、体积来度量大小;另一方面,它们的样本点也是等可能出现的,这里,“等可能性”的确切含义是:当A是样本空间的一个子集时,P(A)与A的位置及形状均无关,而只与A的长度(或面积,或体积)成正比。定义:假定样本空间U是某个区域(可一维,两维,三维),每个样本点等可能地出现,我们规定,P(A)=m(A)/m(U)这里,m()在一维情况下表示长度,二维情况下表示面积,三维情况下表示体积。用这种方法得到的概率称为几何型概率。1.3频率与概率概率是随机事件发生的可能性大小的一种量度,度量的方式是否符合实际应由实践来检验。例如,多次上抛一枚均匀硬币的随机试验,按古典概率求得出现正面的概率为0.5。若把这枚均匀硬币上抛10000次,出现正面的次数是否会是5000次左右?称Na/N为事件A在N次重复试验中出现的频率,其中Na表示A在N次重复试验中出现的次数,即频数。上面的问题换种说法,即出现正面的概率是否会与10000次重复试验中出现正面的频率大致相等?长期的实践表明,虽然一个随机事件在一次试验后可能发生也可能不发生,但在大量重复试验中这个事件发生的频率具有稳定性,这种稳定性正是统计规律性的反映。频率的稳定性提供了一般的定义事件概率的一个客观基础。对于一个事件A,n次重复试验中A发生的频率随着n的增大将稳定到某个常数,这个常数表现为A的一种属性,称为A的概率的统计定义。具体问题中,按统计定义求概率是不现实的,因此,实际应用中,往往就简单地把频率当作概率使用。龚Y寒假专用资料以频率取代概率在社科类学科中(如经济类)已广泛使用,即使n不大时,也是如此。1.4概率的公理化定义与性质给定一个随机试验,U是它的样本空间,对于任意一个事件A,若P(A)定义为A的概率,则P()满足如下3条公理:公理1非负性对任意一个事件A,P(A)≥0公理2规范性P(U)=1公理3可列可加性当可列无限个事件A1,A2…两两互不相容时,P(A1UA2U…)=P(A1)+P(A2)+…推论1有限可加性当n个事件A1,…,An两两互不相容(互斥)时,P(A1UA2U…UAn)=P(A1)+…+P(An)推论2对任意一个事件A,若B是其对立事件,则P(B)=1-P(A)推论3P(A)≤1推论4加法公式对任意两个事件A和B,有P(AUB)=P(A)+P(B)-P(AB)推广:P(AUBUC)=P(A)+P(B)+P(C)-P(AB)-P(AC)-P(BC)+P(ABC)1.5条件概率与随机事件的独立性一.条件概率(了解)给定一个随机试验,对于任意两个事件A,B,P(B)0,称P(AlB)=P(AB)/P(B)为在已知事件B发生的条件下事件A的条件概率。于是P(AB)=P(B)P(AlB)二.随机事件的独立性1.定义:对任意两个事件A,B,若P(AB)=P(A)P(B)成立,即P(AlB)=P(A),称A与B相互独立。2.设a是A的对立事件,b是B的对立事件,则有定理:下面4个命题等价:1)A与B相互独立2)A与b相互独立3)a与B相互独立4)a与b相互独立2.对于任意3个事件A,B,C,若4个等式P(AB)=P(A)P(B),P(AC)=P(A)P(C),P(BC)=P(B)P(C),P(ABC)=P(A)P(B)P(C)同时成立,称A,B,C相互独立。若只成立前3个等式,称A,B,C两两独立。在具体应用问题中,独立性可以根据实际情况来判定。龚Y寒假专用资料三.贝努利概型与二项概率1.若n个试验的试验结果是相互独立的,称n个试验相互独立。2.若在1个试验中只关心某个事件A是否发生,称这个试验为贝努利试验,相应的数学模型为贝努利概型。若把贝努利试验独立地重复做n次,这n个试验合在一起称为n重贝努利试验。在n重贝努利试验中,主要研究A发生的次数。Pn(k)表示n重贝努利试验中事件A发生了k次,k=0,1,2…n一次试验中P(A)=p则Pn(k)=C(n,k)p^k(1-p)^n-k,k=0,1,2,…n显然,全体Pn(k)相加,应有∑Pn(k)=1通常称Pn(k)为二项概率,因为它恰是[(1-p)+p]^n的二项式展开式中的第k+1项。2.1随机变量1.定义:给定一个随机试验,U是样本空间,如果对U中的每一个样本点w,有一个实数X(w)与它对应,那么,就把这个定义域为U的单值实值函数X=X(w)称为(一维)随机变量。注意:把随机变量X=X(w)称作函数,与我们之前遇到的函数是有区别的。普通函数的自变量取实数值,而随机变量这个函数的自变量是样本点,它可以是一个实数(当样本空间为数集时),也可以不是实数(样本空间不是数集时)。但是,随机变量取的值是实数,它的值域是一个数集,且这个值域与样本空间构成了对应关系。站在试验前的立场看,我们不知道试验结果将出现样本空间中的哪个样本点,即不知道随机变量会取其值域中的哪一个数。从这个意义上说,随机变量的取值是随机的。概率论的一个基本任务就是研究随机变量取值的统计规律性。2.2一维离散型随机变量的分布——概率函数1.如果1个随机变量只可能取有限个或可列无限个值,那么,称该随机变量为(一维)离散型随机变量。2.要掌握一个离散型随机变量取值的统计规律(即分布),除了必须知道它的值域外,还需知道它取各个可能值的概率。设随机变量X的值域为{a1,a2,…},对于每一个i=1,2,…,X取值为ai(即事件{X=ai})的概率为P(X=ai)=pi按照概率的定义与性质,p1,p2,…应满足下列两个条件:1)pi≥0,i=1,2,…2)∑pi=1当满足这两个条件时,称P(X=ai)=pi,i=1,2,…为随机变量X的概率(质量)函数(或分布律)。2.3随机变量的数字特征随机变量的分布函数固然全面地描述了这个随机变量取值的统计规律性,但在实际问题中,随机变量的分布并不能确切的知道,我们常常关心的只是随机变量的取值在某些方面的特性,而不是它的全貌。这类特征往往通过若干个实数来反映,在概率论中称它们为随机变量龚Y寒假专用资料的数字特征。在应用问题中,随机变量的数字特征常发挥重要作用。2.3.1数学期望引例:某校甲班有20名学生,他们一次考试的英语成绩,1人1分,4人2分,7人3分,6人4分,2人5分,则该班的平均成绩是各种成绩以频率为权的加权平均:1/20(1×1+4×2+7×3+6×4+2×5)=3.21.定义:设离散型随机变量X的概率函数为P(X=ai)=pi,i=1,2,…当∑∣ai∣pi收敛时(若X仅可能取有限个值,不需要这个条件;若这个条件不满足,X的数学期望不存在),称∑aipi的值为X的数学期望(简称期望或均值),记作E(X),即E(X)=∑aipi由于常见的随机变量都满足定义中∑∣ai∣pi收敛的要求,以下讨论不再验证这一条件。由于随机变量的分布刻画了随机变量取值的统计规律性,因此,当X服从某个分布时,我们也称E(X)是这个分布的期望。期望E(X)的直观含义是:它反映了随机变量X的平均取值。2.随机变量函数的期望计算公式:设离散型随机变量X的概率函数为P(X=ai)=pi,i=1,2,…,当∑∣g(ai)∣pi收敛时,随机变量函数g(X)的期望为E[g(X)]=∑g(ai)pi3.期望的性质:设k,l,c都是常数1)E(c)=c2)E(kX+c)=kE(X)+c3)E(kX+lY)=kE(X)+lE(Y)4)X,Y相互独立时,E(XY)=E(X)E(Y)2.3.2方差,标准差随机变量的期望仅仅反映了该随机变量的平均取值,这有很大的局限性。例如,在上节引例中,若该校乙班也有20名学生,他们的英语成绩为:16人3分,4人4分,则乙班的平均成绩也是3.2,能否认为甲乙两班英语水平相当?从直观上看,相对于平均成绩而言,甲班的成绩比较分散,乙班的成绩比较集中。下面引进的数字特征便可用来反映随机变量的取值相对于它的期望的平均偏离程度。1.定义:设X是一个随机变量,称D(X)=E{[X-E(X)]^2}为X的方差,称√D(X)为X的标准差(或标准偏差)。2.常用计算公式:D(X)=E(X^2)-[E(X)]^23.方差的性质:设k,c为常数龚Y寒假专用资料1)D(c)=0;反之,如果某个随机变量X的方差为0,则P(X=c)=1,且其中c=E(X)2)D(kX+c)=k^2D(X)3)D(X+Y)=D(X)+D(Y)+2E{[X-E(X)][Y-E(Y)]}4)D(X-Y)=D(X)+D(Y)-2E{[X-E(X)][Y-E(Y)]}5)X,Y相互独立时,D(X+Y)=D(X-Y)=D(X)+D(Y)3.1概述数理统计的应用非常广泛,凡是有随机性数据出现的问题,都要用到数理统计;层出不穷的应用性问题的提出与解决,又不断推动了数理统计的发展。用数理统计方法处理问题,一般要做以下三方面工作:(1)收集一批带有随机性的数据;(2)对这批数据进行整理和分析;(3)对有关问题进行推测。数理统计就是研究如何以有效的方法去收集、整理与分析带有随机性影响的数据,从而对所考察的问题作出推断和预测,直到为采取某种决策提供依据与建议。由于数据的产生带有随机性,因此上述工作离不开概率论的基本知识。3.2总体与样本1.在数理统计中,通常把研究对象的全体称为总体(或母体),把组成总体的每个成员称为个体。按总体中所包含的个体个数的不同,总体可分成有限总体与无限总体,当个体个数很大时,通常把有限总体看作无限总体,本课程仅讨论无限总体。当我们打算从总体中抽取一个个体时,在抽到某个个体之前这个个体的数值指标是不能确定的,因而是一个随机变量,记作X,X取值的统计规律性反映了总体中各个个体的数值指标的规律。因此,把随机变量X的分布函数称作总体分布函数。在数理统计中,总体X的分布永远是未知的,即使有时有足够的理由可以认为总体X服从某种类型的分布,但这个分布的参数还是未知的。2.由于总体X的分布是未知的,因此总体X的数字特征(如均值、方差等)往往也是一个未知的值。这些未知的值可以根据数据来推测,这些数据称为样本观测值,记作X1,X2,…Xn,数据的个数n称为样本大小(或样本容量)。样本观测值是一部分个体的数值指标。为了得到样本观测值,必须抽取一部分个体进行观测,这个过程称为抽样。换句话说,抽样