第二章:概率论基本概念和统计学基础一、概率及其运算二、随机变量的分布三、常见的统计量什么是概率?概率是0和1之间的一个数值,表示某个事件发生的可能性或经常程度。随机事件发生的概率,通常用字母P表示。如事件A的概率记作P(A)。小概率事件:发生概率很小的事件。(Smallprobabilityevent)对小概率事件研究的重要性:用小概率事件对假定的模型进行判断是假设检验的基础。得到概率的三种途径一、利用等可能事件(古典概率法)计算这些概率的基础就是事先知道(或者)假设这些事件是等可能的,且事件总数是有限的。这种事件又称为等可能事件(Equallylikelyevent)。二、根据长期相对频数(统计概率法)通过观察事件在大量重复试验中出现的频率来估计的概率,若重复试验的次数为n,事件A发生的频率为m,则事件A发生的频率为m/n。又称为相对频数(Relativefrequency)。()/PAkn得到概率的三种途径这种计算方法得到的概率称为统计概率。当试验次数n无限增大时,统计概率值呈现出稳定在某一数值的特征,称为概率的稳定性。它体现了事件A发生的可能性大小是事件本身固有特性的反映。三、主观概率(Subjectiveprobability)既不能由等可能性来计算,也不可能从试验中得出。但可根据经验、常识或其他相关因素来判断的某一事件发生的可能性,这种概率称为主观概率。例如,你今年暑假去九寨沟旅游的概率。国家今年推行新的环保措施的概率。概率的基本性质和运算概率是非负数,即若事件A是不可能事件,则概率不大于1,即若事件A是必然事件,则对任何两事件A和B有若事件A和事件B互斥,则对任一事件A有对任何两事件A和B,若,则恒有()0PA()()0PAP()1PA()()1PAP()()()()PABPAPBPAB()()()PABPAPB()1()PAPAAB()()PAPB概率的相关术语互补事件(complementaryevent)独立事件(Independentevent)互不相容事件(Mutuallyexclusiveevent)条件概率(conditionalprobability)优势或赔率(Odds):互补事件概率之比。Odds=p/(1-p)随机变量的分布(一)随机变量随着随机因素变化而变化,但又遵从一定概率分布规律的变量。随机变量的分布随机变量取一切可能值或范围的概率或概率的规律称为概率分布(Probabilitydistribution),简称分布。概率的分布可以用表、各种图来表示,也可以用公式来表示。一个概率分布是和某总体(population)也称为样本空间(samplingspace)相联系的。随机变量的分布(二)为什么要确定一个随机变量的概率分布?在前面提到抽样调查时的总体(或有限总体)没有与概率相联系的实际存在。但在确定了抽样方法之后,有限总体就可能与概率有关的总体有某种联系,并且可能对诸如总体进行推断。这里的总体或样本空间为一个抽象的空间,它是由某种试验的所有可能结果点组成的,这些结果的获得都服从某种概率规律。一个总体(样本空间)是由一个取值范围及相连的概率所组成的。因此给出了概率分布就等于知道了总体。随机变量的分布(三)离散随机变量如果随机变量X只能以一定的概率取离散的数值,则称这种变量为离散型随机变量。连续随机变量如果随机变量X以一定概率的取值充满某一数值区间,即在某一数值区间中可任意取值,取值数量有任意多个,则称这种变量为连续型随机变量。分布和分布函数一个随机变量取值的规律,称为该随机变量的分布;表征随机变量分布的函数就是分布函数;给定随机变量X,考虑X的值小于x的概率为,显然它是x的函数,我们称其为随机变量X的分布函数。nxxx,,,21几种分布函数概率分布的描述离散变量的概率分布由其所有可能取值k的概率来描述。连续变量的概率分布由其取值范围内的点x的概率密度函数(probabilitydensityfunction,pdf)f(x)来描述。连续随机变量在单独点上的概率为零,而在某区间上概率可以利用积分得到。累积分布函数(Cumulativedistributionfunction,cdf),简称为分布函数。它是随机变量小于或等于某数x的概率,记为F(x)。对离散变量,分布函数为:对连续变量,分布函数为:()()PXkpk()()baPaxbfxdx()()()xFxPXxftdt()()()kxFxPXkpk随机变量的分布(四)分布函数的性质,则有:(1)在(x)的整个区间中,任一随机变量必满足:1)(0xF(2)由于随机变量不取任何值的概率为零,因而有:0)(lim)(xFFx(3)随机变量能够取任何值为必然事件,因而有:1)(lim)(xFFx(4)当x2x1时,显然有概率)()(12xXPxXP,因而有:)()(12xFxF(当x2x1时)这表明分布函数具有单调递增的性质。随机变量的分布(五)分布密度函数(DistributionDensityFunction)分布密度函数的定义是:连续型随机变量X的值落在单位区间内的概率,记作。根据定义,可以得到分布密度和分布函数之间的关系:xdxxfxF)()(或xxFxxFxfx)()(lim)(0可以证明随机变量的概率密度函数f(x)有如下性质:)(0)(xxf1)(dxxf21)()()()(1221xxdxxfxFxFxXxP常见的离散分布(一)二项分布(BinomialDistribution)二项分布是一种常见的离散型随机变量的理论分布。设一次试验中,试验结果对事件A只有两种可能,出现或不出现,二者必居其一,且每次试验结果彼此独立,即一次试验的结果完全不影响另一次试验的结果。若令事件A出现的概率为p,事件A出现的概率(A不出现)为q,则显然有关系式:pq1进行n次试验中事件A出现k次的概率为:knkknknkknppCqpCP)1(由于式中的概率p的表达式是二项式nqp)(的展开式中的对应项,因而这一概率分布称为二项分布。常见的离散分布(二)二项分布的分布函数F(x)为kiinipCpkxPxF0)1()()(二项分布的数学期望为:nkknknppkCpXE0)1()(二项分布的方差为:nkknkknnpqppCnpk022)1()(常见的离散分布(三)[例1-8]已知某市的机动车辆整车噪声超标率为40%。若任意抽查10辆汽车,问抽查到噪声超标车辆的概率分布。解这显然是一个二项分布问题,依题已知n=10,p=0.4,q=0.6,即可按二项分布概率计算式(1-14),计算超标车辆数0-10台的概率见表1-2。显然k=4的概率P有最大值,即抽到4辆汽车噪声超标的可能性最大。表1-2抽查到的超标车辆数目与其相应的概率超标车辆(k)012345678910概率(P)0.0060.040.120.220.250.200.110.040.010.00160.0001例题:024681000.050.10.150.20.250.30.3510次抽样中出现x台车辆超标概率(密度)0510152000.050.10.150.20.250.30.350.420次试验中出现x次小概率事件概率(密度)02040608010000.020.040.060.080.10.120.140.160.180.2100次试验中出现x次小概率事件概率(密度)已知假设性检验中所确定的小概率事件发生的概率为5%,若任意进行20次试验,问试验中出现小概率事件的概率分布。若任意进行100次试验,问试验中出现小概率事件的概率分布。假设性检验所涉及的小概率事件常见的离散分布(四)Poisson分布衡量某种事件在一定期间内出现的数目的概率。是单参数离散分布,随机变量取值为非负数。参数λ既是分布的均值又是分布的方差。参数为λ的poisson概率分布为:()0,1,2,!kPkexk0510152000.050.10.150.20.25参数为3,6,10的Poisson分布概率(密度)蓝色表示λ为3,即P(3)红色表示λ为6,即P(6)黑色表示λ为10,即P(10)Poisson概率分布图例总体的理论分布正态分布对数正态分布分布分布指数分布Weibull分布Maxwell分布常见的连续变量的分布(一)抽样统计量的分布样本均值的分布T-分布F-分布分布2正态分布(一)正态分布是一种具有重要理论和实践意义的连续型理论分布。在环境数据统计分析中,正态分布同样具有重要意义。一般而言,当随机变量受到很多随机因素的影响,而每一随机因素的影响很小,不起决定性作用时,具有这种特性的随机变量,一般服从正态分布。还有很大一类随机变量近似服从正态分布。正态分布(二)正态分布(三)正态分布(四)正态分布(五)对数正态分布(一)抽样统计量的正态分布(一)抽样统计量的正态分布(二)抽样统计量的正态分布(三)抽样统计量的分布(一)2抽样统计量的分布(二)2抽样统计量的分布(三)2抽样统计量的分布(三)2抽样统计量的t分布(一)抽样统计量的t分布(二)抽样统计量的t分布(三)抽样统计量的t分布(四)抽样统计量的t分布(五)抽样统计量的F分布(一)抽样统计量的F分布(二)抽样统计量的F分布(三)抽样统计量的F分布(四)Excel中常用统计函数正态分布函数NORMSDIST(z)返回标准正态分布累积函数。NORMDIST(x,mean,stand_dev,TRUE)返回指定平均值和标准偏差的正态分布累积函数。NORMSINV(probability)返回标准正态累积分布函数的分位数。NORMINV(probability,mean,stand_dev)返回正态累积分布函数的分位数。Excel中常用统计函数对数正态分布函数LOGNORMDIST(x,mean,stand_dev)返回指定平均值和标准偏差的对数正态分布累积函数。LOGINV(probability,mean,stand_dev)返回对数正态累积分布函数的分位数。如果p=LOGNORMDIST(x,...),则LOGINV(p,...)=x。Probability是与对数分布相关的概率。Mean为ln(x)的平均值。Standard_dev为ln(x)的标准偏差。Excel中常用统计函数T分布函数TDIST(x,degrees_freedom,tails)返回学生t分布的概率。TDISTINV(probability,degrees_freedom)返回作为概率和自由度函数的学生t分布的t值。Probability为对应于双尾学生t分布的概率。X为需要计算分布的数字。Degrees_freedom为表示自由度的整数。Tails指明返回的分布函数是单尾分布还是双尾分布。如果tails=1,函数TDIST返回单尾分布。TDIST的计算公式为TDIST=P(Xx)。如果tails=2,函数TDIST返回双尾分布。TDIST的计算公式为TDIST=P(|X|x)。Excel中常用统计函数CHI-2分布函数()CHIDIST(x,degrees_freedom)返回分布的概率(单尾)。函数CHIDIST按CHIDIST=P(Xx,degreesfreedom)计算。CHIINV(probability,degrees_freedom)返回分布函数的上侧分位数。如果probability=CHIDIST(x,...),则CHIINV(probability,...)=x。Probability为分布的概率(单尾)。Degrees_freedom自