经济计量学概率论与统计学基础(chp2~chp5)主要内容概率论基础知识数理统计基础知识概率论部分概率论基础知识主要内容概率随机变量概率密度函数多维随机变量随机变量的数字特征一些重要的概率分布概率随机试验可以在相同条件下重复进行每次试验的可能结果不止一个,但事先能明确所有的可能结果进行一次试验之前不能确定会出现哪一个结果实例一枚硬币抛掷两次在校园里询问任意一个学生的年龄样本空间(samplingspace)/总体(population)某一个随机试验的所有可能结果组成的集合,记为S样本点(samplingpoint)样本空间里的某一元素,即随机试验的某一可能结果实例一枚硬币抛掷两次,出现正面记为H,出现反面记为T样本空间:{HH,HT,TH,TT}样本点:HH,HT,TH,TT事件(event)某一随机试验的样本空间的一个子集实例:一枚硬币抛掷两次事件A:出现两个正面事件B:出现一个正面和一个反面事件C:出现两个反面频率(frequency)在相同条件下,某随机试验进行了n次,其中事件A发生了m次,则比值m/n称为事件A发生的频率,记fn(A)实例:抛掷一枚硬币,事件A为出现正面当n逐渐增大时,频率趋向于某一常数,称为频率稳定性n550500204840401200024000fn(A)0.70.540.4840.51810.50690.50160.5005概率(probability)S是某一随机试验的样本空间,对于其中的任意一个事件A赋予一个实数P(A),如果P(A)满足下列三个条件,则称P(A)为事件A的概率。1.0P(A)12.P(S)=13.如果A1,A2,…,是两两不相容的事件,那么P(A1+A2+…)=P(A1)+P(A2)+…当n趋近于无穷大时,频率fn(A)无限接近于概率P(A),从而用概率来度量事件A在一次试验中发生的可能性条件概率(conditionalprobability)设A、B是两个事件,且P(A)0,称下式为事件A发生的条件下事件B发生的条件概率:实例一枚硬币抛掷两次,出现正面记为H,出现反面记为T。事件A为“至少有一次H”,事件B为“两次都是同一面”。则事件A的概率为3/4,事件A和B同时发生的概率为1/4,在A发生的条件下B发生的概率为1/3)()()|(APABPABP随机变量随机变量(stochastic/randomvariable)一个变量若它的值是由随机试验决定的,称其为随机变量。随机变量通常用大写字母X、Y、Z表示,其数值则用小写字母x、y、z表示离散型随机变量(discreterandomvariable)可能取到的值是有限个的随机变量例:离散型随机变量:扔一次骰子出现的点数;未出生婴儿的性别连续型随机变量(continuousrandomvariable)可能取到的值是无限个的随机变量例:人的身高;百米跑速度概率密度函数(probabilitydensityfunction,PDF/probabilitydistribution)离散型变量的概率密度函数/概率分布实例X:投掷两颗骰子出现的点数之和,X的PDF为:n,,2,1i),xX(P)X(fiX23456789101112f(X)1/362/363/364/365/366/365/364/363/362/361/36连续型变量的累积分布函数(cumulativedistributionfunction,CDF)实例枪靶的半径为2米,若每枪都能击中枪靶,且击中靶上任一同心圆内的点的概率与该圆的面积成正比,则弹着点与靶心的距离X是一个连续型随机变量,其CDF为:ba),a(F)b(F)bXa(P.b)a(F1)aX(P.a)xX(P)x(F概率密度函数2,120,4/0,0)(2xxxxxFF(x)x21概率密度函数连续型变量的概率密度函数(PDF)实例在上例中,PDF为:ba,dx)x(f)a(F)b(F)bXa(P.b1dx)x(f.a)t(f)xX(P)x(Fdx)x(fbax有以下重要性质:概率密度函数其它,02x0,2/x)x(fxf(x)12概率密度函数连续型变量的概率密度函数(PDF)f(x)xabbadxxfbXaP)()(多维随机变量多维随机变量多个变量的取值由同一个随机试验决定,称这些变量为多维随机变量。以下我们考虑最简单的二维随机变量,用(X,Y)表示,其数值用(x,y)表示实例离散型二维随机变量:每一位学生的性别和民族连续型二维随机变量:每一位学生的身高和体重多维随机变量离散型变量的联合概率密度函数(jointPDF)实例譬如:既是男生又是满族的概率为0.08,既是女生又是回族的概率为0),(),(yYxXPyxf民族汉族满族回族蒙古族性别男0.270.080.160女0.350.1000.04多维随机变量离散型变量的边缘概率密度函数(marginalPDF)实例)(),()()(),()(yYPyxfyfxXPyxfxfxyX(民族)边缘概率汉族满族回族蒙古族Y(性别)男0.270.080.1600.51女0.350.1000.040.49边缘概率0.620.180.160.04多维随机变量离散型变量的条件概率密度函数(conditionalPDF)表示在Y=y的条件下X=x的概率譬如:f(满族,女生)=0.10,f(女生)=0.49,f(满族|女生)=0.10/0.49=0.20f(汉族,男生)=0.27,f(男生)=0.51,f(汉族|男生)=0.27/0.51=0.53)(),()(),()|()|(yfyxfyYPyYxXPyYxXPyxfX(民族)边缘概率汉族满族回族蒙古族Y(性别)男0.270.080.1600.51女0.350.1000.040.49边缘概率0.620.180.160.04多维随机变量统计独立性(statisticallyindependence)如果两个随机变量的联合PDF等于它们边缘PDF的乘积,则称这两个变量是相互独立的(independent)。两个变量独立意味着其中一个变量的结果不会影响另一个。譬如:f(X=H,Y=H)=f(X=H)*f(Y=H)=1/2*1/2=1/4……)()(),()()(),(yYPxXPyYxXPyfxfyxf即:实例:抛硬币X(第一次)正面(H)反面(T)Y(第二次)正面(H)1/41/4反面(T)1/41/4多维随机变量连续型变量的联合概率密度函数(jointPDF)连续型变量的边缘概率密度函数(marginalPDF)统计独立性(statisticallyindependence)dcbayxdxdyyxfdYcbXaPyYxXPyxFdxdyyxf),(),(),(),(),(易知:)()(),()()(),(yYPyfdxyxfxXPxfdyyxf)()(),(yfxfyxf随机变量的数字特征以上讨论了随机变量的概率密度函数PDF和累积分布函数CDF,但在处理实际问题时,往往不需要求出这些函数,而是只需要了解变量的某些特征值。这些特征值包括三类:度量变量分布的集中趋势(centraltendency):数学期望或均值;中位数;众数度量变量分布的离散性(dispersion):方差;标准差度量两个变量的相关性(correlation):协方差;相关系数随机变量的数字特征数学期望(expectation)或均值(mean)离散型变量的期望:实例:扔两个骰子的点数之和)()(),()()(1iniixfxXExXPxfPDFXxf则,即的为若x23456789101112f(x)1/362/363/364/365/366/365/364/363/362/361/367)36/1(12)36/2(3)36/1(2)(XE随机变量的数字特征连续型变量的期望:实例:dxxfxXExXPdxxfPDFXxfx)()()()()(则,即的为若49dxx91x)X(E3x0;x91)x(f3022则若随机变量的数字特征期望的性质:)()()(.5)()()]([)(),(.4)()()(.3),()(.2,)(.1YEXEYXEYXdxxfxgXgEYEXgYYEXEYXEcXEcXcEcccE相互独立,则与若则若为常数为常数随机变量的数字特征中位数(median)对于离散型变量,假设所有可能取值的个数为n,把这些数从小到大排列。若n为奇数,位于中央位置的那个数就是中位数;若n为偶数,位于中央位置的那两个数的平均数就是中位数。记为Med(X),中位数所在的位置为(n+1)/2。x23456789101112f(x)1/362/363/364/365/366/365/364/363/362/361/367)(XMed中位数(median)对于离散型变量,假设所有可能取值的个数为n,把这些数从小到大排列。若n为奇数,位于中央位置的那个数就是中位数;若n为偶数,位于中央位置的那两个数的平均数就是中位数。中位数记为Med(X)。x23456789101112f(x)1/362/363/364/365/366/365/364/363/362/361/367)(XMo众数(mode)——随机变量的所有可能取值中出现次数最多的那个值。x23456789101112f(x)1/362/363/364/365/366/365/364/363/362/361/367)(XMo随机变量的类型定类变量(nominalvariable):性别;民族定序变量(ordinalvariable):教育水平;收入等级定距变量(intervalvariable):考试成绩;收入水平一般地,不同类型的变量用不同的数学特征表示其集中趋势。定类变量用众数;定序变量用中位数;定距变量用均值或中位数随机变量的数字特征方差(variance)方差被定义为随机变量对其均值的期望距离,用于表示随机变量与其均值的偏离程度。方差较小说明变量的分布比较集中,反之则说明变量的分布很分散方差的性质2222()()[()]VarXEXEXEXEX相互独立与,若为常数为常数YXYVarXVarYXVarcXVarcXcVarccVar)()()(.3),()(.2,0)(.12随机变量的数字特征实例:6/357)]36/1(144)36/2(9)36/1(4[)]([)(6/357)]36/1()712()36/2()73()36/1()72(})]({[2222222222XEXEXEXE或x23456789101112f(x)1/362/363/364/365/366/365/364/363/362/361/36随机变量的数字特征标准差(standarddeviation)方差的量纲与变量的量纲不同,为此引入与变量具有相同量纲的数字特征——标准差,同样度量变量的离散程度标准差的性质:)(XVarSD为常数、为常数bcXSDcbXcSDbccSDa),()(.,0)(.随机变量的数字特征度量变量离散程度的其他常用指标还有:极差/全距极差率变异系数)X(E)X(SDCV)Xmin()Xmax(range)Xmin()Xmax(I随机变量的数字特征协方差(covariance)协方差度量两个随机变量的相关(correlation)程度协方差大于0表示两个变量正