提要介绍计量经济学的概率统计基础知识包括随机变量、统计推断和随机过程知识假设有基本的概率论知识本教材的计量经济模型和分析方法的需要对于学习和理解计量经济分析方法有启发第一节随机变量和概率分布一、随机变量及其概率分布二、多元分布和条件分布三、概率分布的数字特征四、常见分布五、随机变量的收敛性和极限理论一、随机变量及其概率分布(一)随机变量随机变量就是数量化的随机事件。按照公理化定义,随机变量是从样本空间扩张而成的-域到实数集的函数。在经济问题中,随机变量就是有随机性的经济指标、水平。随机变量也可以通过对定性事件的数量化转化得到。“离散型随机变量”和“连续型随机变量”。(二)概率分布随机变量重要的是取特定值的可能性,称为随机变量的“概率分布”。用表示一个随机变量,那么概率分布就是设定取特定值(一般用表示)的概率,记为。对于离散型随机变量来说,由于它们只取有限或可数个数值,因此离散型随机变量的概率分布一般可以用罗列的方法表示,用表格表示,或者用图形表示等。x)(xP(三)分布函数连续型随机变量的可能取值无穷多,而每个值取到的概率都是无穷小,无法用直接罗列概率的方法表达和研究,只能用反映随机变量取特定范围值可能性大小的分布函数,也称“累积分布函数”(accumulateddistributionfunction),进行描述和研究。分布函数就是随机变量的取值不大于给定水平的概率构成的函数。离散型随机变量的分布函数可以通过概率分布列的求和得到。分布函数完整地描述了随机变量的情况,掌握分布函数等于掌握了随机变量的随机性规律。随机变量的分布函数有如下性质:(1),;(2)若,则;(3);(4);(5)。0)(limxFx1)(limxFx21xx)()(21xFxF)()0(xFxF)()()(aFbFbaP)0()()(aFaFaP(四)密度函数连续型随机变量的概率分布还有另外一个有意义的概念,那就是密度函数(densityfunction)或者称“概率密度函数”。如果是的分布函数,是的密度函数,那么两者有如下关系:dttfxFx)()()(xF)(xf密度函数满足:(1);(2);(3)若是连续型随机变量的分布密度,则对实数轴上的任一测度,有)(xf0)()(xFdxdxf1)(dxxfDdxxfDP)()()(xfD(五)随机变量函数的概率分布如果是随机变量的函数,设的分布函数为,则的分布函数为含义是,自变量(随机)取特定值的概率,就是函数取相应函数值的概率。)()()(xFxyydFxG)()()(当是离散型随机变量时,其可能取值为,且,则当是连续型随机变量时,其分布密度函数为,则,,21xxkkpxP)(xxkkpxG)()()(xfxydyyfxG)()()(二、多元分布和条件分布(一)随机向量和多元分布计量经济学中会遇到大量相互联系的两个或多个随机变量的情况。许多时候重要的不是每个随机变量单独的随机性,而是一组变量取特定水平的概率。随机向量也有概率分布问题,称为“多元分布”。随机向量多元分布的含义是两个或多个随机变量取一组特定值的概率分布,一般用联合分布函数表示。从随机向量的联合分布函数可以引出随机变量边际分布的概念。(二)条件分布和随机变量的独立性条件分布:设是一个随机变量,事件B满足,则称为在事件B发生的条件下的“条件分布函数”,或简称“条件分布”。0)(BP)()(BxPBxF随机变量的相互独立性:如果的联合分布函数等于所有一维边缘分布函数的乘积,即那么称是“相互独立”的。),,(1n)()(),,(111nnnxFxFxxF),,(1n三、概率分布的数字特征(一)期望也称“数学期望”。衡量随机变量取值的平均水平,定义为随机变量的可能取值,以相应概率为权重加权的概率均值。(二)方差衡量随机变量取值发散程度的指标,定义为随机变量与其数学期望偏差平方的概率加权和。(三)期望和方差的性质(四)条件期望、全数学期望和条件方差条件期望即给定条件下所考察随机变量的概率均值。设是随机变量对事件B的条件分布函数,则当下列积分绝对收敛时,称为对事件B的“条件期望”。)(BxF)()(BxxdFBE全数学期望公式若是两两互斥的完备事件组,则有全数学期望公式其中可以是一般的随机事件,也可以是随机变量。nBB,,1nkkkBEBPE1)()()(nBB,,1条件方差给定随机变量X和Y,以X为条件的Y的条件方差为:222)]([)(})]({[)(XYEXYEXXYEYEXYVar(五)高阶矩仿照数学期望和方差,还可以进一步考虑更高阶的数字特征,称为“高阶矩”。当,随机变量和的数学期望和(假设存在),分别称为随机变量的“r阶原点矩”和“r阶中心矩”。可以用高阶矩构造一些有用的特定统计量:偏度、峰度。r0rrE))(()(rrErrEE))(((六)协方差和相关系数协方差设随机变量和的均值和方差都存在,则称为和的“协方差”(Covariance)。12))]())(([(),(221121EEECov12相关系数设随机变量和的均值和方差都存在,则称为和的“相关系数”(Correlationcoefficient)。偏相关系数计算偏相关系数要用到第二篇中的回归分析方法。)()())]())(([(21221121VarVarEEE1212四、常见分布(一)正态分布(二)分布(三)t分布(四)F分布2(一)正态分布取值于()的连续分布正态分布完全由期望和方差决定分布密度函数——数学期望——方差正态分布记为,222)(21)(xexf2),(2N正态分布是以数学期望为中心的对称分布正态分布密度函数具有“钟形”特征95%左右集中分布在期望加减2倍标准差范围99%以上集中在期望加减3倍标准差范围内正态分布偏度为=0正态分布密度函数有常峰态,峰度接近32323)(E224)(E标准正态分布一般正态分布随机变量变换成“标准正态分布”:密度函数:)1,0(N2221)(xex正态分布的检验根据密度函数的形态进行判断:用频数直方图的上方边缘作为密度函数的近似,判断随机变量是否服从正态分布。根据偏度、峰度特征检验:利用观测样本计算三阶矩和四阶矩的近似值(与后面讲的抽样分布有关),偏度和峰度近似值,如果接近0和3,则认为随机变量服从正态分布,也称“通过了正态性检验”。(二)分布标准正态分布随机变量的平方所服从的分布。取值范围是(),显然是非对称分布。数学期望等于自由度,方差为22kk,0(三)t分布设服从标准正态分布服从自由度为的分布则随机变量服从自由度为的t分布t分布概率密度函数形态类似标准正态分布方差为,比标准正态分布平坦,尾部厚Xk2kXt/k)2(kk(四)F分布服从自由度的分布,服从自由度的分布,相互独立,那么随机变量服从的分布称为有两个自由度和的F分布记为1X1k222X2k2211kXkXF),(21kkF1k2k六、随机变量的收敛性和极限理论(一)随机变量的收敛性大量随机变量之和的概率分布是通过随机变量序列极限分布表现的,极限定理的基础是随机变量序列的收敛性。随机变量序列的收敛性与一般变量不同,是概率、概率分布或者分布特征的收敛性,有依分布收敛和依概率收敛等。不同的收敛性定义将导致不同的极限定理。分布函数弱收敛:对于分布函数序列{}(为了简单起见,常常直接写成,如果存在函数使得在的每个连续点上都成立,则称“弱收敛于”。)(xFn)(xFn)(xF)()(limxFxFnn)(xF)(xF)(xFn依分布收敛:设随机变量序列{}的分布函数序列为{},随机变量的分布函数为,如果弱收敛于,则称“依分布收敛于”。nn)(xFn)(xF)(xF)(xFn依概率收敛:对于随机变量序列{}和随机变量,如果或对任意的成立,则称“依概率收敛于”。有时候也称的“概率极限”是,并可记为n0}{limnnP1}{limnnP0nnnnlimp(二)大数法则伯奴利大数定理独立同分布场合的大数定律(三)中心极限定理独立同分布场合的中心极限定理非独立同分布场合的中心极限定理第二节参数估计和假设检验随机变量取值往往无穷多,不可能通过全面调查了解总体分布,只能根据从总体抽取的部分样本推断总体情况。这称为“统计推断”,包括参数估计和假设检验等。计量经济回归分析的观测数据相当于随机变量总体抽取的样本,回归分析就是根据样本推断总体情况,就是一种统计推断。因为计量经济分析的样本不是标准抽样方法抽取,而是通过观测得到,因此计量经济分析的统计推断有一定特殊性。一、随机抽样和抽样分布(一)随机抽样和样本统计量样本即随机变量分布总体的部分样本点构成的子集。样本是抽样得来的,抽样有不同的方法。计量经济分析的数据一般都是简单随机抽样的样本。样本统计量:样本均值样本方差niiXnX11niiXXnS122)(11(二)抽样分布样本统计量的概率分布称为“抽样分布”。抽样分布可以考虑正态总体的小样本精确分布,对其他总体则主要考虑大样本极限分布。正态总体小样本分布:样本均值、方差的分布,样本线性函数的分布一般总体的大样本抽样分布:中心极限定理与渐近正态分布二、参数估计(一)最大似然估计(二)矩估计(三)最小二乘估计(四)估计量的性质(五)参数估计方法的归纳和比较(一)最大似然估计Maximumlikelihoodestimates,ML基本原理:随机变量的分布参数水平在数据生成过程中起着作用,不同参数水平生成特定数据集的可能性不同,可以根据生成样本的可能性大小估计参数水平。——根据事物出现的概率(几率、可能性)的大小推断参数水平。最大似然估计的核心是似然函数(Likelihoodfunction),即样本同时出现的联合概率密度令似然函数达到最大的参数估计值称为参数的“最大似然估计”对数似然函数nikixf11),,,(),,(1kL例2-11:正态分布参数的估计已知一随机变量服从未知参数的正态分布,并且已经观测到一组样本,要求估计分布参数。),(2Nnxx,,1222)(221),,()(xexfxfnixniiiexfL12)(1222221ln),,(ln),(lnniixnn1222)(21ln22ln2niixnx11ˆniixxn122)(1ˆ例2-12:泊松分布参数的估计观测到一个服从未知参数的泊松分布的随机变量的10个数据的样本,这些数据分别为5、0、1、2、3、2、3、4、1、1,要求估计出该泊松分布的未知分布参数。根据泊松分布的概率公式,该随机变量的数值为的概率为10个数据出现的联合分布概率为!ixixexfi,ix207360,201010110101exexfiixiiii!这个联合分布概率就是生成上述10个数据的似然函数,记作,即它的对数似然函数是(对数函数的单调性)求导可得的最大似然估计必须满足所以。L2073602010eL242.12ln2010207360lnln2010lnL12010lndLdMLˆ012010ML2ˆML(二)矩估计Methodofmoments,MM矩估