几种统计分析模型介绍福建省国家调查队系统统计建模培训主讲人:张业圳2009年6月8日张业圳福建师范大学经济学院副教授、博士、财金系副主任主要教学研究方向:数量经济学与金融实证分析联系电话:8736908713609525129Email:zhangyz1971@126.comQQ:107345901地址:福建师范大学经济学院邮编:350108经济统计分析统计学研究如何测定、收集、整理、归纳和分析反映客观现象总体数量的数据,以便给出正确认识的方法论科学。经济统计分析就是用统计方法来分析经济现象数量特征和经济变量之间的关系。主要的工作有:1)分析经济现象中变量之间相互关系2)经济预测3)政策评价什么是经济统计分析模型模型对现实的描述和模拟。用不同方法对现实进行描述和模拟,就构成不同的模型。语义模型、物理模型、几何模型、数学模型和计算机模拟模型。经济数学模型:用数学方法描述经济活动。采用的数学方法不同,对经济活动提示的程度不同,构成各类不同的经济数学模型。数理经济模型计量经济学模型本次培训主要模型•1、聚类分析•2、回归分析•3)因子分析和主成分分析•4)时间序列分析第一部分:预备知识样本与统计量总体与样本在数理统计中,把研究对象的全体称为总体(population)或母体,而把组成总体的每个单元称为个体。抽样要了解总体的分布规律,在统计分析工作中,往往是从总体中抽取一部分个体进行观测,这个过程称为抽样。样本与统计量子样子样是n个随机变量,抽取之后的观测数据称为样本值或子样观察值。12,,,nxxx12,,,nXXX在抽取过程中,每抽取一个个体,就是对总体X进行一次随机试验,每次抽取的n个个体,称为总体X的一个容量为n的样本(sample)或子样;其中样本中所包含的个体数量称为样本容量。12,,,nXXX随机抽样方法的基本要求独立性——即每次抽样的结果既不影响其余各次抽样的结果,也不受其它各次抽样结果的影响。满足上述两点要求的子样称为简单随机子样.获得简单随机子样的抽样方法叫简单随机抽样.代表性——即子样()的每个分量与总体具有相同的概率分布。12,,,nXXXiXX从简单随机子样的含义可知,样本是来自总体、与总体具有相同分布的随机变量.12,,,nXXXXX简单随机抽样例如:要通过随机抽样了解一批产品的次品率,如果每次抽取一件产品观测后放回原来的总量中,则这是一个简单随机抽样。但实际抽样中,往往是不再放回产品,则这不是一个简单随机抽样。但当总量N很大时,可近似看成是简单随机抽样。例如:为了分析福建省居民家庭收入状况,对福建省居民家庭收入进行调查。统计量定义设()为总体X的一个样本,为不含任何未知参数的连续函数,则称为样本()的一个统计量。12,,,nXXX12(,,,)nfXXX12(,,,)nfXXX12,,,nXXX则例如:设是从正态总体中抽取的一个样本,其中为已知参数,为未知参数,123(,,)XXX2(,)N1233XXX21233XXX123XXX2123XXX是统计量不是统计量几个常用的统计量样本均值(samplemean)设是总体的一个样本,12(,,,)nXXXX11niiXXn样本方差(samplevariance)22111niiSXXn样本均方差或标准差它们的观测值用相应的小写字母表示.反映总体X取值的平均,或反映总体X取值的离散程度。几个常用的统计量niiXXnS1211设是总体的一个样本,12(,,,)nXXXX子样的K阶(原点)矩几个常用的统计量设是总体的一个样本,12(,,,)nXXXX11nkkiiAXn子样的K阶中心矩11nkkiiBXXn它包括两个方面——数据整理计算样本特征数数据的简单处理为了研究随机现象,首要的工作是收集原始数据.一般通过抽样调查或试验得到的数据往往是杂乱无章的,需要通过整理后才能显示出它们的分布状况。数据的简单处理是以一种直观明了方式加工数据。计算样本特征数:数据的简单处理数据整理:将数据分组计算各组频数作频率分布表作频率直方图(1)反映趋势的特征数样本均值11niiXXn中位数:数据按大小顺序排列后,位置居中的那个数或居中的两个数的平均数。众数:样本中出现最多的那个数。数据的简单处理(2)反映分散程度的特征数:极差、四分位差极差——样本数据中最大值与最小值之差,RMm四分位数——将样本数据依概率分为四等份的3个数椐,依次称为第一、第二、第三四分位数。第一四分位数Q1:10.25PXQ第二四分位数Q2:20.5PXQ第三四分位数Q3:30.75PXQ第二部分:参数估计第一节参数的点估计一、点估计问题设总体X的分布函数的形式为已知的F(x,θ),其中x是自变量,θ为未知参数(它可以是一个数,也可以是一个向量).借助于总体X的一个样本(X1,X2,…,Xn),来估计未知参数θ的值的问题,称为参数的点估计问题.点估计的问题就是要构造一个适当的统计量(X1,X2,…,Xn),用样本的一组观察值(x1,x2,…,xn),得到的观察值(x1,x2,…,xn),以此来估计未知参数θ.称统计量(X1,X2,…,Xn)为θ的估计量,称ˆˆˆˆˆˆˆˆˆ(x1,x2,…,xn)为θ的估计值.二、矩估计法的函数,记作μl=μl()即,l=1,2,…,k.设总体X的分布函数为,其中为k个未知参数.假设总体X的各阶原点矩存在,则E(Xl)是),,,,(21kxFk,,,21),,2,1()(klXElk,,,21)(),,,(21lklXEk,,,21对于总体X的样本(X1,X2,…,Xn),样本的l阶原点矩为,l=1,2,…,k.nililXnA11令μl=Al,l=1,2,…,k,nikikkniikniikXnXnXn1211221212111),,,(,1),,,(,1),,,(即从上述方程组中解出,分别记作k,,,21).,,,(ˆˆ),,,,(ˆˆ),,,,(ˆˆ2121222111nkknnXXXXXXXXX以此作为未知参数的估计量,称为矩估计量.k,,,21如果样本观察值为(x1,x2,…,xn),则得未知参数的矩估计值为上述估计未知参数的方法就叫做矩估计法.k,,,21).,,,(ˆˆ),,,,(ˆˆ),,,,(ˆˆ2121222111nkknnxxxxxxxxx解此方程组得到与的矩估计量为2.)(11ˆ,ˆ1212221221niiniiXXnXXnAAXA令即,,2211AA.1,11222211niiniiXnAXXnA,)(1XE22222)()()(XEXDXE解例1设总体X的均值为μ,方差为,且,但μ与均未知,又设总体X的一个样本为(X1,X2,,Xn),求μ与的矩估计量.202解由例4可得.0059.0)41.1350.13()41.1338.13()41.1331.13[(121)(121ˆ,41.13)50.1338.1330.13(121ˆ22212122iixxx例2某厂生产一批铆钉,现要检验铆钉头部直径,从这批产品中随机抽取12只,测得头部直径(单位:mm)如下:13.3013.3813.4013.4313.3213.4813.5413.3113.3413.4713.4413.50设铆钉头部直径这一总体X服从正态分布,试求与的矩估计值.),(2N2注此例说明,无论总体X服从什么分布,样本均值都是总体均值的矩估计量,样本二阶中心矩就是总体方差的矩估计量.X2三、极大似然估计法1.设总体X为离散型随机变量,其分布律为其中θ为未知参数,取值范围为.设X1,X2,,Xn为来自X的样本,则X1,X2,,Xn的联合分布律为.又设x1,x2,,xn为一组样本值,令称L(θ)为样本的似然函数.,2,1),,(kxpxXPkkniixp1),(,),(),,,,()(121niinxpxxxLL(1)若有,使得对一切,有),,,(ˆˆ21nxxx)()ˆ(LL成立,则称为θ的极大(或最大)似然估计值,相应的统计量称为θ的极大(或最大)似然估计量.),,,(ˆˆ21nxxx),,,(ˆˆ21nXXX我们规定,使得的就是θ的极大似然估计值.由于lnx是单增函数,所以与有相同的驻点,因此只需从中解出就是θ的极大似然估计值,称方程0d)(dLˆ)(L)(lnL0d)(lndL(2)(2)为极大似然方程.ˆ例3设总体,与未知,(X1,X2,…,Xn)为总体X的样本,求与),(~2NX22的极大似然估计量.解X的概率密度为设x1,x2,…,xn为样本值,似然函数为xxfx,e21),,(222)(2.)(21ln22ln2),(ln,1)2(21),,(),(12222)(212112)(2212222niixnnninixixnnLeexfLniii令解得与的极大似然估计值为因此,与的极大似然估计量为,0)()(212ln,01ln12222212niiniixnLnxL.)(1ˆ,1ˆ2121niiniixxnxxn.)(1ˆ,1ˆ2121niiniiXXnXXn22四、估计量的评选标准1.无偏性估计量是样本的函数,它是一个随机变量,由不同的方法得到的估计量可能相同也可能不同.而对同一估计量,由不同的样本观察值得到参数的估计值也可能不同.我们很自然地要求估计量的期望等于参数的真值,即无偏性.定义设是未知参数θ的估计量,若,则称为θ的无偏估计(量).),,,(ˆˆ21nXXX)ˆ(Eˆ例4设总体X的均值为,(X1,X2,X3)是总体X的样本,证明下列两个估计量都是的无偏估计.321221316121ˆ,ˆXXXX证由于所以与都是的无编估计..316121)(31)(61)(21)ˆ(3212XEXEXEE1ˆ2ˆ,)()()ˆ(21XEXEE(只需k1+k2++kn=1,则=k1X1+k2X2++knXn就是的无偏估计)ˆ设为参数θ的估计量,若当时,按概率收敛于θ,即对于任意正数ε,有,则称为θ的一致估计(量).),,,(ˆˆ21nXXXn1|ˆ|limPnˆˆ3.一致性根据大数定律可知,样本均值是总体均值的一致估计量.niiXnX11设与是参数θ的两个无偏估计量,若,则称比有效.)ˆ()ˆ(21DD2ˆ1ˆ2ˆ1ˆ2.有效性第二节参数的区间估计点估计是通过构造统计量(X1,X2,…,Xn)来对总体X中的未知参数θ进行估计,由一个样本值(x1,x2,…,xn)可得到θ的估计值(x1,x2,…,xn).这种估计值是无法知道误差的.我们要定出一个范围,并要求以一ˆˆˆ定的概率保证这个范围包含着θ的真值.这个范围通常以区间的形式给出,我们把这个区间称为置信区间.定义设总体X的分布中含有一个未知参数θ,(X1,X2,…,Xn)是来自总体X的一个样本.如果对于给定的常数,统计量θ1=θ1(X1,X2,…,Xn)与θ2=θ2(X1,X2,…,Xn)满