第五章参数估计第一节点估计点估计是用单个数作为参数的估计,常用的点估计方法有矩法和极大似然法。一、基本概念和数学原理(1))矩法在有些情况下,待估计参数往往是总体的原点矩或者原点矩的函数,此时可以取自该总体的样本的原点矩的函数值作为待估计参数的估计,这种方法称为矩法。例如,样本均值总是总体均值的矩估计量,样本方差是总体方差的矩估计量,样本标准差总是标准差的矩估计量等等。(2)极大似然法极大似然法是在待估计参数的可能值范围内进行挑选,使得似然函数值(即样本取固定观察值或者样本取值落在固定观察值邻域内的概率)最大的那个数值为极大似然估计值。由于极大似然法得到的估计量通常不仅仅满足无偏性、有效性等基本条件,还能够保证其为充分估计量。因此,在点估计和区间估计中,一般使用推荐使用极大似然法(实际上,SPSS使用的最多的也是极大似然法)。(3)稳健估计虽然极大似然法估计参数有以上一些优点,但在某些特殊情况下,极大似然法受异常值的影响十分显著,或者因数据分布的不同有较大的差别,从而影响估计的稳定性和准确性。稳健估计便是在这种背景下提出的。所谓稳健估计,便是构造一个新的统计量,该统计量具有稳健性(又称为鲁棒性),即受异常值的影响相对较小,而且对大部分的分布而言都很好(不一定对每一个分布都是最佳)。稳健估计有M估计和R估计等不同的方法,下面主要介绍M估计。求一个稳健的M估计量时必须先构造一个函数,该函数减小异常值的影响,而且提供对所考虑的分布集合中的每个分布都是好的估计量。常用的函数有以下几种:1.Huber提出的函数为:1,(),||,0,kxkxxxkkkxk该函数是一个与正态分布和双指数分布有关的组合函数。2.Hampel提出的函数为:2||||(),||(),||()(),||0,||cxcbxsignxxaxsignxaxbxasignxbxcxc其中,0abc1,0()0,01,0xsignxxx3.Andrews提出的函数为:3sin(/),||()0,||xcxcxxc此外还有Tukey提出的函数。实际上,构造统计量函数时,给不同位置的数据赋予了不同的权重,来强调各部分数据的贡献。M估计方法通过给远离中心值的数据赋予较小的权重来减小异常值的影响。二、点估计的SPSS实现SPSS中没有专门的参数估计过程,而是把参数估计的任务融入到不同的统计过程中,并且提供相应的选项。SPSS中用得较多的点估计方法是极大似然法,该方法在列联表过程、回归分析以及因子分析等过程中均有应用。在数据探察过程中,涉及到Explore:Statistics对话框的M-estimators核选框,选择此项,将计算并生成M估计量。SPSS提供了前面介绍的几种M估计的统计函数,其中Huber提出的函数中常数k取1.339,Tukey提出的函数中常数取4.685,Hampel提出的函数中常数,,abc分别取1.700,3.400和8.500,Andrew提出的函数常数c取1.340。例如,如果需要估计总体的平均数值,则可以按照下面操作步骤进行:·读取指定的数据;·依次选择菜单项目:Analyze--DescriptiveStatistics-Explore。。。,打开Explore对话框;·在DependentList列表框中输入变量名字,在FactorList中输入分组变量名字;·单击M-estimator核选框;·单击Continue按钮,回到Explore对话框;·单击OK按钮,生成M-估计量表格。第二节区间估计区间估计不仅仅给出参数的近似取值,还给出了取值的误差范围。求参数的区间估计,首先要求出该参数的点估计(一般利用极大似然估计法),然后构造一个含该参数的随机变量,并根据一定的置信水平求该估计值的误差范围。一、单个正态总体的区间估计(1)基本数学原理对于取自正态分布的样本,其期望值的估计分为母体方差已知和母体方差未知两种情况,根据样本大小的不同又可以进一步地分为小样本情况和大样本情况。在一般情况下,母体的方差是未知的,此时用样本的标准差S来代替母体的标准差,随机变量取为:'XSn,其中'/SSn,X为均值,该随机变量服从自由度为1n的t分布。均值的置信区间为:2'1(1)SnXtn。(2)SPSS实现在SPSS中可以利用多个过程求取值的区间估计,下面进行介绍。※利用数据探测过程求均值的区间估计·在数据探测过程中,Explore:Statistics对话框中选择Descriptive核选框,并在ConfidenceIntervalforMeans窗口中输入数值,作为置信度。将测压数作为因变量,生成统计报表。※利用单样本t检验过程求均值的置信区间·利用单样本的t检验过程可以求得均值的置信区间,详细的可以参见后面将介绍的假设检验。第三节两个正态总体的区间估计一、基本数学原理实际问题中常常需要对比两个总体的数据,分析它们之间的差异。假设两个样本分别取自不同的正态总体,而且两个总体之间是相互独立,需要比较它们的均值差异,即求取均值差异的置信区间。求两个来自正态分布总体的样本的均值差异通常使用t检验的方法。根据两个总体方差的相等与不相等又有两个不同的计算方法。当两个独立的正态总体方差不相等时,采用的t统计量为:22121212SSNNXXt当两个总体样本方差相等时,采用的t统计量为:221212SSNNXXt式中,2S为两个样本方差的加权平均,即:222112212(1)(1)1NSNSSNN式中,各参数意义同前。二、SPSS实现利用独立样本的t检验过程进行样本均值差的区间估计步骤:·按照以下的选择菜单进行操作:AnalysesCompareMeansIndependentSamplesTtest,打开Independent-SamplesTtest,对话框;·单击DefineGroups按钮,打开DefineGroups对话框;·单击Group1窗口输入“测量组名1”,在Group2窗口输入“测量组名2”;·单击Continue按钮,回到Independent-SamplesTtest,对话框;·单击OK按钮,生成比较分析表。