数理统计第9章

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第9章最小二乘估计一.本章导学一.教学目的1掌握线性模型中的最小二乘估计及其性质;2掌握单因素方差分析的基本原理、步骤及运用,了解无重复观察的双因素方差分析,有重复观察的双因素方差分析。二.内容提要初步介绍了线性模型,最小二乘估计的定义和性质,单因子方差分析及双因子方差分析。第一节.线性模型在许多实际问题中,经常要求利用观察数据拟合系统的真实模型,其中最常见和最简单的系统模型是线性模型。其一般模型描述如下:设因变量Y和自变量服从线性关系是的n个观察,满足记则其中X是已知的nm常数矩阵,β是未知参数向量;e是均值为零的随机向量,满足是n阶单位阵,是未知参数。习惯上称上述的Y服从线性模型,简记为。有满足线性模型的条件可得或写为对线性模型可考虑如下统计推断问题:对未知参数β和进行估计;对关于β的某种假设进行检验;对Y进行预报等等。在下面的讨论中,如不作特殊说明,总假定nm和rank(X)=m。一.最小二乘法估计对线性模型,常采用最小二乘法寻找未知参数β的估计量,它要求β的估计满足(1)其中,从而上式又可写为(2)满足式(1)(或(2)式)的估计称为β的最小二乘估计,这种求估计量的方法称为最小二乘法。下面用微分法求满足(2)式的解。记令得方程组即用矩阵、向量形式表示,上述方程组又可写为(3)(3)式称为正规方程。由于X的秩为m,所以是正定阵,存在逆阵,解方程(3)得到β的最小二乘估计是当用代替β可得经验模型其中当自变量取值时,它可用来预测因变量Y的平均值。二.最小二乘法估计量的性质下面讨论最小二乘估计的一些基本性质性质1是Y的线性函数。性质2是β的无偏估计。证性质3的协方差矩阵是。证质4是β的最小方差线性无偏估计。此性质称为高斯马尔科夫定理。注意:若Y服从正态分布,即是相互独立的正态变量,具有相同的方差,而,则由(4)式给出的也是β的最小方差线性无偏估计。记称为剩余向量,它表示Y被估计后所剩下的残差,故又称为残差向量。又记是剩余平方和对于和具有下列性质:性质1和互不相关。证性质2残差的均值向量和协方差阵分别是性质3记称为剩余方差,它是的无偏估计。定理1对于给定的线性模型,其中X是满列秩阵,且假定Y服从正态分布,则(1)和相互独立,同服从于正态分布。均值和协方差阵分别为(2)和相互独立;(3)服从于分布。三.关于参数β的假设检验和置信区间下面假定Y服从正态分布。设是未知参数β的某一给定的线性函数,的最小二乘估计是,显然它是的线性无偏估计,其方差为由定理1知关于假设检验,当时拒绝假设,否则认为试验结果与假设无显著差异。而的置信度为1-α的置信区间是[,]。特别地取,即考虑假设,由前可得T统计量是其中是方阵对角线上第i个元素。类似地,的置信区间是[,]。四.关于Y的预测对于一组指定的,由经验回归方程知其对应的的预测值是。此预测量的好坏依赖于它可能误差的大小,因而常希望考虑这个误差而给出一个类似于置信区间的预测区间。由于是随机变量,且假定它服从正态分布,它的分布是。而现在的预测量具有两个误差源:一是来自于的均值估计,另一是的实际值与它的均值之间也有偏离。而均值估计的误差本质上是由的抽样误差所决定。如果β和σ²是已知的,则的95%概率的预测区间是此时属于这个区间的概率正好是0.95。而现在除了以外,β和σ²都是未知参数。因此就必须借助于它的估计来建立这样的区间。令,则Z服从正态分布,且由于与独立,与独立,所以Z与独立,因此=统计量服从自由度为n-m的t-分布。由此可得水平为1-α的预测区间:[,]。一.单因子方差分析方差分析法是对试验(或观察)结果的数据作分析的一种常用的统计方法。设p个相互独立的正态总体。。是从第i个总体中抽得的容量为的简单随机样本,要求检验假设(1)记,,。n是从p个总体抽得的样本的总容量,是从第i个总体抽得的样本的平均值,它通常被称为组平均值,而称为总平均值。由于所以(2)其中从(2)式看到,Q是所有的观察资料与总平均数的差异的平方和,是描写所得全部数据离散程度的一个指标。它可以分解为两项,第一项是每个观察数据与其组平均值的差异的平方和,它反映了观察抽样误差的大小程度,而第二项是组平均与总平均的差异的平方和,它在一定程度上反映了各总体均值之间的差异程度。为更清楚的说明这个事实,分别计算它们的数学期望,得记则由此可见,不管对于的假设如何,是的一个无偏估计,而仅当假设成立时,才是的一个无偏估计,否则它的期望值要大于。这说明,比值(3)在假设不成立时有偏大的倾向。下面运用第二章的结果讨论统计量F的分布。当成立时,,由(2)得对于,它有p个线性关系。所以的秩是n-p。对于,它包含一个线性关系,所以的秩是p-1。的秩为1。这三项都是非负定二次型,而(n-p)+(p-1)+1=n。所以由定理2.2.4和定理2.2.9,在假设成立时,和分别为相互独立的和分布。因此由(3)式所给定的统计量F服从于自由度为(p-1,n-p)的F-分布。于是,对于显著水平α,可查表求得,使。当F的观察值大于时,拒绝假设,否则认为试验结果与假设无显著差异。为应用方便起见,常用下面的方差分析表方差来源平方和自由度均方F值因素的影响p-1误差n-p总和n-1二.双因子方差分析上面介绍了单因子方差分析方法,但在许多实际问题中,常要同时研究几种因素的影响。这时不仅每个因素会产生影响,而且各个因素的搭配也会产生新的影响,称之为交互作用。各因素之间是否存在交互作用是多因素方差分析中产生的新问题。由于多因素问题很复杂,而解题的思想和基本方法又类同,所以仅介绍双因子方差分析问题。1、无重复观察的双因子方差分析设因素A有p个不同的水平,因素B有q个不同的水平,对每种情况进行一次独立试验,共得pq个试验结果,由下表给出B因子平均值A因子平均值其中假设是相互独立的随机变量。即是从分布为的总体中抽得的样本,且是相互独立的。由于认为A,B两因素之间不存在交互作用故假定其均值其中满足。这里参数是pq个总体的均值的平均,参数表示因素A的各个不同水平的影响的大小,参数表示因素B的各个不同水平的影响的大小。因此要判断因素A的影响是否显著就等价于要检验假设类似地,要判断因素B的影响是否显著就等价于要检验假设为了检验这些假设,我们将离差的总平方和Q进行分解:其中计算可得令则因此可采用统计量统计量当不成立时,有偏大的趋势,因此可以运用对假设进行检验;而统计量当不成立时,有偏大的趋势,因此可以运用对假设进行检验。现运用第二章的结果分析统计量和的分布。在假设和成立时,,由分解式可得显然和都是非负定二次型。对于,包含有一个线性关系,所以的秩是p-1。对于,包含有一个线性关系,所以的秩是q-1。对于,包含有线性关系和。但是这p+q个线性关系不是独立的,因为,所以的秩是pq-p-q+1=(p-1)(q-1)。的秩是1。而(p-1)+(q-1)+(p-1)(q-1)+1=pq。运用定理2.2.4可知当假设和同时成立时,,和是相互独立的-变量。其自由度分别为p-1,q-1和(p-1)(q-1)。实际上,可证当成立时,和为相互独立的-变量。当成立时,和为相互独立的-变量。因此,当成立时,统计量服从F(p-1,(p-1)(q-1))分布,可用它来检验因素A的影响是否显著,即检验假设。当成立时,统计量服从F(q-1,(p-1)(q-1))分布,可用它来检验因素B的影响是否显著,即检验假设。为方便起见常用下面的方差分析表。方差来源平方和自由度均方F值A的影响p-1B的影响q-1误差(p-1)(q-1)总和pq-12、有重复观察的双因子方差分析在上面的讨论中,由于对A,B两因素的各种水平的组合仅进行一次观察,所以不能了解A,B两因素之间是否存在交互作用的影响。而交互作用的影响正是单因素分析与多因素分析的本质区别所在。为了考察交互作用的影响,对两个因素的各种水平重复进行c次观察。其观察值记为假定:(1)相互独立,分别服从分布;(2)且其中,分别表示因素A的各个水平的影响。,分别表示因素B的各个水平的影响。,分别表示因素A、B的各个水平之间的交互作用的影响。因此要判断因素A、B的的影响及交互作用的影响是否显著分别等价于检验假设,,对一切为了检验这些假设,可将离差的总平方和进行分解:其中根据假定可以算得令则有构造统计量显然统计量当假设不成立时,有偏大的趋势。故可运用统计量检验假设。统计量当假设不成立时,有偏大的趋势。故可运用统计量检验假设。统计量当假设不成立时,有偏大的趋势。故可运用统计量检验假设运用定理2.2.4及定理2.2.9可证服从分布。当假设成立时,服从分布,且与独立,所以服从分布。当假设成立时,服从分布且与独立,所以服从分布。当假设成立时,服从分布,且与独立,所以服从分布。为方便起见,常用下面的方差分析表。方差来平方和自由度均方F值源A的影响p-1B的影响q-1交互影响(A×B)(p-1)(q-1)误差pq(c-1)总和pqc-1随堂练习1设,作3次观察有相互独立,且服从,试求的最小二乘估计量。2设,相互独立,且服从。(1)写出矩阵X;(2)求的最小二乘估计;(3)证明当时,与的最小二乘估计不变。3考察温度对某一化工产品得率的影响,选了五种不同的温度,在同一温度下做了三次试验,测得其得率如下,试分析温度对得率有无显著影响。(α=0.01)温度6065707580得率909288919392969693848388848682随堂练习1设,作3次观察有相互独立,且服从,试求的最小二乘估计量。解:1据题设由于从而,正规方程即所以2设,相互独立,且服从。(1)写出矩阵X;(2)求的最小二乘估计;(3)证明当时,与的最小二乘估计不变。解:2(1)由已知;(2)则的最小二乘估计是(3)若,则此时模型变成:,那么此时对应的而的最小二乘估计与(2)中求得的完全一致3考察温度对某一化工产品得率的影响,选了五种不同的温度,在同一温度下做了三次试验,测得其得率如下,试分析温度对得率有无显著影响。(α=0.01)温度6065707580得率909288919392969693848388848682解:3将原始数据均减去后可列出如下计算表和方差分析表(以下r为因子水平数,t为重复试验次数):r=5,t=3,n=rt=15温度6065707580021366-6-6-6-4-223-2-80615-15-18来源平方和自由度均方和F比温度误差260.43841065.13.817.1总和298.414,由于F=17.16,所以在水平上认为温度对得率有显著影响。

1 / 17
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功