SPC统计相关与回归分析

lzkim88
17 ℃
2016-06-19

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

SPC统计相关与回归分析课时安排本章的特点描述统计与推断统计中相关回归分析的差别第一节相关与回归分析的基本概念(1学时)第二节一元线性回归分析(4学时)第三节多元线性回归分析(2学时)第四节非线性回归分析(1学时)第五节相关分析(1学时)本章的特点与以往的统计学原理教科书不同，本章从推断统计的角度讲解相关分析与回归分析。这是因为在有关现实经济和管理问题的定量分析中，作为推断统计的相关分析与回归分析更加具有广泛的应用价值。描述统计与推断统计中相关回归分析的差别描述统计:不需要对随机误差项作出各种假定,各种参数估计值是具体数值,是对总体存在的相关关系的描述,不存在显著性检验.推断统计:需要对随机误差项作出各种假定,各种参数估计量是随机变量,抽取的样本不同时,得到的估计值也不同.可以用来推断总体.需要进行各种检验.第一节相关与回归分析的基本概念一、函数关系与相关关系二、相关关系的种类三、相关分析与回归分析四、相关表和相关图一、函数关系与相关关系当一个或几个变量取一定的值时，另一个变量有确定值与之相对应，称这种关系为确定性的函数关系。当一个或几个相互联系的变量取一定数值时，与之相对应的另一变量的值虽然不确定，但它仍按某种规律在一定的范围内变化。变量间的这种相互关系，称为具有不确定性的相关关系。变量之间的函数关系和相关关系，在一定条件下是可以互相转化的.二、相关关系的种类按相关的程度可分为完全相关、不完全相关和不相关。一般的相关现象是不完全相关。按相关的方向可分为正相关和负相关。按相关的形式可分为线性相关和非线性相关。按变量多少可分为单相关、复相关和偏相关。一个变量对另一变量的相关关系，称为单相关。一个变量对两个以上变量的相关关系时，称为复相关。在某一现象与多种现象相关的场合，当假定其他变量不变时，其中两个变量的相关关系称为偏相关。按相关的性质可分为“真实相关”和“虚假相关”。判断什么是“真实相关”什么是虚假相关，必须依靠实质性科学三、相关分析与回归分析相关分析是用一个指标来表明现象间依存关系的密切程度。回归分析是用数学模型近似表达变量间的平均变化关系。相关分析可以不必确定变量中哪个是自变量，哪个是因变量，其所涉及的变量都是随机变量。回归分析必须事先确定具有相关关系的变量中哪个为自变量，哪个为因变量。一般地说，回归分析中因变量是随机的，而把自变量作为研究时给定的非随机变量。一定要始终注意把定性分析和定量分析结合起来，在定性分析的基础上开展定量分析。四、相关表和相关图相关表是一种反映变量之间相关关系的统计表。将某一变量按其取值的大小排列，然后再将与其相关的另一变量的对应值平行排列，便可得到简单的相关表。相关图又称散点图。它是以直角坐标系的横轴代表变量X，纵轴代表变量Y,将两个变量间相对应的变量值用坐标点的形式描绘出来，用来反映两变量之间相关关系的图形。根据表8-2的资料绘制的相关图如下：图9-1消费与收入的相关图0102030405060708090020406080100120可支配收入消费支出第二节一元线性回归分析一、标准的一元线性回归模型二、一元线性回归模型的估计三、一元线性回归模型的检验四、一元线性回归模型预测一、标准的一元线性回归模型(一)总体回归函数Ｙt＝β1＋β2Ｘt＋ut（8.1）ut是随机误差项，又称随机干扰项，它是一个特殊的随机变量，反映未列入方程式的其他各种因素对Ｙ的影响。(二)样本回归函数:ｔ＝１，２，...nｅt称为残差，在概念上，ｅt与总体误差项ut相互对应；ｎ是样本的容量。tteXY21ˆˆ总体回归线与随机误差项Ｅ（Ｙt）＝β1＋β2ＸtXYtY。。。。。ut样本回归函数与总体回归函数区别总体回归线是未知的，只有一条。样本回归线是根据样本数据拟合的，每抽取一组样本，便可以拟合一条样本回归线。总体回归函数中的β1和β2是未知的参数，表现为常数。而样本回归函数中的是随机变量，其具体数值随所抽取的样本观测值不同而变动。总体回归函数中的ut是Ｙt与未知的总体回归线之间的纵向距离，它是不可直接观测的。而样本回归函数中的ｅt是Ｙt与样本回归线之间的纵向距离，当根据样本观测值拟合出样本回归线之后，可以计算出ｅt的具体数值。t21ˆˆ和误差项的标准假定假定１：Ｅ（ut）＝０假定２：Var(ut)＝Ｅ（）＝假定３：Cov(utus)＝Ｅ（utus）＝０ｔ≠ｓ假定４：自变量是给定变量，与误差项线性无关。假定５：随机误差项服从正态分布。满足以上标准假定的一元线性回归模型，称为标准的一元线性回归模型。2tu2二、一元线性回归模型的估计（一）回归系数的估计最小二乘法设将Ｑ对求偏导数，并令其等于零，可得:加以整理后有：22)ˆ(tttYYeQ221)ˆˆ(ttXY0)ˆˆ(221＝－ttXY0)ˆˆ(221tttXYX－ttYXn21ˆˆttttYXXX221ˆˆ回归系数的最小二乘估计量以上方程组称为正规方程组或标准方程组，式中的ｎ是样本容量。求解这一方程组可得：222)(ˆttttttXXnYXYXnXYnXnYtt221ˆˆˆ（二）总体方差的估计上式中，分母是自由度，其中ｎ是样本观测值的个数，２是一元线性回归方程中回归系数的个数。在一元线性回归模型中，残差ｅt必须满足因而失去了两个自由度，所以其自由度为ｎ－２。Ｓ2的正平方根又叫做回归估计的标准误差。S2＝22nette＝０；ttXe＝０)ˆ-ˆ-(YYˆˆ)ˆ-ˆ(t21tt21tt21t2XeXβ-eβ-eYeXYetttttt证明:残差平方和计算ttttYXYY212ˆˆ一般采用以下公式计算残差平方和：tttttYXYYe2122ˆˆ（三）最小二乘估计量的性质最小二乘估计量是随机变量。在标准假定能够得到满足的条件下，回归系数的最小二乘估计量的期望值等于其真值，即有：Ｅ（）＝β1Ｅ（）＝β2其方差为：Ｖａｒ（）＝Ｖａｒ（）＝2ˆ1ˆ22)(XXt22)(1XXXnt2ˆ1ˆ估计量性质的数学证明(一)线性估计量将Ｙｔ＝β1＋β2Ｘｔ＋uｔ代入估计量，得：===最小二乘估计量可表现为所要估计的参数的真值与随机误差项的线性组合2ˆ2)())((XXYYXXttt2)()(XXYXXttt22)()(XXuXXttt推导用的恒等式＝０＝Ｘｔ＝令)(XXt2)(XXt)(XXt)()(YYXXttttYXX)(2)()(XXXXwttt最小二乘估计量期望值和方差的推导Ｅ（）＝β2＋Ｅ（∑ｗｔuｔ）＝β2＋∑ｗｔＥ（uｔ）（根据标准假定４）＝β2＋∑ｗｔ×０（根据标准假定１）＝β2Ｖａｒ（）＝Ｖａｒ（β2＋∑ｗｔuｔ）＝Ｅ（∑ｗｔuｔ）2＝（根据标准假定４、３）＝（根据标准假定２）＝2ˆ)(22ttUEw22tw22)(XXt2ˆ有效性证明：设＝为任意无偏线性估计量，则有约束条件：按照与上面同样的方法，可推导出Var()=比较Ｖａｒ（）与Var()的大小，有：2~ttYk1ttXk0tk2~22kt2~2ˆVar()－Var（）＝－＝）＝以上第二步到第三步之所以成立，是因为：而利用前面关于线性无偏估计量的约束条件，可有：2ˆ2~22tw22tk-kt22(2tw0)-(2t2wkt)wk-w(k)-w(ktttttt222222221222-tttttttw-)X-(X-)X-(X)X-(Xk-wk三、一元线性回归模型的检验（一）回归模型检验的种类回归模型的检验包括理论意义检验、一级检验和二级检验。（二）拟合程度的评价总离差平方和的分解ＳＳＴ＝ＳＳＲ＋ＳＳＥ（8.28）ＳＳＴ是总离差平方和；ＳＳＲ是回归平方和；ＳＳＥ是残差平方和。可决系数：ｒ2＝=1－（8.30）可决系数的特性SSTSSRSSTSSE（三）显著性检验1．提出假设。2.确定显著水平α。3.计算回归系数的ｔ值。=（8.36）4.确定临界值。双侧检验查ｔ分布表所确定的临界值是（-ｔα／2）和（ｔα／2）；单侧检验所确定的临界值是（ｔα）。5.做出判断。2ˆtiSˆ*22ˆ四、一元线性回归模型预测（一）简单回归预测的基本公式：（8.38）回归预测是一种有条件的预测，在进行回归预测时，必须先给出Ｘf的具体数值。内插检验或事后预测。外推预测或事前预测。（二）预测误差发生预测误差的原因。预测误差Ｖar（ｅf）＝σ2（8.42）（三）区间预测Ｙf的（１－α）的置信区间为：Ｙf±ｔα／2(n-2)×Ｓｅf回归预测的置信区间的特点。ffXY21ˆˆˆ22)()(11XXXXntf回归预测的置信区间YYXffXY21ˆˆˆ第三节多元线性回归分析一、标准的多元线性回归模型二、多元线性回归模型的估计三、多元线性回归模型的检验和预测四、多元线性回归预测一、标准的多元线性回归模型多元线性回归模型总体回归函数的一般形式(8.48)多元线性回归模型的样本回归函数(8.49)多元线性回归分析的标准假定除了包括上一节中已经提出的的假定外，还要追加一条假定。这就是回归模型所包含的自变量之间不能具有较强的线性关系。tktkttuXXY221tktktteXXYˆˆˆ221二、多元线性回归模型的估计（一）回归系数的估计＝(X'X)－1X'Y(8.55)（二）总体方差的估计Ｓ2(8.56)（三）最小二乘估计量的性质标准的多元线性回归模型中，高斯.马尔可夫定理同样成立。ˆknet2三、多元线性回归模型的检验和预测（一）拟合程度的评价修正自由度的可决系数（理由）。＝１－(8.61)＝１－（１－Ｒ2）(8.62)式中，ｎ是样本容量；ｋ是模型中回归系数的个数。修正自由度的可决系数的特点。2R)/()()/(122nYYknett)()(knn12R(二)显著性检验1．回归系数的显著性检验ｔ＝j=1,2,…,k(8.63)式中，S是的标准差的估计值。按下式计算：Ｓ＝(8.64)式中，是(X'X)-1的第ｊ个对角线元素，Ｓ2是随机误差项方差的估计值。(8.63)式的ｔ统计量的原假设是Ｈ0：βj＝０，因此ｔ的绝对值越大表明βj为０的可能性越小，即表明相应的自变量对因变量的影响是显著的。jSjˆˆjjS2jjjˆjˆjˆ2．回归方程的显著性检验具体的方法步骤回归模型方差分析表（3）Ｆ统计量Ｆ＝离差名称平方和自由度方差回归平方和SSR=k-1SSR/(k-1)残差平方和SSE=n-kSSE/(n-k)总离差平方和SST=2)YYt（2)ˆYYt（2tek)/(n-ESS1)/(k-RSS四、多元线性回归预测基本公式：(8.66)式中，Xjf(j=2,3,……k)是给定的Xj在预测期的具体数值；是已估计出的样本回归系数；是Xj给定时Ｙ的预测值。kfkffXXYˆˆˆˆ221jˆfYˆ第四节非线性回归分析一、非线性回归分析的意义二、非线性函数形式的确定确定函数形式的原则实际分析中较常用的几种非线性函数的特点三、非线性回归模型的估计几种线性变换方法实际应用时要注意：第一、比较复杂的非线性函数，需综合利用上述的几种方法。第二、变换得到的方程式中的变量不允许包含未知的参数。第三、当变换后的新模型中包含的误差项能够满足标准假定时，新模型中回归系数最小二乘估计量的理想性质才能成立。第四、严格地说，线性变换方法只是适用于变量为非线性的函数。第五、并不是所