第十二讲回归不相关第一节回归研究的对象1、研究定距变量与定距变量之间的非确定关系相关关系:1)变量之间存在关系2)这种关系是非确定性的两个变量x和y,当x变化时会引起y相应变化,但他们之间的变化关系是不确定的。如果当x取任何一可能值xi时,y相应地服从一定的概率分布,则称随机变量y和变量x之间存在着相关。………………………………2、散点图xy…………x1y1xy22x3y3xnynyx1x3、回归方程与线性回归方程1)回归方程Eyifxi自变量不同取值时,因变量y平均值的变化。2)线性回归方程(一元)当因变量y的平均值与自变量x呈线性关系时Eyx问题:用yx这个方程表示的回归线性方程应该在坐标图上的哪一个位置,才使预测时所犯错误最小?第二节回归直线的建立不最小二乘法1、直线回归方程的建立通过样本值作散布图,由散布图估计出总体回归直线的系数、,建立直线回归方程。但:抽样误差存在,样本均值并不等于总体均值,要获得一条最佳的估计直线,用最小二乘法。它是总体线性回归方程yx的最佳估计方程2、最小二乘法设总体中抽取一样本,围绕n个观测点画一条直线yabx,与各点都比较接近的直线为最佳。要求:各点到待估直线的铅直距离之和为最小。利用微分学中LxyLxx求极值的原理,求得:aybxb将a、b代入线性回归方程:yˆabx妇女教育年限劳动小时xy2x2yA2510425B248416C3412916D33999E414161F414161G400160H600360I80064036184717468例:妇女受教育的年限不家务劳劢时间调查资料第三节回归方程的假定不检验一、线性回归模型基本假定的界定1、自变量x可以是随机变量,也可以是非随机变量,x值可以认为是无误差的。2、由于x和y之间存在非确定性的相关关系,因此要求y的所有子总体的方差都相等:Dy1Dy1Dy2DyiDyn3、y的所有子总体,其均值都在一条直线上,称做线性假定。Eyixi4、要求随机变量yi是统计独立的Ei0Di5、处于检验的需要,要求y值的每一个子总体都满足正态分布。D以上假定用两组数据结构来表达:1)随机变量yi是独立的,且有:均值:Eyixi方差:yi22)yi与xi有如下关系:yixiii是随机变量,它们相互独立,且有2二、回归方程的检验1、原假设:x与y不存在线性关系HH01:0:0yiyTSS21iyi2、线性回归的平方和分解1)总偏差平方和:反映观察值yi围绕均值y的总分散程度。ni1y1nnTSSE1,不知x与y有关系时估计y的总误差。ESSyiyˆi2)剩余平方和:反映观测值yi偏离回归线yˆi的程度。ni12yˆi由回归直线yˆabx确定ESSE2,知道x与y有关后,估计y所产生的误差RSSyˆiy3)回归平方和:通过回归直线解释掉的误差。ni12n2xn1x1xn23、统计量:F1,n2RSSESSFTSS22RSS22ESS22如果FF拒绝H0。例:统计某城市家具销售额y(万元)与新建住宅面积x(千平方米),得如下资料:年次9192939495969798xy116129137146144165182198104115124131132145158172建立回归方程,并进行F检验0.05xxyyCovx,y第四节相关一、相关系数(线性相关)1、协方差:iin1表示x与y两变量观测值相对其各自均值所造成的共同平均偏差。协方差的数量可以作为变量线性相关程度的度量。xixyiy2、相关系数相关系数就是标准化了的协方差,取值范围:1,13、相关系数具有PRE的性质xixyiy22PRETSSESSRSSxxyyxxyy2LxxLyyTSSTSS22iiiiE1(yiy)2TSSE2(yiyˆ)ESS2r为相关系数;PRE(r2)系数为判定系数。主意二者的区别?14、相关系数的检验H1H0:P0:P0n22ttn2用进行直接检验:1)根据公式计算样本的值2)给出显著性水平和k=n-2,按附表查出相应的临界相关系数3)比较与的大小如果,则x与y之间存在线性相关关系,在显著性水平下显著例:以下是子代和父代受教育年限的抽样调查:求:回归直线、相关系数,是否有推论意义?0.05父代子代24456887109rn21r5、相关系数的检验与回归系数的检验的关系:如果通过了的检验也必然导致(F检验)检验的通过。实际上,F公式与r公式有对应关系:22FF1,n2r即:RSSrTSSrTSS(1r)TSSrRSSTSS22222(n2)21rn2n2TSSESSESSF6、相关与回归的比较1)相同点:都是研究变量之间的非确定性关系,而且都是研究其中的线性关系。2)不同点:①回归是研究变量之间的因果关系,但相关不一定具有因果关系。②相关系数是双向对称的,回归直线是非对称的。第五节用回归方程迚行预测求y的区间估计值e2y2ax2……ynaxnene1,e2en相互独立。都服从相同的正态分布N0,2,则随机变量y的标准化:yySytn2服从自由度为n-2的t分布y1ax1e1x0xyyˆxix当xx0时,置信度为1a的y区间估计为:[yˆ0t2Syˆ0,yˆ0t2Syˆ0].其中:Lxx1n12Syˆ0SLxx22n2S