概率论与数理统计复习概率密度与分布函数正态分布(上α分位点)分布t分布F分布假设检验(检验统计量、显著性水平、原假设、备择假设、拒绝域、弃真、取伪)2一元线性回归预测法•是指成对的两个变量数据分布大体上呈直线趋势时,运用合适的参数估计方法,求出一元线性回归模型,然后根据自变量与因变量之间的关系,预测因变量的趋势。•很多社会经济现象之间都存在相关关系,因此,一元线性回归预测有很广泛的应用。•进行一元线性回归预测时,必须选用合适的统计方法估计模型参数,并对模型及其参数进行统计检验。一、建立模型一元线性回归模型:01iiiybbx其中,0b1b是未知参数,i为剩余残差项,或称随机扰动项。,二、估计参数用最小二乘法进行参数的估计时,要求i满足一定的假设条件:是一个随机变量;i的均值为零,即i0iE在每一个时期中,i的方差为常量,即2iD各个相互独立;i与自变量无关。i用最小二乘法进行参数估计,得到的估计表达式为:12xxyybxx01bybx•引入记号:(形式容易记)niiniiiniiiniixyyxnyxyyxxl111112112211niiniiniixxxnxxxl2112211niiniiniiyyynyyylxxxyllb1xbyb10则有三、显著性检验•利用一元线性回归模型来描述变量y与x的相关规律,必须有一个前提,就是y与x之间存在着显著的线性相关关系。•如果y与x之间的线性相关关系不显著,则利用最小二乘法所求得的一元线性回归模型就没有多大意义,由此模型对y作出的预测可能与实际值相差甚远。•所以,很有必要从统计的角度来检验变量y与x之间的线性相关关系是否显著,亦即检验线性回归模型的回归效果是否显著。•(一)方差分析法(F统计)•先将观测值的总离差平方和加以分解:nyyy,...,,21212121niiniiiniiTyyyyyyS•记称剩余平方和,反映了观察值偏离回归直线的程度。•称回归平方和,反映了回归值•的离散程度。•从而有•要检验y与x之间是否存在线性相关关系,实际上等价于检验假设21niiiyyS余21niiyyS回niyi,...,2,1回余SSST21010,0~,0:NxbbybHiiii•如为真,则可以证明和相互独立,且•习惯上,当算得的时,认为y与x线性相关关系不显著;•当时,认为y与x线性相关关系显著;•时,认为y与x线性相关关系特别显著。•可推导出0H余S回S2,1~2/nFnSSF余回2,105.0nFF2,12,101.005.0nFFnF2,101.0nFFxxxyllS2回可决系数:衡量自变量与因变量关系密切程度的指标。其计算公式为:222222ˆ1xxyyyyRyyxxyy可见,可决系数取值于0与1之间,并取决于回归模型所解释的y方差的百分比。相关系数其计算公式为:22xxyyrxxyy由公式可见,可决系数是相关系数的平方。(二)相关系数检验法2212RRnF可推得TSSR回2相关系数有正负,可决系数只有正号。正相关系数意味着因变量与自变量以相同的方向增减。如果直线从左至右上升,则相关系数为正;如果直线从左至右下降,则相关系数为负。相关系数越接近+1或-1,因变量与自变量的拟合程度就越好。相关系数r是衡量y与x之间线性相关程度的一个统计量。对于给定的显著性水平α,按自由度n-2查”相关系数临界值表”,得相关系数临界值。当时.认为y与x之间线性相关关系显著。反之,则认为不显著。一般α可取0.05或0.01两个值。上述检验法称为相关系数检验法(也称为相关分析)。相关系数的用途:2nrr2nr四、一元线性回归预测•如果经检验,一元线性回归模型的回归效果显著,则可用来进行预测。•依据假设,对自变量的某一给定值,同样有将代入一元线性回归预测模型得0x0100xbby严格讲,是的点估计值,但习惯上,就把0y0yE0y作为的预测值0y下面,来讨论的区间预测问题。可以证明0y2~112000ntlxxnSyyxx其中,)2/(nSS余即剩余标准差•容易得出置信度为1-α的预测区间是:••其中0000,xyxyxxlxxnSntx202/011222/nt是自由度为(n-2)的t分布的上方分位数2/由区间预测公式可以看出,当越接近时,越小,预测区间也就越小,预测就越准确。0xx0x显然,预测区间的长度主要由剩余标准误差S的大小所决定,而预测区间的长度直接关系到预测效果。因此,常用S作为衡量预测精度的一个指标。0y已知身高与体重的资料如下表:例题分析身高(米)1.551.601.651.671.71.751.801.82体重(公斤)5052575660656270试计算:(1)拟合适当的回归方程;(2)判断拟合优度情况;(3)对模型进行显著性检验;(α=0.05)(4)当体重为75公斤时,求其身高平均值的95%的置信区间。解答:(1)n=8,经计算得:472x281582x54.13y9788.222y02.803xy因此:0134.047228158847254.1302.8038ˆ22221xxnyxxynxxyyxxb9.084720134.0854.13ˆˆ10xbyb因此,建立的一元线性回归方程为:xy0134.0898.0ˆ(2)回归直线的拟合优度不是很理想。(3))6,1(50564815.0164815.01)2(05.022FRnRF所以拒绝原假设,认为所建立的线性回归模型是显著的。R2=0.4815(4)SE=0.0734预测区间()xxlxxnSnt202/11275*0134.0898.0即当体重为75公斤时,其身高的95%的置信区间是(1.728,2.078)