第九章简单回归分析.

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

医学统计学福医卫生统计系林征2013.11第九章.线性回归ChapterX.LinearRegression1FrancisGaltonSirFrancisGalton(1822-1911)“thesize(heights)ofdescendantsoflargepeas(tallancestors)tendtoregressdowntowardsanormalaverage”一、直线回归(linearregression)直线回归它们呈直线关系,但所有的点并非都在直线上;它们间的关系并非下列严格的函数关系根据散点图所反映出的两变量线性趋势,我们可以假定,相对x各个取值相应的y的总体均数位于一条直线上,与x间在数量上的依存关系就称为直线回归(linearregression),用以下公式表示y的条件总体均数依赖于x的数值变化yx|yxx|yx直线回归一般情况下回归方程只能从样本得到,称为样本回归方程或经验回归方程如果以表示的一个样本估计值,即x确定时y的样本均数,则样本回归方程可以表达如下:上式中的读作“yhat”ˆy|yxˆyabxˆy直线回归(linearregression)y——因变量,响应变量:尿肌酐含量(mmol/24h)(dependentvariable,responsevariable)x——自变量,解释变量:体重(kg)(independentvariable,explanatoryvariable)b——回归系数,斜率(mmol/24h*kg)(regressioncoefficient,slope)a——截距(mmol/24h)(intercept)ˆyabx直线回归假定了一条回归直线,该直线表达了自变量X与对应的因变量Y的总体均数间的数量关系:y|x=+xY的实际观察值y并不总在该回归线上,而是与其所对应的总体均数间(y|x)存在差别,这部分的差别称为残差e,表示y的随机抽样误差:y=y|x+e=+x+eXYy|x=+x}}1{exy回归直线直线回归0{简单线性回归由于涉及的自变量只有一个,所以这种线性回归又称为简单线性回归模型(simplelinearregressionmodel)LINE假定xy二、回归模型的前提假设线性(linear):因变量均数y|x与自变量x间呈直线关系y|x=α+x独立(independent):任意观察值之间彼此独立正态(normal):对于任何给定的x,y服从正态分布,均数为y|x,标准差为y|x方差齐性(equalvariance):对于任何x值,随机变量y的方差y|x2相等y|x=α+xN(y|x,y|x2)三、回归参数的估计根据一个给定的包含n对X和Y观测数据的样本,可以建立样本回归直线但是并非所有实际测量值y都在该回归线上,即实测值与直线估计值间存在误差——残差求解a、b实际上就是“合理地”找到一条能最好地代表数据点分布趋势的直线,使估计值尽可能接近观测值,使得残差尽量小最小二乘法(leastsumofsquares)原则:各实测点至直线的纵向距离(残差)的平方和最小Y尿肌酐X年龄6789101112132.202.502.803.103.50ˆyabx最小二乘估计ˆiiieyyˆ()2iiyy回归参数的估计方法依据最小二乘法的估计原则,利用微积分中求极值的方法可以求得直线的斜率(回归系数)与截距()()()2iiXYXXixxyylblxxaybx回归参数的估计方法散点图提示x,y间呈现直线关系任意不同个体间两个指标均独立根据医学常识,同龄人的尿肌酐含量满足正态分布不同年龄人群的尿肌酐含量离散程度接近?回归参数的估计方法代入上述公式得(计算器可直接得到a与b):故回归方程为:../01392424216617xyxxmmolhkgmmollblaYbXhˆ..1661701392yxˆ.**.**0137392298xxy回归直线的特征回归直线通过样本均值:估计值的均值=实测值的均值:残差之和为0:(,)xyˆ()10niiiyyˆ()Eyy四、总体回归系数的统计推断求得a、b建立样本直线回归方程,只是完成了统计分析中两变量关系的统计描述研究者还须回答它所来自的总体的直线回归关系是否确实存在(b也有抽样误差),即是否对总体有=0?总体回归系数的统计推断YX我们所见的Y值的变异—Sy2(不考虑x的作用)沿着回归线看去,Y的变异情况——Sy.x2(扣除回归作用后还剩余的)XY估计误差(errorofestimate)与估计误差的标准误(standarderrorofestimate)如上图中所表示,将各实际值y与由回归方程计算的估计值yhat之间的差值称为估计误差(即残差)如何评价这种估计误差的大小?类似于之前介绍的反映数据变异程度的指标——标准差,将残差的标准差Sy.x(standarderrorofestimate)作为估计误差大小的反映由于yhat决定于均数与回归系数,所以自由度为n-2,公式如下:它反映了散点围绕回归直线的分散程度,体现了回归直线估计误差的大小;如果回归模型越好则估计值的标准误也越小.ˆ()22yxyySn样本回归系数b的标准误对于某一总体资料,可以从中作抽样研究,分别计算各样本的回归系数b,则样本回归系数不一定等于总体回归系数;而且不同的样本回归系数间也不一定相同类似于前面的样本均数的标准误,我们将样本回归系数的标准差称为回归系数的标准误;用公式表示如下:21.()yxbniiSSxx样本回归系数b的标准误如果直接计算Sy.x是较为麻烦的,可以考虑使用如下公式,计算较为方便222212yyxxyxyyxxbnxxiiyylblSlblSlnxx.ˆ()()()样本回归系数b的标准误以课文9-1数据为例,计算过程如下:20139166666421046187500303915142xxyyyyxxbxxblllblSln...()先将数据输入计算器中,得到,,;代入上述公式:总体回归系数的假设检验-t检验在回归条件满足的情况下(LINE假定),使用最小二乘法计算的样本回归系数b满足正态分布,记为:满足正态分布,就可以作u转换;但是由于通常只作一次抽样,回归系数的总体标准误未知,在样本含量n较小的情况下,只能求得回归系数标准误的估计值Sb,对其作t转换如下:2~,bbN2~()bbbttnS总体回归系数的假设检验H0:总体回归系数为0(=0)H1:总体回归系数不为0(≠0)=0.05(双侧)将b与Sb代入上述公式得:故在=0.05的水准上,拒绝H0,认为总体回归系数不为0注意tb=tr45796bbbtS.;总体回归系数的置信区间类似与总体均数与总体率的可信区间,总体回归系数的可信区间同样可以用t分布的曲线下面积规律导出:上述例题中,回归系数的95%的可信区间为:221/,nbCIbtS的的为:013922447003040064802136...(.,.)总体回归系数的假设检验-方差分析*y-y$y-y$XYYy$y-y(x,y)y=a+bx$(y-y)=(y-y)+(y-y)$$222222(Y-Y)=[(Y-Y)+(Y-Y)]=(Y-Y)+(Y-Y)+2(Y-Y)(Y-Y)=(Y-Y)+(Y-Y)ˆˆˆˆˆˆˆˆSS总SS残SS回V总=n-1V回=1V残=n-2总体回归系数的假设检验-方差分析*可见不考虑回归时,Y的总变异SS总,归结于随机误差;而考虑回归后,由于回归的贡献使得随机误差减小为SS残如果两个变量间的回归关系的确存在,则变异度减少将十分之“显著”,即SS回归大于SS残,大到何种程度才认为具有统计学意义?计算以下统计量:对于简单线性回归,有tb2=FSS/νF=~F(ν=1,ν=n-2)SS/ν回回回残残残总体回归系数的假设检验-方差分析*决定系数(Coefficientofdetermination)R2=SS回/SS总取值介于0~1,表示回归解释了因变量变异的比例;其值越大表示回归预测效果越好在实际应用中,通常需要用决定系数反映回归的实际效果对于简单线性回归,有r2=决定系数五、总体回归线的95%置信带*通过样本资料得到的回归直线为:其中yhat为相应的总体条件均数y|x的估计值,会随样本而异;为了考虑抽样误差的影响,在估计总体参数y|x时采用区间估计yhat满足正态分布:但是由于通常只有一次抽样无法得到yhat的总体方差,故只能通过t统计量计算其可信区间:ˆyabx2|ˆˆ~,iiiiyxyyN|2|0052295iiiiiiiyxnyxinyyyttCIytSSˆ()./,ˆˆˆ~%()Xp231yyy$$$yyS变异程度为$$总体回归线的95%置信带*yphat的变异不仅决定于y的均数(),同时也取决于回归系数的作用()根据方差的特性:2222222221....ˆ.[()]()[()]()()//[()]()()()()pppyxyxpbppxxyxyxpypyxxxxxVarybxxVaryVarbxxVaryVarynSnSVarbxxSxxxxlSSxxSxxSnlnlˆ()ppyybxxy总体回归线的95%置信带所以对于给定xp时,yp的总体均数yp|xp相应的可信区间为:可以看出,当xp=x的均数时,yhat的标准误是最小的,相应的可信区间是最窄的而当xp偏离其均数时,yp|xp的可信区间将变得越来越宽2|2211/,.()ˆ(-)pppyxpnyxxxxxytSnl的可信区间为22/,.ˆ/pnyxytSn总体回归线的95%置信带将样本中的每个xp代入上述公式就可求得相应的y的条件均数(y|x)的可信区间(confidenceintervalofconditionalmeanofy)由于上述可信区间的特点,当所有可信区间的上下限相连接后就会形成一个弧形的区带,称为y|x的置信带(confidenceband)总体回归线的95%置信带例如年龄为12时,其所对应的尿肌酐均值为3.332(yhat);总体均值(y|x)的95%可信区间为3.080~3.584mmol/24h总体回归线置信带的意义:在满足LINE假定的情况下,利用最小二乘原则估计的总体回归线被两条弧线所组成的置信带所包含,其可信度为(1-)六、y预测值的区间估计*在回归分析中,假设x取某一数值时,变量y的取值围绕+x波动,呈正态分布,其均数为y|x,标准差为y|x;(Sy.x是的y|x估计值)因而如果能够求得与,就可以利用正态分布的原理估计个体值y的预测值范围在抽样研究中,我们得到的是总体回归线的估计线:yhat=a+bx,因此可估计约有95%的观察值在yhat±1.96Sy.x内;但是yhat又是总体均数y|x的估计值,会随样本而改变,其变异程度如前所述用Syhat表示因此,我们要预测某次实验中x取一定值时,y的相应取值范围,就要同时考虑这两种误差XpXpyy.xYSS$的变异既与取某条回归线有关();又与该回归线中的残差()有关ppyXYS时变异程度为y预测值的区间估计*如上所述,个体值y的变异程度因该表达为:由前述公式得到其具体计算式如下:222ˆ.ppyyxySSS222222221111.....()()()ppyxyxpyyxpyxxxxxpyyxxxSSxxSSxxSnlnlxxSSnl

1 / 54
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功