直线回归直线回归举例说明回归背景问题通过例子导出直线回归的意义简述正态分布的性质由此导出直线回归分析对资料的要求简述直线回归的回归系数检验直线回归的预测值及其95%可信区间标准曲线制作中的直线回归问题直线回归分析小结思考题直线回归掌握的要点直线回归方程(总体)是描述什么?直线回归分析对资料有什么要求?直线回归分析的具体基本步骤是什么?在直线回归中,Y是否一定为随机变量?在直线回归中,X是否一定为随机变量?在直线回归中,预测值的意义是什么?在直线回归中,回归系数b的意义是什么?ˆY举例例为了研究3岁至8岁男孩人群平均身高(cm)与年龄(year)的规律,在某地区在3岁至8岁男孩中随机抽样,共分6个年龄层抽样:3岁,4岁,…,8岁,每个层抽3名男孩,共抽18名男孩。资料如下:年龄X333444555身高Y92.5979610096.5101106104107年龄X666777888身高Y115.5116110126118118122129124本例的研究目的和实现方法1.研究目的:了解年龄与儿童人群的平均身高对应关系。2.方法1:可以做普查,得到每个年龄组所有儿童的身高,并且计算每个年龄组的儿童人群的平均身高。3.方法2:作抽样调查,本例就是通过按年龄组分层抽样调查,获得样本后用回归分析的方法得到每个年龄组儿童人群的平均身高估计值和相应的统计推断。儿童身高的分布特征一般而言,儿童身高满足1.同一年龄x的儿童身高y近似服从正态分布,因此对于每个年龄x,均有一个身高y的总体均数。2.不同年龄x的儿童身高分别近似服从对应不同身高总体均数的正态分布。3.身高的总体均数是年龄x的一个函数|YX|YX|YX画散点图考查身高与年龄的分布关系yx34567890100110120130Y的离散程度与X没有关系,并且散点呈直线带画散点图考查身高总体均数与年龄的关系年龄组的身高样本均数与年龄的散点图由散点图确定身高总体均数与年龄可能是直线关系年龄组的身高样本均数与年龄的散点图显示年龄组的身高样本均数与年龄几乎在一条直线上,略有些偏离直线的点可以理解为样本均数的抽样误差所致,因此可以假定固定年龄的身高总体均数与年龄x的关系可能是直线关系,即假定:并且称上述直线方程为(总体)回归方程。|Yxx|Yx回归方程回归方程中,为未知参数,需要用样本资料通过拟合曲线后得到其估计值,并分别记为a和b,相应得到样本估计的回归方程通常称为Y的预测值,其意义为固定x,Y的总体均数的估计值。ˆYabxˆY|YxY与x的直线回归关系由总体回归方程可知:当=0时,。即:对于x的任何值,总体均数没有任何改变,因此建立Y与x的直线回归方程就没有任何意义了,所以称0时,Y与x之间存在直线回归关系,反之=0Y与x之间称不存在直线回归关系。|Yxx|yx|Yx正态分布性质简述2~(,)YNZY性质1:设Y服从某个正态分布,则Y的总体均数和总体方差2唯一决定了Y的确切分布。性质2:设,令则:性质3:设,令则:2~(0,)ZN2~(0,)XNZX2~(,)ZN回归模型根据上述性质,应用到本例的实际问题:1.固定年龄X,身高Y服从总体均数为,方差为2的正态分布。2.由散点图可以假定总体均数3.故4.令,5.即:,并称为直线回归模型。|YX|Yxx2~(,)YNx2|(,)YXN|YxYYx2~(0,)NYx误差与残差|YXYxY称为随机误差称为残差(residual)根据上述,直线回归分析要求资料满足固定X,Y服从正态分布等价于残差服从正态分布。ˆYYYabx直线回归原理示意图所以如果固定x,Y服从正态分布,其散点图呈直线带分布直线回归系数的估计用最小二乘法拟合直线,选择a和b使其残差(样本点到直线的垂直距离)平方和达到最小。即:使下列的SSE达到最小值。由此得到22ˆ()(--)iiiiSSEyyyabx2()()()iiiyyxxbaybxxx回归系数估计的另一种表达式2211iiiiiiyxyxnbxxn可以证明:回归系数估计式b还可以表示为:回归系数的意义由总体回归方程可知回归系数表示:x增加一个单位,总体均数增加个单位由于是的估计表达式,所以(样本)回归系数b表示x增加一个单位,样本观察值y平均增加b个单位。|yxx|yxˆYabx|yxx回归系数假设检验的必要性由于样本回归系数b与总体回归系数存在抽样误差,即:一般情况下,b,因此需要考虑抽样误差对统计推断是否存在重大影响。由于=0时,,Y与x之间不存在直线回归关系,因此是否为0,涉及到所建立的回归方程是否有意义的重大问题,然而即使=0,样本回归系数b一般不为0,因此需要对回归系数是否等于0进行假设检验。|yx回归系数的假设检验H0:=0vsH1:0=0.05回归系数的标准误为其中s为残差的标准差则回归系数的检验统计量为()bbtseb2()()issebxx2ˆ()2iyysn回归系数的假设检验残差的标准差s还可以表示为可以证明:H0:=0成立时,检验统计量tb服从自由度为n-2的t分布。即:当出现,=0而言这是小概率事件,故可以拒绝H0:=0,认为0。222()()2iiyybxxsn0.05/2,2||ntt回归系数检验统计量t的分布示意图00当|t|t0.05,1,n-2时,对=0而言是小概率事件,对0而言并非是小概率事件。实例计算故年龄X333444555身高Y92.5979610096.5101106104107年龄X666777888身高Y115.51161101261181181221291242()52.2ixx2()2186.111iyy()()328.5iiyyxx2()()328.56.257()52.5iiixxyybxx5.5,y=109.78x109.786.2575.575.363aybx实例的回归系数的假设检验H0:=0vsH1:0=0.05t0.05/2,16=2.120tb,P0.05,因此拒绝H0:=0,可以认为0,身高Y与年龄x的直线回归关系是成立的。6.25715.881()0.394bbtseb22.857()0.39452.5()issebxx2222()()2186.116.25752.52.8572182iiyybxxsn线性回归的变异分解2()iSSyy总2ˆ()iSSyy回归22ˆ()()iiiiSSyyyabx残差不难证明:SS总可以分解为SS回归和SS残差即:SS总=SS回归+SS残差线性回归的变异分解示意图()()()YYYYYY线性回归的变异分解由可知,SS残差越小,表明回归模型的预测效果越好。因为SS总=SS回归+SS残差,所以SS残差越小,SS回归越大。SS回归表示由X引起的Y变异量,SS残差表示非X所引起的Y变异量。2ˆ()iiSSyy残差线性回归中的方差分析检验为了消除样本量的影响,定义残差的均方和回归的均方如下:,显然X对Y的作用越大,MS回归就越大,MS残差就越小,F就越大,反之,X对Y的作用越小,F就越小。SS/1SSMS回归回归回归SSn-2MS残差残差=MSMSF回归残差线性回归中的方差分析检验若总体回归系数=0时,F服从自由度为1和n-2的F分布。H0:=0H1:0=0.05当F临界值F0.05,1,n-2时,可以拒绝H0,认为0。在直线回归中,F检验与t检验是等价的。F检验统计量分布示意图当|FF0.05,n1,n2时,对=0而言是小概率事件,对0而言并非是小概率事件。线性回归中的决定系数决定系数R2描述了回归方程所刻画的X引起的Y变异量占Y的总变异的比例。2R1SSSSSSSS回归残差总总实例中的预测问题由此得到回归方程估计3~8岁儿童平均每年身高增加6.257cm不同x取值,用回归方程估计的Y的总体平均数(称为预测),但存在抽样误差,其标准差和的95%可信区间分别为ˆ75.3636.257YxˆY221()ˆ()()ixxsYsnxx|YX0.05/2,2ˆ()nYtsY|YX应用回归方程估计Y的95%范围由于回归模型为均数的估计值的方差为所以用估计Y的方差为因此估计当在x点时,Y的95%范围为|YXYx222|21()ˆ()()()YXixxssnxx|ˆYX222|21()ˆ()(1)()Yxixxssnxx2|0.05/2,221()ˆ1()xnixxYtnxx直线回归对资料的要求小结对于直线回归,要求残差服从正态分布并且残差的离散程度与自变量x没有明显的相关趋势。在直线回归中,Y是随机变量,自变量x没有要求。在实际应用中,直线回归的资料可以分为二类:1.从背景和抽样的角度看,Y与x均为随机变量,但在直线回归模型中视x为已取定观察值的非随机变量值。2.Y是随机变量,x为控制变量并且为非随机变量。应用直线回归制作标准曲线目标:制定测定某种溶液的浓度的方法方法:用若干个浓度的标准品,测量其光密度值,利用直线回归建立标准曲线。浓度是非随机的,光密度值存在随机误差。取光密度值是Y,溶液浓度为x,作直线回归得到回归方程改写为浓度估计式ˆYabxˆˆYaxb您对上述内容的要点理解吗?直线回归方程(总体)是描述什么?直线回归分析对资料有什么要求?直线回归分析的具体基本步骤是什么?在直线回归中,Y是否一定为随机变量?在直线回归中,X是否一定为随机变量?在直线回归中,预测值的意义是什么?在直线回归中,回归系数b的意义是什么?ˆY思考题对于两样本成组t检验的问题,假定资料满足t检验条件,考虑下列问题:1.用x=0表示第一组,x=1表示第二组,用Y表示相应的观察资料,相应的总体均数能否表示为2.若能表示,,的意义是什么?3.能否用成组t检验的资料进行直线回归?|Yxx多重线性回归的Stata实现reg因变量自变量1…自变量n在执行上述命令后计算残差predicte,residual残差计算结果放在变量e正态性检验命令skteste逐步回归筛选变量swreg因变量自变量,pr(踢出水准)pe(进入模型的水准)参考文献赵耐青主编,十五规划教材《医学统计学》,高教出版社2004年3月赵耐青主编,《临床研究设计与数据分析》,复旦大学出版社2005年8月JohnNeter.Appliedlinearstatisticalmodels,fourthedition.WCB:McGrawHill,1996