第九章双变量回归与相关图英国肺癌死亡率和烟草消耗量.(1950,Doll&Hill)图美国肺癌的监测数据年及美国烟草消耗量的数据(AmericanCancerSociety2005)第九章直线相关与直线回归112020/2/27117.3119.6121.9125.1117.0115.4124.7120.1123.0122.8120.6121.5125.0125.9123.2126.6122.0127.6125.1120.1119.5126.1126.4125.6118.9130.4124.9125.8126.1120.9116.1124.0124.6118.7119.1121.9118.0117.0114.6123.9116.0125.3123.6123.6126.4115.5119.2114.0123.4126.6117.3113.6127.6120.5113.6130.2128.3118.2124.7122.4118.8123.1122.7126.6127.8125.9110.5124.8115.2119.4128.0116.7132.4129.3121.7115.0120.4122.1127.0135.3125.7111.2124.3124.2124.7121.7121.3124.1119.9121.7113.8116.7129.9128.5126.5122.8120.1118.2122.5127.7124.9123.3120.3125.7某市1995年104名男童身高(cm)资料如下单变量资料122020/2/27大鼠对号正常饲料组维生素E缺乏组(1)(2)(3)135502450220002400330001800439503200538003250637502700734502500830501750合计2655020050表1不同饲料组大鼠肝中维生素A含量(IU/g)变量单变量资料患者号血清IL-6脑脊液IL-6122.4134.0251.6167.0358.1132.3425.180.2565.9100.0679.7139.1775.3187.2832.497.2996.4192.31085.7199.4132020/2/27表2SAH患者血清和脑脊液IL-6(pg/ml)检测结果双变量资料608010012014016018020022020406080100血清IL-6(pg/ml)脑脊液IL-6(pg/ml)142020/2/27SAH患者血清和脑脊液IL-6散点图医学上,许多现象之间都有相互联系,例如:身高与体重、体温与脉搏、年龄与血压、产前检查与婴儿体重、乙肝病毒与乙肝、胰岛素与血糖水平、毒物剂量与动物的存活时间等。在这些有关系的现象中,它们之间联系的程度和性质也各不相同。这里,体温和脉搏的关系就比产前检查与婴儿体重之间的关系密切得多,而体重和身高的关系则介与二者之间。另外,可以说乙肝病毒感染是前因,得了乙肝是后果,乙肝病毒和乙肝之间是因果关系;但是,有的现象之间因果不清,只是伴随关系,例如丈夫的身高和妻子的身高之间,就不能说有因果关系。152020/2/27回归分析与相关分析162020/2/27变量间关系问题:年龄~身高、肺活量~体重、药物剂量与动物死亡率等。两个关系:(1)依存关系:应变量Y随自变量X变化而变化——回归分析(2)互依关系:应变量Y与自变量X间的彼此关系——相关分析第九章直线相关与直线回归第一节直线回归第二节直线相关第三节等级相关第四节加权直线回归第五节曲线拟合172020/2/27182020/2/27第一节直线回归一、直线回归的概念二、直线回归方程的求法三、直线回归中的统计推断四、直线回归方程的图示五、直线回归的区间估计六、直线回归方程的应用192020/2/27编号(1)尿雌三醇mg/24h(2)产儿体重kg(3)编号(1)尿雌三醇mg/24h(2)产儿体重kg(3)172.517173.2292.518253.2392.519273.44122.720153.45142.721153.46162.722153.57162.423163.58143.024193.49163.025183.510163.126173.611173.027183.712193.128203.813213.029224.014242.830253.915153.231244.316163.2表2孕妇尿中雌三醇含量与产儿的体重202020/2/27图1尿雌三醇含量与体重的散点图11.522.533.544.50102030尿雌三醇(mg/24h)体重(kg)c两变量的散点图212020/2/27表312名一年级女大学生体重与肺活量编号体重(kg)肺活量(L)1422.552422.23462.754462.45462.86502.817503.418503.19523.4610522.8511583.512583222020/2/27图2一年级女大学生体重与肺活量散点图1.522.533.5440424446485052545658体重(kg)肺活量(L)两变量的散点图232020/2/27英国统计学家PearsonK(1857~1936)1903年搜集了1078个家庭人员的身高、前臂长等指标的记录,发现儿子身高(Y,英寸)与父亲身高(X,英寸)存在线形关系:回归的由来Y=33.73+0.516X242020/2/27回归的由来即高个子父亲儿子的平均身高虽然比矮个子父亲儿子的平均身高要高一些,但稍矮于其父亲的平均身高;而矮个子父亲儿子的平均身高虽然比高个子父亲儿子的平均身高要矮一些,但稍高于其父亲的平均身高。英国人类学家GaltonF(1822~1911)将这种趋向于种族稳定的现象称之为“回归”。至此,“回归”逐渐发展成为分析两个变量或多个变量之间某种数量依存关系的一类统计方法。Galton数据散点图(英寸)7570656075706560heightoffatherheightofson252020/2/27262020/2/27一、直线回归的概念在实际生活当中,由于其它因素的干扰,许多双变量之间的关系呈直线趋势,但并不是严格的直线关系,为了区别于两变量间的直线关系,我们称这种关系为直线回归。直线回归仍用直线方程来描述两变量间的回归关系,但称为直线回归方程.函数关系:确定。例如园周长与半径:y=2πr272020/2/27回归关系:不确定。例如血压和年龄的关系,称为直线回归(linearregression)。目的:建立直线回归方程(linearregressionequation)608010012014016018020022020406080100血清IL-6(pg/ml)脑脊液IL-6(pg/ml)282020/2/27SAH患者血清和脑脊液IL-6散点图292020/2/27医学上,还有许多现象之间也都有类似的或强或弱的相互依存的关系,例如:身高与体重、体温与脉搏、年龄与血压、胰岛素与血糖水平、毒物剂量与动物的存活时间等等直线回归方程:302020/2/27a:截距b:回归系数ˆYabXx为自变量,一般为资料中能精确测定和控制的量为因变量Y的估计值ˆYSimpleLinearRegressionModel|YX|YX|YXX312020/2/27Y的总均数自变量Slope总体斜率Intercept总体截距根据散点图可以假定,对于x各个取值,相应的Y的总体均数在一条直线上,实际上是x对应的Y的总体均数的一个样本估计值。ˆY322020/2/27Yx直线回归模型的四个假定线性——LINEARITY反应变量均数与X间呈直线关系|YXX332020/2/27LINE假定xy标准差相等——EQUALSTANDARDDEVIATION对于任何X值,随机变量Y的标准差Y|X相等独立——INDEPENDENCE每一观察值之间彼此独立正态——NORMALITY对于任何给定的X,Y服从正态分布,均数为Y|X,标准差为Y|X2020/2/2734直线回归方程:YabXa:常数项,回归直线在Y轴上的截距(intercept),其统计意义是当X=0时相应Y的均数估计值)b:斜率(slope),回归系数(regressioncoefficient)。意义:当X变化一个单位时Y的平均改变的估计值(b个单位)b0,Y随X的增大而增大(减少而减少)——斜上;b0,Y随X的增大而减小(减少而增加)——斜下;b=0,Y与X无直线关系——水平。|b|越大,表示Y随X变化越快,直线越陡峭。352020/2/27xyYabXˆ()YY22ˆ()(--)iiiiSSEYYYabX2ˆYY362020/2/27二、直线回归方程的求法回归系数与截距的计算求解a,b实际就是如何合理找到一条最好代表数据点分布趋势的直线。若将实测值Y与假定回归直线上的估计值称为残差或剩余值,所求直线应为各点残差纵向距离最短,由于残差有正有负,即取各点残差平方和最小为所求,即最小二乘法原理此回归直线必过这一点(,)XYˆY最小二乘(Leastsquares)法图解372020/2/27Y(Y的估计值)=a+bXiYi寻找使S(残差i)2最小的直线估计值iˆiY残差i=Yi–估计值iˆiY382020/2/27222--XXlXXXXnXYXYXXYYXYnl=aYbX2XYXXXXYYllXXb392020/2/27例1在脑血管疾病的诊断治疗中,脑脊液白细胞介素-6(IL-6)水平是影响诊断与预后分析的一项重要指标,但脑脊液在临床上有时又不容易采集到。某医生欲了解急性脑血管病病人血清IL-6(pg/ml)与脑脊液IL-6(pg/ml)水平,随机抽取了某医院确诊的10例蛛网膜下腔出血(SAH)患者24小时内血清IL-6和脑脊液IL-6数据如表2,问SAH患者血清IL-6和脑脊液IL-6间是否有直线相关关系存在?402020/2/27例1进行回归分析患者号血清IL-6脑脊液IL-6122.4134.0251.6167.0358.1132.3425.180.2565.9100.0679.7139.1775.3187.2832.497.2996.4192.31085.7199.4表2SAH患者血清和脑脊液IL-6(pg/ml)检测结果412020/2/271、绘制散点图:2、计算:XXYYXYXYlll、、、、患者号血清IL-6脑脊液IL-6122.4134.0251.6167.0358.1132.3425.180.2565.9100.0679.7139.1775.3187.2832.497.2996.4192.31085.7199.4422020/2/27表2SAH患者血清和脑脊液IL-6(pg/ml)检测结果XY592.61428.702Y41222.422036.472XXY91866.4622.4×134.0.......XY59.26142.876104.66416242.1017201.698XXYYXYXYlll432020/2/272、计算:XXYYXYXYlll、、、、442020/2/27aYbX=72.9610XYXXbll=1.17973、求回归系数b和截距a:452020/2/274.列出回归方程:ˆY=72.96+1.18X462020/2/271.斜率(b)当X每增加1个单位时,Y改变b个单位•本例b=1.1797,表明在所研究对象范围内,血清IL-6每增加1pg/ml,脑脊液IL-6增加1.1797pg/ml2.Y的截距(a)x=0时Y的平均值•本例a=72.96,表示血清IL-6为0时,脑脊液IL-6期望值为72.96pg/ml(注意有时这种解释无实际意义)回归方程中a、b的解释472020/2/27编号体重(kg