医学统计学(06)——双变量相关与回归季聪华2012.11.01临床研究分类研究时有无设计干预因素?实验性研究观察性研究是否随机有无对照组分析性研究描述性研究时间方向队列研究非随机对照试验随机对照试验病例对照研究横断面研究有无有无否是暴露→结局结局→暴露相关与回归直线相关秩相关直线回归曲线拟合相关与回归直线相关秩相关直线回归曲线拟合又称简单相关或Pearson相关分析,用于研究两个数值变量间是否存在线性相关关系,以及线性关系的方向和密切程度的的统计分析方法。直线相关用于双变量正态分布资料,一般说来,两个变量都是随机变动的,不分主次,处于同等地位。直线相关的概念两种事物或现象之间的相关关系基本上有下列四种情况:正相关负相关无关(零相关)非线性相关相关的类型正相关:一种现象的数值伴随另一种现象的数值的增加而递增。若X、Y呈正比,那么散点基本上在一直线上,称为完全正相关。负相关:一种现象的数值伴随另一种现象的数值的增加而递减。若X、Y呈反比,那么散点基本上在一直线上,称为完全负相关。无关(零相关):若变量x无论增加或减少,变量y不受到影响非线性相关:变量x与y的增减在坐标上排列不呈直线性分布如弧形、抛物线形、S形等。相关关系示意:0r1-1r0正相关负相关-1r00r1-1r0相关关系示意:r=1r=-1完全正相关完全负相关r=0r=0r=0零相关零相关零相关相关关系示意:r=0r=0非线性相关非线性相关直线相关的应用条件要求两个变量均呈正态分布(双变量正态分布)又称积差相关系数或Pearson相关系数,说明具有直线关系的两个变量间相关关系的密切程度与相关方向的指标。相关系数(correlationcoefficient)及其意义r表示样本相关系数,ρ表示总体相关系数。相关系数(r)表示方法:-1≤r≤1(无单位)r值为正——正相关r值为负——负相关|r|=1——完全相关|r|=0——零相关直线相关分析的基本步骤绘制散点图计算相关系数YYXXXYlllYYXXYYXXr=)-()-()-)(-(=∑∑∑22相关系数的假设检验目的:①初步了解两个变量间有无直线关系②有无可疑的异常点t-test,r-test考察资料是否满足双变量正态性条件下结论总体相关系数的假设检验检验r是否来自总体相关系数为零的总体(即ρ=0)目的:r≠0的两种可能①X、Y间确实有相关关系(ρ≠0)②抽样误差的影响(ρ=0)2--1=0-=2nrrSrtr2-=nυt检验r检验:方法:r的标准误r界值表相关关系密切程度的判断7.0≤4.0r7.0≥r4.0r低度相关中度相关高度相关一般说来,当样本量较大(n100),并对r进行假设检验,有统计学意义时(即),r绝对值越大,说明两个变量之间关联程度越强。αP【例1】11名糖尿病患者的血清总胆固醇含量(minol/L)与空腹血糖(mmol/L)的测量值如下,试进行直线相关分析。患者编号1234567891011总胆固醇5.683.796.024.854.606.054.907.083.854.654.59血糖11.28.812.311.610.414.311.115.19.613.211.0分析步骤(1)满足双变量正态性:小样本资料,以专业知识为主来确定资料正态性。(2)绘制散点图:以总胆固醇含量为X轴,血糖为Y轴绘制散点图,看二者的直线趋势。(1)满足双变量正态性:小样本资料,以专业知识为主来确定资料正态性。(2)绘制散点图:以总胆固醇含量为X轴,血糖为Y轴绘制散点图,看二者的直线趋势。(3)计算相关系数r:(4)相关系数的假设检验:SPSS软件操作•第1步:定义变量•第2步:输入原始数据•第3步:作散点图(1)•选择图形→旧对话框→散点/点状(S)•第3步:作散点图(2)•选择简单分布•选择定义•第3步:作散点图(3)•将血糖和总胆固醇含量分别移入Y轴和X轴•第3步:作散点图(4)•查看散点图结果:有直线趋势,异常点不明显。•第4步:线性相关分析(1)•选择分析→相关→双变量(B)•第4步:线性相关分析(2)•将总胆固醇含量和血糖移入变量•勾上pearson•第4步:线性相关分析(3)•结果解读:r=0.852,p=0.001注意事项•(1)并非任何有联系的两个变量都属线性联系,在计算相关系数之前首先利用散点图判断两变量间是否具有线性联系,曲线联系时不能直接用直线相关分析。•(2)有些研究中,一个变量的数值随机变动,另一个变量的数值却是人为选定的。如研究药物的剂量—反应关系时,一般是选定n种剂量,然后观察每种剂量下动物的反应,此时得到的观察值就不是随机样本,算得的相关系数r会因剂量的选择方案不同而不同。故一个变量的数值为人为选定时不宜作直线相关分析。注意事项•(3)作相关分析时,必须剔除异常点。异常点即为一些特大特小的离群值,对正确评价两变量直线相关有较大影响。所以,应及时复核检查,对由于测定、记录或计算机录人的错误数据,应予以修正或剔除。注意事项•(4)相关分析要有实际意义,两变量相关并不代表两变量间一定存在内在联系,需要结合专业上的解释。如根据儿童身高与小树树高资料算得的相关系数,是由于时间变量与二者的潜在联系,造成了儿童身高与树高相关的假象。注意事项•(5)分层资料不要盲目合并作直线相关分析,否则可能得出错误结论。注意事项相关与回归直线相关秩相关直线回归曲线拟合秩相关秩相关(rankcorrelation)又称等级相关,是一种非参数统计方法,适用于资料不是正态双变量或总体分布未知,数据一端或两端有不确定值的资料或等级资料。秩相关分析的方法有多种,Spearman等级相关最常用,它是用等级相关系数rs,来说明两个变量间相关关系的密切程度与相关方向的。秩相关分析的基本步骤计算相关系数相关系数的假设检验考察资料是否不满足双变量正态性条件下结论rs的计算公式:秩次差当相同秩次较多时的校正公式:编号123456789100.71.01.73.71.05.15.55.75.91.0秩次12562789102【例2】在肝癌病因研究中,某地调查了10个镇的肝癌死亡率(1/10万)与大豆中黄曲霉毒素相对含量(最高含量为10),见表。试作等级相关分析。乡编号12345678910黄曲霉素相对含量0.71.01.73.74.05.15.55.75.910.0肝癌死亡率21.518.914.446.527.364.646.334.277.655.1假设检验:查r界值表p0.05449191914042SPSS软件操作•第1步:定义变量•第2步:输入原始数据•第3步:线性相关分析(1)•选择分析→相关→双变量(B)•第3步:线性相关分析(2)•将X和Y移入变量•勾上Spearman•第3步:线性相关分析(3)•结果解读:rs=0.745,p=0.013相关与回归直线相关秩相关直线回归曲线拟合直线回归(linearregression)又称简单线性回归(simplelinearregression),是描述两变量的线性依存关系,它的任务就是找出一条最能描述变量间非确定性关系的一条直线,此直线为回归直线,相应的方程为直线回归方程。直线回归的概念如果某一个变量随着另一个变量的变化而变化,并且它们的变化在直角坐标系中呈直线趋势,那么就可以用一个直线回归方程来定量地描述它们之间的数量关系,这就是直线回归分析。直线回归分析中两个变量的地位不同,其中一个变量是依赖另一个变量而变化的,因此分别称为反应变量(dependentvariable)和自变量(independentvariable),习惯上分别用Y和X来表示。xybxaY+=ˆ两种变量自变量(independentvariable)应变量(dependentvariable)两种关系函数关系——函数方程:回归关系——回归方程:bxay+=x,y呈确定性关系x,y呈非确定性关系直线回归是分析两变量间线性依存变化的数量的关系直线回归的应用条件要求Y变量呈正态分布,X变量可以是精确测量和控制的变量。回归模型的前提假设•线性回归模型的前提条件是:–线性(linear)–独立(independent)–正态(normal)–等方差(equalvariance)•用四个英语单词的首写字母表示,恰好为“LINE”。(l)所谓线性是指反应变量Y的总体平均值与自变量X呈线性关系。如果该条件不成立,即总体是非线性的,而我们却用线性模型拟合,势必导致所获得的回归方程、检验、预测与估计等结果失去意义。通常绘制(Xi,Yi)的散点图,通过观察散点的形态来判断线性假设是否成立。如果发现数据违背该线性的假定,可寻求最能适合客观实际的非线性模型。(2)独立是指任意两个观察值互相独立。如果该条件不成立,名义上有n个个体的资料,实际上提供的信息却没有这么多,导致回归估计值不够准确和精确。通常利用专业知识来判断这项假定是否满足。(3)正态性假定是指线性模型的误差项服从正态分布。如果该条件不成立,在正态分布假设下对β的假设检验和置信区间估计的结论均无效。如果数据不满足正态性假设首先考虑对原始数据进行变量变换,使其正态化后进行线性模型拟合与分析。(4)等方差性是指在自变量X取值范围内,不论X取什么值,Y都具有相同的方差。如果这一条件不满足,回归参数的估计有偏性,置信区间估计及检验的结论均无效。通常可采用(Xi,Yi)的散点图或残差的散点图判断等方差性。如果数据不满足等方差性,可试用变量变换使其方差齐性化后再进行回归分析,或者采用加权回归的办法。bXaY+=ˆ直线回归方程式及回归系数:为Y的估计值,读作‘Yhat’a:为截距,即时的值b:为样本回归系数(直线的斜率);其统计学意义是X每增加(减)一个单位Y平均改变b个单位Yˆ0=xYˆ直线回归方程的一般表达式为:即X取某一定数值时相应Y的样本均数(也是相应Y的点估计值)a、b是决定直线的两个系数a回归系数b和截距a的计算根据最小二乘法原理(该法原理可保证各实测点至直线的纵向距离的平方和最小)可导出:为X和Y的离均差积和为X的离均差平方和其中:XXXYllXXYYXXb=)-(Σ)-)(-(Σ=2XYlXXlXXXYllXXYYXXb=)-(Σ)-)(-(Σ=2直线回归分析的基本步骤绘制散点图计算回归系数b与截距a对回归系数b进行假设检验列出回归方程回归直线的绘制回归系数的统计推断回归系数的假设检验总体回归系数β的估计回归系数的假设检验假设检验方法:t检验方差分析r检验代替其中:Sb为回归系数b的标准误SY.X为剩余标准差,反映扣除了X的影响后Y的变异bSbt0-=XXXYblSS.=2-=,nυ2-=2-)ˆ-(=∑2.nSSnYYSXY残t检验方差分析r检验代替在实际应用中,如果已对相关系数进行了假设检验,则可代替回归系数的假设检验。对于同一资料,tr=tb即如果相关系数的假设检验有统计学意义,则回归系数检验也有统计学意义,反之亦然。相关系数的假设检验方法比回归系数假设检验方法简便易做。总体回归系数的区间估计像样本均数不一定恰好等于总体均数一样,求得样本回归系数b以后,利用上述对回归系数t检验的公式,可以较为容易的得到总体回归系数β的1-α双侧可信区间为:其中:Sb为回归系数b的标准误【例3】11名糖尿病患者的血清总胆固醇含量(minol/L)与空腹血糖(mmol/L)的测量值如下,试进行直线回归分析。患者编号1234567891011总胆固醇5.683.796.024.854.606.054.907.083.854.654.59血糖11.28.812.311.610.414.311.115.19.613.211.0分析步骤(1)考察资料是否满足直线回归分析的条件:(2)绘制散点图:以总胆固醇含量为X轴,血糖为Y轴绘制散点图,看二者的直线趋势。(3)求回归方程: