第十章两变量关联性分析一、线性相关描述n身高与体重n尿铅排出量与血铅含量n凝血时间与凝血酶浓度n血压与年龄 • 问题:两变量间是否存在相关或关联?例101 在某地一项膳食调查中,随机抽取了14名40~60岁的健康妇女,测得每人的基础代谢(kJ /d)与体重(kg)数据,见表101。据此数据如何判断这两变量间有无关联?第一节线性相关表101 14例中年健康妇女的基础代谢与体重测量值编号基础代谢(kJ /d)体重(kg)编号基础代谢(kJ /d)体重(kg) 1 4175.6 50.7 8 3970.6 48.6 2 4435.0 53.7 9 3983.2 44.6 3 3460.2 37.1 10 5050.1 58.6 4 4020.8 51.7 11 5355.5 71.0 5 3987.4 47.8 12 4560.6 59.7 6 4970.6 62.8 13 4874.4 62.1 7 5359.7 67.3 14 5029.2 61.5n散点图 (scatter plot)280033003800430048005300580030354045505560657075体重(kg)基础代谢(KJ/day)图101 14例中年健康妇女基础代谢与体重的散点图n线性相关(linear correlation)n两变量关联类型正相关(positive correlation) 负相关(negative correlation) 线性无关n线性相关系数 (linear correlationcoefficient,Pearson product moment coefficient) ))((的方差的方差的协方差和相关系数 Y X Y X=() 1 2 1--=å= n x x ni i 的样本方差X() 1 2 1--=å= n y y ni i 的样本方差Y()() 1 1---=å= n y y x x ni i i 的样本协方差和YX()() 1 1---=å= n y y x x ni i i 的样本协方差和YX()()()()ååå===----== ni ni i i i ni i yy xx xy y y x x y y x x l l l r 1 1 2 2 1 样本相关系数的定义n r是表示两个随机变量之间线性相关强度和方向的统计量,它没有单位n 1<r<1 n r的正负值表示两变量之间线性相关的方向n r的绝对值大小则表示两变量之间线性相关的密切程度例102 计算例101中基础代谢Y与体重X之间的样本相关系数。 • 说明该14名40~60岁健康妇女的基础代谢和体重之间呈正相关,相关程度较大。 5771 . 1144= xx l 0121 . 4645447= yy l 2329 . 70303= xy l 964 . 0== yy xx xy l l l rTHEENDThanks11第十章两变量关联性分析二、假设检验与秩相关例102 计算例101中基础代谢Y与体重X之间的样本相关系数。说明该14名40~60岁健康妇女的基础代谢和体重之间呈正相关,相关程度较大。 5771 . 1144= xx l 0121 . 4645447= yy l 2329 . 70303= xy l 964 . 0== yy xx xy l l l rH 0 : ρ=0 H 1 : ρ≠0 线性相关系数的统计推断1. 查相关系数临界值表(附表) 2. t 检验 r r S r t 0-= 2 1 2--= n r S r 常用的检验方法: 2-= nn例103: r=0.964, 检验相关是否具有统计学意义。n t 检验: P<0.001。可认为40~60岁健康妇女的基础代谢与体重之间存在正相关。 559 . 12 2 14 ) 964 . 0 ( 1 964 . 0 2=--= r t 12 2 14=-=n总体相关系数的区间估计: 1 1 ln 2 1 r r z-+= 3 / , 3 / 2 / 2 /-+-- n Z z n Z zaa 1 1 2 2+-= z z e e r 双曲正切变换反双曲正切变换例103:r=0.964,试估计总体相关系数的95%置信区间。 • (1.4086,2.5906) • (0.8872,0.9888) 9996 . 1 964 . 0 1 964 . 0 1 ln 2 1 1 1 ln 2 1=÷øöçèæ-+=÷øöçèæ-+= r r Z 14= n四、应注意的问题 1. 散点图显示变量间有线性趋势时,才进行相关分析 2. 线性相关适用于双变量正态分布资料 3. 正确理解相关关系,“相关不等于因果”4.出现异常值时慎用相关 5.分层资料盲目合并易出假象。第二节秩相关n线性相关系数(Pearson correlation coefficient)n秩相关(rankcorrelation, Spearman coefficient),或称等级相关n适用于:不服从双变量正态分布;总体分布类型未知;数据本身有不确定值;等级资料。例105 某研究者研究10例6个月~7岁的贫血患儿的血红蛋白含量与贫血体征之间的相关性,结果见表 102,试作秩相关分析。表 102 贫血患儿的血红蛋白含量(g/dl)和贫血体征病人编号血红蛋白含量 X 秩次 p 贫血体征 Y 秩次 q (1) (2) (3) (4) (5) 1 5.0 1 +++ 10.0 2 5.8 2 ++ 8.0 3 6.1 3 + 6.0 4 7.3 4 3.0 5 8.8 5 ++ 8.0 6 9.1 6 ++ 8.0 7 11.1 7 3.0 8 12.3 8 3.0 9 13.5 9 3.0 10 13.8 10 3.0 合计 ― 55 ― 55 分别对 X、Y 的观察值从小到大排序编秩,以秩次代入公式计算 82.5 pp l =, 70.5 qq l =, 56.5 pq l =- 0.741 pq s ppqq l r ll ==-二、秩相关系数的假设检验类似于积矩相关系数,关于秩相关系数的检验假设为 0 H : 0 s r=, 1 H : 0 s r¹, 0.05 a=当n≤50时,可查书后关于秩相关系数的临界值表,若 s r 超过临界值,则拒绝 0 H ;n50时,也可采用式(105)和式(106)作 t 检验。例 106 对例 105 的秩相关系数作假设检验。例 105 中算得 s r =0.741, n=10,查秩相关系数临界值表, 10,0.05 s rr =0.648,P0.05,按 0.05 a=的水准,拒绝 0 H 。可以认为贫血患儿的血红蛋白含量与贫血体征之间有负相关关系。THEENDThanks第十章两变量关联性分析三、两个分类变量的关联分析n对分类变量间的联系,可作关联(association)分析n对两个分类变量交叉分类计数所得的频数资料(列联表)作关于两种属性独立性的c 2 检验交叉分类2×2列联表n对样本量为n的一份随机样本同时按照两个二项分类的特征(属性)进行交叉分类形成一个2×2交叉分类资料表, 也称为2×2列联表(contingency table)。n例103:为观察行为类型与冠心病的关系,某研究组收集了一份包含3154个个体的样本,研究者将观察对象按行为类型分为A型(较具野心、进取心和有竞争性),B型(较沉着、轻松、和做事不慌忙)。对每个个体分别观察是否为冠心病患者和行为类型两种属性,2×2种结果分类记数如下表所示。试分析两种属性的关联性。表 103 行为类型与冠心病的关系行为类型(属性 A)冠心病(属性 B)合计有(1) 无(2) 类型 A(1) 178 1411 1589 类型 B(2) 79 1486 1565 合计 257 2897 3154表 104 2×2 交叉分类频数表的一般形式及概率表达属性 A 属性 B 合计 1 2 1 11 A ( 11p ) 12 A ( 12p ) 1 n ( 1 rp ) 2 21 A ( 21p ) 22 A ( 22p ) 2 n ( 2 rp ) 合计 1 m ( 1 cp ) 2 m ( 2 cp ) n(1.0) 0 H :属性 A与 B互相独立, 1 H :属性 A与 B 互相关联。独立性检验就是考察 cj ri ijppp=成立与否。å-= j i i i i T T A , j 2 j j 2 ) (c0 H :行为类型与冠心病之间互相独立 1 H :行为类型与冠心病之间有关联a =0.05 将表中各数据代入公式(99), 2 2 (1781486791411)3154 39.90 158915652572897 c´-´´==´´´ 2 0.05,1 3.84 c=, 22 0.05,1 cc P0.05,说明行为类型与冠心病之间存在着关联性。关联系数(association coefficient) 2 2 r n cc=+ 2 2 39.90 0.112 39.903154 r n cc===++多分类资料的关联分析例105 欲探讨职业类型与胃病类型是否有关联,某医生将收治的310名胃病患者按主要的职业类型与胃病类型两种属性交叉分类,结果见表106。问职业类型与胃病类型间有无关联?表106 310名胃病患者两种属性的交叉分类表职业胃病合计浅表性胃炎慢性胃炎胃溃疡 805220 机关干部工厂工人公交车司机 486222 4 1210 132 12652 152 132 26 310 合计H 0 :胃病类型与职业无关联 H 1 :胃病类型与职业有关联 α=0.05 222222 2 80484526212 310( 1521321321322613215212613212626126 c=´++++++´´´´´´ 222 202210 1) 15252132522652 ++-´´´ 20.838 = P0.005 2 2 20.838 0.251 20.838310 r n cc===++170例某病患者的治疗效果资料患者年龄 (岁) 疗效合计无效好转治愈 18 5 32 20 57 18~ 30 38 10 78 50~ 15 10 10 35 合计 50 80 40 170 Gamma系数小结:n相关是测量变量间的相互关联或联系的指标。相关研究的两个变量其关系是平等的,均为随机变量。n在分析相关时必须先做散点图n两连续变量间的相关分析方法主要有Pearson积矩相关和 Spearman秩相关n分类资料的关联分析可区分为两分类和多分类的情形,检验都采用卡方检验。n相关和关联是两变量间相互关联或联系数量上的关系,不能据此推论两变量有因果关系。相关有可能只是伴随关系。THEENDThanks