两变量间关联性分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

Healthstatistics卫生统计学---两变量间关联性分析问题的提出以往方法的局限仅限于考察一个观察指标问题的提出人的体重往往随着身高的增加而增加。二者之间是否存在某种关联?如果存在,可否用身高来推测体重的多少?人的肺活量往往随着胸围的增加而增加。举重运动员所能举起的最大重量是否与他的体重有关?outline线性相关秩相关分类变量的关联性分析线性相关(linearcorrelation)线性相关,用以描述两个呈正态分布的随机变量之间的线性共变关系。当一个变量增大,另一个也随之增大(或减少),我们称这种现象为共变,也就是有相关关系。若两个变量同时增加或减少,变化趋势是同向的,则两变量之间的关系为正相关(positivecorrelation);若一个变量增加时,另一个变量减少,变化趋势是反向的,则称为负相关(negativecorrelation)。(1)正相关(2)负相关(3)非线性相关(4)零相关Pearson积差相关系数定量地描述线性相关程度的一个常用指标;总体相关系数用希腊字母ρ表示;样本相关系数用r表示;Pearson积差相关系数的计算YYXXXYlllYYXXYYXXr222XXlXX2YYlYYX的离均差平方和:Y的离均差平方和:X与Y间的离均差积和:YYXXlXY离均差平方和、离均差积和的展开:nXXXXlXX222nYYYYlYY222nYXXYYYXXlXY积差相关系数的特点一个无量纲的数值;取值范围:-1<r<1;r>0为正相关r<0为负相关r=0为零相关或无相关;|r|越接近于1,说明相关性越好,|r|越接近于0,说明相关性越差。r=0零相关0r1-1r0正相关负相关例11-1随机抽取15名健康成人,测定血液的凝血酶浓度(单位/毫升)及凝固时间,数据如表11-1所示。据此数据如何判断这两项指标间有否相关?受试者号123456789101112131415凝血酶浓度1.11.21.00.91.21.10.90.61.00.91.10.91.11.00.7凝血时间141315151314161714161516141517表11-115名健康成人凝血时间与凝血酶浓度测量值记录12131415161718190.50.70.91.11.3凝血酶浓度(毫升)凝血时间(秒)线性相关?1.制散点图2.计算积差相关系数YYXXXYlllrnXXXXlXX222nYYYYlYY222nYXXYYYXXlXY受试者123456789101112131415合计X1.11.21.91.21.1.9.61.91.1.91.11.714.7X21.21.41.811.41.2.81.361.811.2.811.21.4914.81Y141315151314161714161516141517224Y21961692252251691962562891962562252561962252893368XY151615141615141014141714151512216.7926.0]15)224(3368][15)7.14(81.14[15/)224)(7.14(7.216)()())((2211221nininiyyxxyyxxr负相关相关系数的假设检验查表法:r界值表(附表13)t检验相关系数的假设检验---查表法建立假设,确定检验水准H0:ρ=0,凝血酶浓度与凝血时间无相关关系;H1:ρ≠0,凝血酶浓度与凝血时间有相关关系;=0.05。查r界值表(附表13):r=-0.926,|r|=0.926v=n-2=13,r0.05/2,13=0.514确定p值,下结论P0.05可认为凝血酶浓度与凝血时间之间的确存在线性相关。相关系数的假设检验---t检验建立假设,确定检验水准H0:ρ=0,凝血酶浓度与凝血时间无相关关系;H1:ρ≠0,凝血酶浓度与凝血时间有相关关系;=0.05。计算检验统计量:v=n-2=13(t0.05/2,13=2.16)确定p值,下结论P0.05,可认为凝血酶浓度与凝血时间之间的确存在线性相关。8748215629016290210022.).(.nrrsrtrr线性相关应用中应注意的问题样本的相关系数接近零时并不意味着两变量间一定无相关性;r=0线性相关应用中应注意的问题一个变量的数值人为选定时莫作相关;如:为研究药物的剂量-反应关系,人们选定n种剂量,观察每种剂量下动物的反应;如:摸索化学反应的适宜条件,人们选定几种温度,观察各温度下生成物的数量。线性相关应用中应注意的问题出现异常点时慎用相关;线性相关应用中应注意的问题相关未必真有内在联系;线性相关应用中应注意的问题分层资料盲目合并易出假象。线性相关应用中应注意的问题样本的相关系数接近零时并不意味着两变量间一定无相关性;一个变量的数值人为选定时莫作相关;出现异常点时慎用相关;相关未必真有内在联系;分层资料盲目合并易出假象。秩相关(rankcorrelation)适用资料:不服从正态分布的资料或是总体分布未知的资料的定量资料;等级资料。原理:利用两变量的秩次大小作线性相关分析,对原变量的分布不作要求,属非参数统计方法。最常用的Spearman秩相关。例11-4某地研究2~7岁急性白血病患儿的血小板数与出血症状程度之间的相关性,结果见表11-2,试用秩相关进行分析。表11-2急性白血病患儿的血小板(109/L)和出血症状病人编号血小板数X秩次pp2出血症状Y秩次qq2pq⑴⑵⑶⑷⑸⑹⑺⑻=⑶•⑹112111+++11.5132.2511.5213824++9.08118316539+7.049214310416-3.512.25145426525++9.081456540636++9.081547740749-3.512.2524.581060864-3.512.252891260981-3.512.2531.510129010100-3.512.253511143811121+++11.5132.25126.512200412144-3.512.2542合计―78650―78630451秩相关分析编秩计算lpp、lqq、lpq计算Spearman秩相关系数或等级相关系数,用rs表示。1431278650)(222npplpp1231278630)(222nqqlqq561278451))((2nqppqlpq422.012314356qqpppqslllrSpearman秩相关系数rs类似于积差相关系数,它也可用来说明两个变量间相关的程度与方向。取值介于-1~1之间,rs0为负相关,rs0为正相关。它也是总体相关系数的估计值。由样本算得的秩相关系数是否有统计学意义,也应作检验。秩相关系数的假设检验查表法(n≤50):rs界值表(附表14)t检验(n50)相关系数的假设检验---查表法建立假设,确定检验水准H0:ρs=0,出血症状与血小板数之间无相关关系;H1:ρs≠0,出血症状与血小板数之间有相关关系;=0.05。查rs界值表(附表14):r=-0.422,|r|=0.422n=12,r0.05/2,12=0.587确定p值,下结论P0.05可认为急性白血病患儿的出血症状与血小板数之间无相关关系。分类变量的关联性分析交叉分类2×2表的关联分析2×2配对资料的关联性分析R×C表分类资料的关联性分析例11-6为观察婴儿腹泻是否与喂养方式有关,某医院儿科随机收集了消化不良的婴儿82例,对每个个体分别观察腹泻与否和喂养方式两种属性,2×2种结果分类记数如表11-3所示。试分析两种属性的关联性。表11-3婴儿腹泻与喂养方式的关系腹泻喂养方式有无合计人工301040母乳172542合计473582一个样本表11-42×2交叉分类频数表的一般形式及概率表达属性Y属性XY1Y2合计X1A11(π11)A12(π12)n1(πr1)X2A21(π21)A22(π22)n2(πr2)合计m1(πc1)m2(πc2)n(1.0)联合概率边际概率两属性X和Y互相独立:属性X的概率分布与属性Y的概率分布无关,在交叉分类表中每一格子中联合概率等于相应属性的边际概率的乘积:nnnncjricjriijnnnnTcjriijij分类资料的关联性分析与频数分布的假设检验检验公式、理论频数计算公式和自由度的计算公式完全相同。研究目的、设计方案、数据结构以及最后对于结果的解释都是不同的。建立假设,确定检验水准H0:喂养方式与婴儿腹泻之间互相独立H1:喂养方式与婴儿腹泻之间有关联α=0.05计算检验统计量:确定P值,下结论p0.05,说明婴儿腹泻与喂养方式之间存在着关联性。计算Pearson列联系数:329.08298.998.922nr98.93547424082)10172530(22假设检验?例11-7有28份咽喉涂抹标本,把每份标本一分为二,依同样的条件分别接种于甲、乙两种白喉杆菌培养基上,观察白喉杆菌生长的情况,结果如表11-5,问两种培养基的结果有无关联?表11-5乙培养基合计甲培养基+-+221840-21416合计243256配对资料建立假设,确定检验水准H0:两种培养基的结果之间互相独立H1:两种培养基的结果之间互相关联α=0.05计算检验统计量:确定P值,下结论p0.05,可认为甲、乙两种培养基之间存在关联性。计算列联系数:4383224164056218142222.3617.05643.843.822nr例11-8某地居民主要有三种祖籍,均流行甲状腺肿。为探讨甲状腺肿类型与祖籍是否有关联,现根据居民甲状腺肿筛查结果,按甲状腺肿类型与祖籍两种属性交叉分类,得表11-6的资料。问甲状腺肿类型与祖籍间有否关联?表11-6某地居民按甲状腺肿类型与祖籍两种属性的交叉分类表甲状腺肿类型祖籍弥漫型结节型混合型合计甲48624492乙13326051444丙10031585500合计71957714014363×3表一个样本建立假设,确定检验水准H0:甲状腺肿类型与祖籍无关H1:甲状腺肿类型与祖籍有关联α=0.05计算检验统计量:v=(3-1)×(3-1)=4(x20.05,4=9.49)确定P值,下结论p0.05,可认为甲状腺肿类型与祖籍有关联性。计算列联系数:5790143678372378372322...nr783723114050085577500315719500100140444515774442607194441331404924577492271949248614362222222222.例11-9某省随机抽查了1043位居民的ABO血型与MN血型,资料如表11-7所示。问两种血型之间有无关联性?表11-7某地1043位居民的血型MN血型合计ABO血型MNMNO85100150335A5678120254B981321704002325654AB合计26233544610434×3表一个样本建立假设,确定检验水准H0:两种血型系统之间无关H1:两种血型系统之间有关α=0.05计算检验统计量:v=(4-1)×(3-1)=6(x20.05,6=12.59)确定P值,下结论p0.05,可认为两种血型系统之间有关联性。计算列联系数:15601043925259252522...nr925.25)14654633533510026233585(10432222两变量关联性分析

1 / 43
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功