卫生统计学第八版第二章 数据关联的探索

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

卫生统计学张菊英四川大学王锡玲复旦大学第二章数据关联的探索目录第一节:数据的关联第二节:散点图第三节:相关第四节:回归现象第五节:相关与回归的陷阱01020304050607第六节:分类变量的相关第七节:关联与因果重点难点※散点图的应用※正确描述不同类型数据的相关关系※直线回归的正确应用※回归方程的建立、解释与评价※关联和因果的判断第一节数据的关联1.在研究学习努力程度与学习成绩的关联时,这里涉及的两个变量分别为学习努力程度和学习成绩,我们需要考虑几个问题:(1)学习努力程度与学习成绩是否存在关联,是什么关联方向,关联强度多大。(2)努力学习能在多大程度上提高学习成绩。(3)两者的关联可能受到其他一些因素的影响或干扰,比如学校的教学质量。第一节数据的关联2.统计学上定量描述两变量的关联时需考虑:(1)两变量是否真的存在关联。(2)两变量的关联方向和关联强度。(3)两变量间的数量依存关系。(4)两变量的关联关系中是否受到其他因素的影响和干扰。第一节数据的关联第二节散点图1.制作散点图利用平面坐标显示两个定量变量之间的关系,其中一个变量对应横轴,另一个变量对应纵轴,根据每个观测单位的两个变量值可确定该点的坐标。例1脱氧雪腐镰刀菌烯醇(deoxynivalenol,DON)是粮食中常见的一类污染性真菌毒素。为了探索粮食中DON含量与患者骨关节炎得分(osteoarthritispoints,OAP)的关系,在主食面粉和大米的地区测量患者骨关节炎得分,并测量主食样品中DON含量(μg/g),数据见下表,绘制散点图。(一)图的解释第二节散点图(一)图的解释第二节散点图38名大骨节病患者OAP(分)与粮食中DON含量(μg/g)患者编号DON含量OAP患者编号DON含量OAP患者编号DON含量OAP10.0014.1514187.897.2027289.5411.1820.0011.131574.789.2728306.3119.1030.007.251674.6714.1029327.2311.1540.005.191786.099.2630358.3211.1350.004.151875.892.2031389.2219.1260.003.2919116.335.2732419.3520.0570.002.2620128.585.2633426.8521.3380.000.0121178.429.1934426.9019.18928.763.2722177.3813.2435458.0417.091048.543.3423204.6316.1536468.3420.011157.944.2824215.9914.1637577.5224.241269.187.2025206.900.0338588.9519.0613225.4114.1626247.295.17———(一)图的解释第二节散点图患者OAP和粮食中DON含量的散点图2.评价散点图(1)观察图的总体趋势和明显偏离该趋势的观测单位。(2)通过散点图的总体趋势来呈现关联的形式、方向和密切程度。(一)图的解释第二节散点图第二节散点图(一)图的解释3.散点图解释(1)散点呈现线性趋势。(2)两变量同时增大或减小,即呈正相关。患者OAP和粮食中DON含量带直线的散点图第三节相关(一)直线相关系数第三节相关。大骨节病中OAP和DON含量的相关系数的计算如下:(一)直线相关系数第三节相关(一)直线相关系数第三节相关(一)直线相关系数第三节相关不同r值的线性关系示意图(一)直线相关系数第三节相关(二)秩相关系数第三节相关例2缺铁性贫血是儿童常见营养性疾病之一,其高发在6个月至2岁。现研究农村地区贫血状况,关注某村21例6个月~1.5岁患儿的血红蛋白含量与贫血体征的关系,其中贫血体征分为:阴性(-)、出现(+)、中度(++)、重度(+++),具体数据见下表,现对二者做相关分析。(二)秩相关系数第三节相关患儿编号血红蛋白含量x秩次p贫血体征y秩次q患儿编号血红蛋白含量x秩次p贫血体征y秩次q(1)(2)(3)(4)(5)(1)(2)(3)(4)(5)1501+++20.512859.5++16.52583++16.513665+11.53614+11.51410315-54738-515522+++20.558811++16.5169313-569112++16.517676+11.5711116-51811817-5812318-519859.5++16.5913520-52012919-51013821-521727+11.5119614++16.5合计―231―231贫血患儿的血红蛋白含量(g/L)和贫血体征(二)秩相关系数第三节相关最后,需要特别注意的是,相关不区分解释变量和反应变量。第四节回归现象(一)回归直线的拟合第四节回归现象(一)回归直线的拟合第四节回归现象(一)回归直线的拟合第四节回归现象例2续已知例2数据中38个对象骨关节炎得分OAP(y)和粮食中DON含量(x)的均数和标准差及两变量之间的相关系数,通过最小二乘法得到的回归直线的斜率为(一)回归直线的拟合第四节回归现象16.70080.78630.0297((μg/g))177.4385yxsbrs分/截距01 10.60050.0297195.82214.7846()bybx分最后得到回归直线的方程为4.78460.0297ˆxy3.注意事项(1)理清相关系数和斜率之间的关系,从计算公式、数量关系和实际意义等方面。(2)回归中需要明确区分反应变量和解释变量。(一)回归直线的拟合第四节回归现象(二)回归方程的解释和残差第四节回归现象4.78460.0297ˆxy(二)回归方程的解释和残差第四节回归现象图所示是书中例2-1和例2-4数据回归分析后的散点图,可见左图数据点无规律散布于0水平线周围,说明拟合效果尚可,而右图散点呈现U型散布,说明拟合效果不佳。(二)回归方程的解释和残差第四节回归现象-15-10-50510150.00200.00400.00600.00800.00OAP分值残差DON含量(ug/g)-0.1-0.0500.050.10.150.20100200300400500中心线上氰化物平均浓度残差距污染源的距离(m)例2-1和例2-4散点图3.注意事项(1)最小二乘法回归直线的斜率和截距取决于测量值的单位,不能仅凭它们的大小判断其影响大小。(2)用回归直线进行预测时,需注意回归直线概括了整体趋势,给出的预测值也是对整体趋势的一个预测,并不一定完全准确。(二)回归方程的解释和残差第四节回归现象(三)决定系数与相关第四节回归现象第五节相关与回归的陷阱(一)离群点与强影响点第五节相关与回归的陷阱(二)观测值范围第五节相关与回归的陷阱有些时候通过散点图,我们发现两变量间存在某种趋势,但是这种趋势不是线性的。这时可以采用数据转换将非线性数据转换后得到线性关联。(三)非线性关联第五节相关与回归的陷阱例3某环境检测部门测得某地距污染源的距离和中心线上大气中氰化物平均浓度(在不同时点测量各点的氰化物浓度并计算各点平均值),数据如表所示。排放源下风向中心线上的平均浓度随距离的增大而减小,最高值在中心线50米附近。用恰当的回归方程反映中心线上氰化物平均浓度随距污染源的距离变化而变化的关系。(三)非线性关联第五节相关与回归的陷阱点编号距污染源距离氰化物平均浓度点编号距污染源距离氰化物平均浓度1500.681121880.2542630.559132000.1773750.489142130.1634880.472152250.13351000.453162500.11261130.443172750.12071250.352183000.09781380.301193250.08891500.269203500.057101630.258213750.043111750.231224000.033某地距污染源的距离(m)和中心线上大气氰化物平均浓度(mg/m3)数据(三)非线性关联第五节相关与回归的陷阱中心线上大气氰化物平均浓度与距污染源距离的散点图(A)和残差图(B)(三)非线性关联第五节相关与回归的陷阱在图(A)中我们可以观察到随距污染源距离增加,中心线上的大气氰化物平均浓度的改变速度越来越小,图(B)为相应的残差图,其结构所描述的是简单直线关系的残差形态,图(B)整体上呈曲线并表现出一定的规律,所以判断直线回归不适合此据。这里将原始值进行对数转换(logtransformation)后,替代原始值进行分析,如下图。中心线上大气氰化物平均浓度与距污染源距离对数值的关系探索两变量间的关联性时,单独分析发现存在关联或无关联,但以变量的某种属性进行分层分析即引入第三变量分层时,再分析原来两个变量的关系,原有的关联会在某些层内发生某些变化甚至方向相反,这个第三变量就是潜在影响变量。(四)潜在影响变量第五节相关与回归的陷阱例2续根据大骨节病发生情况将地区分为:东部(开始监测时病情很平稳,在17年的监测过程中没有大的变化),中部(开始监测时病情较严重而活跃,但在监测过程中持续下降,其间无明显反弹)和西部病区(甘肃、陕西、青海和西藏地区,其特征为病情严重而活跃),进一步可探讨东中西三个地区的粮食中DON含量的关系(数据见下表),增加区域信息后的数据如下:(四)潜在影响变量第五节相关与回归的陷阱(四)潜在影响变量第五节相关与回归的陷阱患者编号地区DON含量OAP患者编号地区DON含量OAP患者编号地区DON含量OAP1东0.0014.1515中74.789.2726西247.295.172东0.0011.1316中74.6714.1027西289.5411.183东0.007.2517中86.099.2628西306.3119.104东0.005.1918中75.892.2029西327.2311.155东0.004.1519中116.335.2730西358.3211.136东0.003.2920中128.585.2631西389.2219.127东0.002.2621中178.429.1932西419.3520.058东0.000.0122中177.3813.2433西426.8521.339东28.763.2723中204.6316.1534西426.9019.1810东48.543.3424中215.9914.1635西458.0417.0911东57.944.2825中206.900.0336西468.3420.0112东69.187.2037西577.5224.2413东225.4114.1638西588.9519.0614东187.897.2038名大骨节病患者OAP(分)与粮食中DON含量(μg/g)由图看出中部地区和西部地区总趋势为上升趋势,但是东部地区的关联则不明显,且观察点集中在OAP和粮食中DON含量都较低的区域。(四)潜在影响变量第五节相关与回归的陷阱不同地区患者OAP和粮食中DON含量的散点图平均数的相关潜在影响变量基于大量个体平均值的相关强度通常要高于基于相同变量的个体数据之间的相关强度。因此,在进行分析时应谨慎对待,以免导致结果偏差。(五)平均数的相关第五节相关与回归的陷阱第六节分类变量的相关例4为了解某市2岁~6岁儿童维生素D的营养状况,对该市3582名2岁~6岁儿童血清25(OH)-D水平进行检测,具体数据见交叉表。适用于两变量均为分类变量时。(一)交叉表的制作第六节分类变量的相关是否缺乏维生素D男女合计是342552894否138013082688合计172218603582某市不同性别2~6岁儿童维生素D的营养状况1.条件分布在设定一个变量取值的条件下,计算另一个变量取值的分布,所得到的分布就是条件分布(conditionaldistribution)。(二)条件分布与关联第六节分类变量的相关男童中维生素D缺乏情况的条件分布是否比例0.1986(342/1

1 / 62
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功