授课教师:殷菲双变量关联性分析单变量分析方法(univariateanalysis):t检验、u检验、方差分析双变量分析方法(bivariableanalysis):直线回归与相关、秩相关等直线相关直线相关的概念用相关系数描述两变量间直线关系的密切程度和方向相关系数又称Pearson积矩相关系数,样本相关系数用r表示,总体相关系数用表示相关的种类0r1-1r0r=1r=-1r=0r=0相关的种类正相关:0r1完全正相关:r=1负相关:-1r0完全负相关:r=-1零相关:r=0相关系数没有单位,其值为-1≤r≤1相关系数的意义相关密切程度:用r的大小表示,r的绝对值越接近于1,说明相关越密切相关方向:用r的正负号表示P164例13.1某医师测量了15名正常成年人的体重(kg)与CT双肾体积(ml)大小,数据如表13.1所示。据此回答两变量是否有关联?其方向与密切程度如何?直线相关的计算步骤绘制散点图:观察散点是否随一变量的变化而变化,所有散点是否呈直线关系图13.115名正常成年人体重和双肾体积的散点图体重(kg)x双肾体积(ml)y直线相关的计算步骤计算样本相关系数(本例r=0.875)22()()()()xyxxyylxxyyrllxxyy离均差积和相关系数的假设检验检验r是否来自总体相关系数为零的总体。常用t检验:2012rrrrtSrn2nHo:=0,两变量间无直线相关关系H1:≠0两变量间有直线相关关系=0.05查附表3,t界值表,得p0.001,,拒绝Ho,可以认为体重和双肾体积之间有直线相关关系。20.8756.5171(0.875)152t15213相关分析应用中应注意的问题1.进行相关分析前应先绘制散点图散点图能使我们直观地看出两变量间有无线性关系并发现可能的离群点(outlier),当散点有线性趋势时,才能进行相关分析。2.出现离群点时慎用相关3.分层资料不可盲目合并3.分层资料不可盲目合并3.分层资料不可盲目合并3.分层资料不可盲目合并直线回归与直线相关的区别与联系区别1、资料要求不同回归:y服从正态分布,x没有特别的要求相关:x和y服从双变量正态分布(若x数值系人为选定,莫作相关例药物的剂量-反应关系)区别2、应用情况不同回归:反映两变量间的数量关系(b)相关:反映两变量间互依的程度和方向(r)提问方式不同年龄增加,血压发生什么样的变化?年龄和血压之间有关系吗?联系1、方向一致:对同一组数据若同时计算r和b,其正负号是一致的Question:r和b的大小有关系吗?r较大,是否b也较大?联系2、假设检验等价:r和b的假设检验是等价的,即对同一样本,两者的t值相等,检验结果完全一致联系3、用回归解释相关r的平方称为决定系数222xyxyxxxxyyyylllSSrlllSS回总决定系数r2表示回归平方和占总平方和的比例,即应变量y的总变异中由自变量x可以解释的比例。SS回越接近于SS总,则r2越接近于1,说明引入相关变量的效果越好当相关系数较小时,若引入回归,可能由于减少的误差太少而无实际意义example如r=0.20,n=100时,P0.05,r有统计学意义。但r2=0.04,表示SS回在SS总中仅占4%,说明两变量相关分析的实际意义不大。应用直线回归和相关的注意点1、作回归和相关分析之前,先绘制散点图2、据资料的性质正确选用回归和相关3、用回归方程进行预测的时候,应当谨慎。X不能偏离实测范围太远,否则偏差太大。examplex:20~50妇女年龄y:血压x=0时,ˆ81.541.222yxˆ81.54y应用直线回归和相关的注意点4、相关关系不一定是因果关系,也可能是伴随关系如某生春种一植物,不久长出幼苗。恰邻院盖楼,细心观测,苗长楼增。计算发现,苗高与楼高具有相关性。两者是否真有内在联系?例:1875~1920,美国年铁制品产量与英国年出生率相关系数为-0.98因素:社会、经济、技术应用直线回归和相关的注意点5、不能只根据相关系数的绝对值大小来判断相关的密切程度,应首先作假设检验例:r=0.601n=8p=0.10~0.20r=0.401n=42p=0.005~0.01应用直线回归和相关的注意点6、和为零仅说明没有变量间没有直线关系,不能说明变量间没有关系秩相关秩相关适用条件原始数据只能以等级表示总体分布未知不服从双变量正态分布P169例13.4某研究者对15例30~50岁成年男子的舒张压(mmHg)与夜间最低血氧含量分级进行研究,结果见表13.2,试分析两者的关联性。rs的计算将x及y的秩次直接代入直线相关系数的计算公式可得到rs。rs的假设检验当n≤50时,检验ρs是否为零可用查表法(查附表15,rs界值表)。当n50时,按式(13-4)和(13-5)计算检验统计量。分类变量的关联性分析对一组观察对象,分别观察其两种分类变量的表现,归纳成双向交叉排列的统计表,这类统计表用以描述行变量和列变量之间的关系,亦称为列联表(contingencytable)。什么是关联性分析?单一样本,按两种属性分级,故称双向有序列联表分析目的:推断两种属性标志间有无关系关联性分析2×2列联表R×C列联表例13.6为研究青少年在校情况与对艾滋病知晓情况之间的关系,某研究者在某地共调查了384名青少年,并对每名青少年按是否在校和对艾滋病是否知晓两种属性交叉分类,如表13.3所示。试问两变量是否存在关联性?青少年编号是否在校是否知晓1是否2是是3是是4否否5是否......表13.3交叉分类表是否知晓是否在校是否合计是15662218否27139166合计183201384两种方法有无关系-关联性分析两法检验的结果有无关系:两变量互相独立(无关系):两变量互相关联(有关系)α=0.05查附表9,得P0.05,按α=0.05水准拒绝,故可以认为青少年是否在校与对艾滋病是否知晓之间有关联。22()ATT22()()()()()adbcnabcdacbdH0H122115.5080.481115.508384rn上述检验说明有无关联,若需了解两个分类变量的关联程度,需进一步计算列联系数。列联系数取值范围为0~1,数值越接近1,关联性越强。关联性分析2×2列联表R×C列联表例13.7为研究自我效能感与领导行为类型是否有关,某研究者抽样调查了来自某省各三甲医院的238名护士长,并对每个个体按自我效能感和领导行为类型两种属性交叉分类,如表13.5所示。试分析两变量的关联性。表13.5自我效能感与领导行为交叉分类表自我效能感领导行为类型合计pmpMPmPM低67251317122高32123438116合计993747552381.建立检验假设H0:自我效能感与领导行为类型间无关联H1:自我效能感与领导行为类型间有关联=0.052.计算检验统计量=(4-1)(2-1)=322(1)34.213RCAnnn作出统计推断查2界值得P0.005,按=0.05水准拒绝H0,接受H1,可以认为自我效能感与领导行为类型之间有关联。2234.2130.35534.213238rn进一步计算列联系数:作业P416四、综合分析题1、2、3