医学统计学(6)《中华医学杂志》对来稿统计学处理的有关要求卡方检验(chi-squaretest)•χ2检验是现代统计学的创始人之一,英国人Karl.Pearson于1900年提出的一种具有广泛用途的统计方法。•可用于两个或多个率间的比较,计数资料的关联度分析,拟合优度检验等等。卡方检验基本思想用卡方值的大小来衡量实际频数和理论频数之间的吻合程度。在零假设H0成立的条件下,实际频数与理论频数相差不应该很大,即x2值不应该很大。若实际计算出的x2值较大,说明实际频数和理论频数吻合程度小,相差大,则有理由怀疑H0的真实性,从而拒绝H0,接受H1。x2检验•单个样本构成比的x2检验——拟合优度检验•独立样本四格表的x2检验•行×列的x2检验•配对设计分类资料的x2检验•多维分类资料的x2检验x2检验•单个样本构成比的x2检验——拟合优度检验•独立样本四格表的x2检验•行×列的x2检验•配对设计分类资料的x2检验•多维分类资料的x2检验•在中医药科研中,经常遇到同一个样本中两个或多个构成比比较的问题,在满足卡方检验的要求条件下,可用卡方检验来分析实际频数的比率是否符合理论比率。【例1】为探索高血压患者中医证型构成,调查原发性高血压患者3578例,中医证型构成见表。问原发性高血压患者中医证型内部构成是否相同?AT•X2=392.514•V=5-1=4•P=1-CDF.CHISQ(392.514,4)=0.000SPSS软件操作•第1步:定义变量•第2步:输入原始数据•第3步:定义频数•选择数据→加权个案•例数→加权个案(频数变量)•第4步:x2检验•选择分析→非参数检验→卡方•中医证型→检验变量列表•第5步:结果解读•结果解读:x2=392.514,p=0.000,说明原发性高血压患者中医证型内部构成不相同。注意事项进行拟合优度x2检验,一般要求有足够的样本含量,理论频数不小于5。理论频数小于5时,需要合并计算。x2检验•单个样本构成比的x2检验•独立样本四格表的x2检验•行×列的x2检验•配对设计分类资料的x2检验•多维分类资料的x2检验四格表的卡方检验,也是通过计算代表实际频数A与理论频数T之间的吻合程度的卡方值来进行检验的。理论频数T采用两组的合并情况来计算。【例2】某医院把慢性支气管炎患者376名,随机分为2组,分别用中西医结合法和西医法治疗,结果见表。问两种疗法治疗慢性支气管炎病人的治愈率是否有差别?理论值T的计算345/376(总的治愈率)*276=253.24276-253.24=22.76345/376(总的治愈率)*100=91.76100-91.76=8.24卡方值的计算卡方值的影响因素:•1、格子数•2、实测值与理论值的差距专用公式的推导T11=(a+c)/(a+b+c+d)*(a+b)T12=(b+d)/(a+b+c+d)*(a+b)T21=(a+c)/(a+b+c+d)*(c+d)T22=(b+d)/(a+b+c+d)*(c+d)专用公式的推导SPSS软件操作•第1步:定义变量•第2步:输入原始数据•第3步:定义频数•选择数据→加权个案•频数→加权个案(频数变量)•第4步:x2检验(1)•选择分析→交叉表•交叉表对话框:组别和疗效分别进入行和列输出4种卡方检验结果:1、pearson卡方2、卡方值的校正值3、似然比卡方,一般用于对数线性模型。4、fisher的精确检验5、线性趋势检验输出2种相关系数:1、pearson相关系数2、spearman相关系数列联系数:分析行与列之间的关联程度Kappa:一致性检验风险:计算相对危险度(RR)和比数比(OR)。McNemar:优势性检验。CMH多维卡方检验•第4步:x2检验(2)•选择统计量按钮•在交叉表:统计量对话框:勾上卡方•第4步:x2检验(3)•选择单元格按钮•在交叉表:单元显示对话框:勾上观察值、百分比:行、列•第5步:结果解读(1)•结果解读:中西医组的治愈率为98.2%,西医组的治愈率为74.0%。•第5步:结果解读(2)•结果解读:x2=56.772,p=0.000•两种疗法治疗慢性支气管炎病人的治愈率的差别有统计学意义四格表x2检验结果的选择•1)当n≥40,所有理论值≥5时,用pearson卡方检验。•2)当n≥40,但有理论频数1≤理论值<5时,用连续校正的卡方检验;或者确切概率法。•3)n40或有理论值1,或P≈α时,用确切概率法。卡方检验的校正公式【例3】某中医院比较两药治疗某病的效果,所得结果见表。问甲乙两药疗效有无差别?校正公式SPSS软件操作•第1步:定义变量•第2步:输入原始数据•第3步:定义频数•选择数据→加权个案•频数→加权个案(频数变量)•第4步:x2检验(1)•选择分析→交叉表•交叉表对话框:组别和疗效分别进入行和列•第4步:x2检验(2)•选择统计量按钮•在交叉表:统计量对话框:勾上卡方•第4步:x2检验(3)•选择单元格按钮•在交叉表:单元显示对话框:勾上观察值、期望值、百分比:行•第5步:结果解读(1)•结果解读:甲药组的有效率为92.9%,乙药组的有效率为64.3%。•第5步:结果解读(2)•结果解读:有2个格子的期望值小于5,不符合卡方检验的条件。•第5步:结果解读(3)•结果解读:四格表中有期望值小于5,选连续校正的卡方。x2=3.621,p=0.057?•P(exact)=0.031?四格表x2检验结果的选择•1)当n≥40,所有理论值≥5时,用pearson卡方检验。•2)当n≥40,但有理论频数1≤理论值<5时,用连续校正的卡方检验;或者确切概率法。•3)n40或有理论值1,或P≈α时,用确切概率法。【例4】某医师为研究乙肝免疫球蛋白预防胎儿宫内感染HBV的效果,将33例HBsAg阳性孕妇随机分为预防注射组和非预防组,结果见表。问两组新生儿的HBV总体感染率有无差别?SPSS软件操作•第1步:定义变量•第2步:输入原始数据•第3步:定义频数•选择数据→加权个案•频数→加权个案(频数变量)•第4步:x2检验(1)•选择分析→交叉表•交叉表对话框:组别和感染结果分别进入行和列•第4步:x2检验(2)•选择统计量按钮•在交叉表:统计量对话框:勾上卡方•第4步:x2检验(3)•选择单元格按钮•在交叉表:单元显示对话框:勾上观察值、期望值、百分比:行•第5步:结果解读(1)•结果解读:预防注射组的感染阳性率为4/22,非预防组的感染阳性率为5/11。•第5步:结果解读(2)•结果解读:四格表中有期望值小于5,总例数小于40。•第5步:结果解读(3)•结果解读:选Fisher的精确检验p(exact)=0.121x2检验•单个样本构成比的x2检验•独立样本四格表的x2检验•行×列的x2检验•配对设计分类资料的x2检验•多维分类资料的x2检验行×列卡方检验计算公式•n为总例数;R和C分别为行数和列数;A为第R行、第C列位置上的实际频数;nR为实际频数所在行的行合计;nC为实际频数所在列的列合计。【例5】某中医师将某病患者随机分为三组,分别用新药、传统药物和安慰剂治疗,结果见表。问三种方法治疗该病的有效率是否有差别?AnCnRSPSS软件操作•第1步:定义变量•第2步:输入原始数据•第3步:定义频数•选择数据→加权个案•频数→加权个案(频数变量)•第4步:x2检验(1)•选择分析→交叉表•交叉表对话框:组别和疗效分别进入行和列•第4步:x2检验(2)•选择统计量按钮•在交叉表:统计量对话框:勾上卡方•第4步:x2检验(3)•选择单元格按钮•在交叉表:单元显示对话框:勾上观察值、期望值、百分比:行•第5步:结果解读(1)•结果解读:新药组的有效率为88.9%,传统药物组的有效率为86.7%,安慰剂组的有效率为70.9%。•第5步:结果解读(2)•结果解读:x2=13.238,p=0.001•进一步的两两比较•P0.017才有统计学意义!!【例6】某中医院用三种治疗方法治疗413例糖尿病患者,资料见表。为避免中医不同证型对疗效比较的影响,分析3种疗法治疗的病人按3种中医分型的构成比有无差别?SPSS软件操作•第1步:定义变量•第2步:输入原始数据•第3步:定义频数•选择数据→加权个案•频数→加权个案(频数变量)•第4步:x2检验(1)•选择分析→交叉表•交叉表对话框:组别和中医分型分别进入行和列•第4步:x2检验(2)•选择统计量按钮•在交叉表:统计量对话框:勾上卡方•第4步:x2检验(3)•选择单元格按钮•在交叉表:单元显示对话框:勾上观察值、期望值、百分比:行•第5步:结果解读(1)•结果解读:各组的中医分型构成比。•第5步:结果解读(2)•结果解读:x2=4.020,p=0.403【例7】某医院肝胆外科在手术中,观察了222例胆结石患者,其发病部位与结石类型的资料见表,分析其发病部位与结石类型间有无关系?行变量和列变量均为无序分类变量。可分析行、列两变量之间有无关联,关联的密切程度。可进行多个样本率或构成比的比较。关联性分析列联系数的意义•|rp|0.4,关联程度低•0.4≤|rp|0.7,关联程度中等•|rp|≥0.7,关联程度高SPSS软件操作•第1步:定义变量•第2步:输入原始数据•第3步:定义频数•选择数据→加权个案•频数→加权个案(频数变量)•第4步:x2检验(1)•选择分析→交叉表•交叉表对话框:结石部位和结石类型分别进入行和列•第4步:x2检验(2)•选择统计量按钮•在交叉表:统计量对话框:勾上卡方和相关系数•第4步:x2检验(3)•选择单元格按钮•在交叉表:单元显示对话框:勾上观察值、百分比:行、列•第5步:结果解读(1)•结果解读:行与列均为无序变量,行、列百分比均有各自专业意义。•第5步:结果解读(2)•结果解读:x2=64.059,p=0.000•第5步:结果解读(3)•结果解读:rp=0.473,p=0.000•两者有关联,但关联度不高。行×列表卡方检验注意事项•同四格表资料一样,R×C表的卡方分布是建立在大样本的假定上的,要求总例数不可过少,不能有1/5以上的格子理论频数小于5,且不能有一个格子的理论频数小于1。•如果出现上述情况,可以考虑:增大样本量;根据专业知识合理地合并相邻的组别;删除理论数太小的行列;改用其它方法分析,例如确切概率法或似然比卡方检验。•当多个样本率(或构成比)作卡方检验,结论为拒绝零假设时,只能认为各总体率(或总体构成比)之间总的有差别,不能说明两两之间有差别;两组间的比较需进一步做多个样本率或构成比的两两比较,即多重比较。行×列表卡方检验注意事项行×列表卡方检验注意事项•R×C表可以分为双向无序、单向有序、双向有序属性相同和双向有序属性不同等4类。•通常情况下只有双向无序的资料(例如多个样本率的比较、多个样本构成比的比较)可以使用R×C列联表卡方检验。•右上表格使用卡方检验分析不同疗法间疗效是否有别,右下表格分析不同的血型分类结果是否有关联(不同的血型分类是否相互独立);它们都属于双向无序的列联表,都可使用卡方检验分析疗法疗效合计有效率(%)有效无效物理疗法199720696.60药物治疗1641818290.11外用膏药1182614481.94合计4815153290.41ABO血型MN血型合计MNMNO4314909021823A3884108001598B4955879502032AB13717932348合计1451166626845801行×列表卡方检验注意事项•单向有序R×C表有两种形式。一种是表中的分组变量(如年龄)是有序的,而指标变量(如传染病的类型)是无序的,其研究目的通常是分析不同年龄组各种传染病的构成情况,可用行列表资料的χ2检验进行分析;而如果指标变量为二分类,如右上表,想分析是否随工龄增加患病率也增加可以考虑线性趋势检验;另一种情况是表中的分组变量(如疗法)为无序的,而指标变量(如疗效按等级分组)是有序的,如右下表,其研究目的为比较不同疗法的疗效,宜用秩和检验进行分析。药物种