统计方法的分类与选择变量(资料)类型分析目的统计描述统计推断数值变量-计量资料平均数:均数几何均数中位数变异程度:极差四分位数间距标准差分布:参考值范围总体均数的估计分类变量-计数资料相对数:率构成比相对比总体率的估计有序变量-等级资料相对数:构成比----单变量、一组资料的分析方法选择单变量、不同研究设计类型的数据分析方法选择变量类型研究设计类型两组比较两组以上比较实验前后比较重复测量数值变量t检验方差分析配对t检验重复测量的方差分析分类变量χ2检验χ2检验配对χ2检验有序变量Mann-Whitney秩和检验Kruskal-Wallis秩和检验Wilcoxon符号秩和检验因变量自变量数值变量分类变量有序变量数值变量相关分析:线性等级回归分析:线性非线性协方差分析多元回归分析相关分析:线性等级回归分析:线性分类变量logistic回归分析判别分析,聚类分析c2检验:列联系数logistic回归分析c2检验:列联系数有序变量logistic回归分析判别分析,聚类分析c2检验:列联系数logistic回归分析相关分析:等级c2检验:列联系数两个及以上的变量的数据分析方法选择两组数据的比较:1样本量比较小(n50);2样本来自正态总体;3两样本总体方差齐同;当两样本方差不齐时可以采用t’检验,变量变换,或者秩和检验。T检验的应用条件方差分析的应用条件两组以上数据的比较1各样本是相互独立的随机样本;2各样本要来自正态总体;3要求各个样本的总体方差齐同。多个样本均数间的多重比较Newman-Keuls检验,亦称Student-Newman-Keuls(SNK)检验,简称q检验。最小显著性差距(LSD)t检验。多重比较的意义c2检验主要应用推断两个或多个样本率及构成比之间的差别有无统计学意义。配对设计分类变量的卡方检验。频数分布的拟合优度检验等。分类变量的关联性分析。R(行)×C(列)表(完全随机设计)1、2×2表(2行2列):两个率的比较。2、R×2表(R2):多个率的比较。3、2×C表(C2):两个构成比的比较。4、R×C表(RC均2):多个构成比的比较。R:为组数C:为观察结果的类别数R×C表可以分为双向无序、单向有序、双向有序属性相同与双向有序属性不同4类。1、双向无序R×C表R×C表中两分类变量皆为无序分类变量对于该类资料:A若研究目的为多个样本率(或构成比)比较,可用行×列表资料的卡方检验;B若研究目的为分析两个分类变量间有无关联性及关系的密切程度时,可用行×列表资料的卡方检验及Pearson列联系数进行分析。R×C表的分类及其分析方法的选择12、单向有序,有两种形式:一种是R×C表中的分组变量(如年龄)是有序的,而指标变量(如传染病的类型)是无序,其研究的目的是分析不同年龄组的构成情况,此资料可用卡方检验。另一种是R×C表中的分组变量(如不同疗法)是无序的,而指标变量(如疗效按等级分)是有序。在比较各效应有无差别时宜采用秩和检验法,如作卡方检验只能说明各处理组的效应在构成比有无差别。如下表:组别治愈好转无效合计中药682713108西药33313599中药+西药413129101合计1428977308三种药物治疗百日咳疗效比较R×C表的分类及其分析方法的选择23、双向有序属性相同R×C表中两分类变量皆为有序且为属性相同。实际是2×2配对设计的扩展,即水平数大于等于2的诊断配伍设计,如两种方法同时对同一批样品的测定结果。其目的是分析两种检测方法的一致性,此时宜用一致性检验(也称Kappa检验)。如想分析两法测定结果的概率分布有无差别,宜采用χ2检验。4、双向有序属性不同R×C表中两分类变量皆为有序,但属性不同。A若目的为分析不同年龄组患者疗效之间有无差别,可把它视为单向有序R×C表资料,选用秩和检验;B若研究目的为分析有序分类变量间是否存在相关关系,用卡方检验或等级相关。R×C表的分类及其分析方法的选择3χ2检验的注意事项1、χ2检验要求理论频数不宜太小,一般认为不宜有1/5以上格子理论频数小于5,或一个格子的理论频数小于1。对理论频数太小有三种处理方法:(1)增大样本例数。(2)删除理论数太小的行(列)或与其邻行(列)合并。(3)改用其它方法。2、当多个样本率(或构成比)比较的χ2检验结论为拒绝H0时,只能认为各总体率(或总体构成比)之间总的说来有差别,但不能说它们彼此间都有差别或某两者间有差别。应用条件1、独立性:各观察对象间相互独立。2、线性:自变量与应变量间的关系为线性。3、正态性:自变量取不同值时,应变量的分布为正态。4、方差齐性:自变量取不同值时,应变量的总体方差相等。5、当不符合条件时,可对自变量进行变换。如:分析步骤1、计算截距和各偏回归系数。2、多元回归方程的显著性检验:A、整个方程的显著性检验:用方差分析。B、对各偏回归系数的显著性检验:F检验与t检验。23322110)lg(ˆxbxbxbby多元线性回归的应用条件与分析步骤要比较各个自变量对于应变量的作用大小,不能用偏回归系数,因为各偏回归系数的单位不同。必须把偏回归系数标准化,化成没有单位的标准偏回归系数.消除不同单位的影响后,标准偏回归系数的绝对值越大,该自变量对于应变量的作用越大,但该差别是否有统计意义,也必须经过检验。条件logistic回归分析医学中经常需要作配对病例-对照研究。所谓的配对病例-对照研究指的是在病例-对照研究中,对每一个病例配以性别、年龄或其它条件相似的一个(1:1)或几个(1:M)对照,然后分析比较病例组与对照组以往暴露于致病因素的经历。分析配对病例-对照研究资料的统计分析方法一般采用条件logistic回归分析。条件logistic回归分析的数学模型以及分析原理方法均和非条件logistic回归分析类似。因为参数的估计公式涉及到条件概率理论,所以称为条件logistic回归分析Logistic回归分析和线性回归分析的异同点相同点:都可以校正混杂因子的影响;都可以利用模型来筛选危险因子;都可以用来做预测。不同点:前者对因变量无分布要求,后者要求因变量是正态分布变量;前者要求因变量必须是分类型变量,后者要求因变量必须是连续型数值变量。前者不要求自变量和因变量呈线性关系,后者要求自变量和因变量呈线性关系;前者是分析因变量取某个值的概率与自变量的关系,后者是直接分析因变量与自变量的关系。