统计学方法的分类与选择-重点知识

hector1418
1 ℃
2020-04-02

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

统计学方法的分类与选择根据研究设计类型选择分析方法（一）、成组比较的设计在成组比较设计中，若是两组比较需要应用t检验或X2检验。多组比较需应用方差分析、行×列表X2检验或分级的分析方法。（二）、配对（自身实验前后）设计这种类型的设计需要按照配比的t检验，X2检验及配对的病例对照研究方法进行数据分析。（三）、重复测量的设计这类设计方法是在给定一个处理因素后在不同的时间重复测量某一效应变量的改变情况。如欲评价生物制品接种后的免疫学效果，在接种后的2周、4周、6周和8周测定抗体滴度，即为此类设计类型。对于这种设计类型的数据需应用重复测量的方差分析方法进行数据的分析。（四）、多因素设计若在研究设计中有多个自变量，则可根据因变量的性质选择合适的多因素分析方法。如果自变量是数值变量，则可考虑应用多元回归分析方法、协方差分析方法。如果是分类变量，则可选择logistic回归分析方法、判别分析方法及聚类分析方法等。根据变量的类型选择分析方法区别与明确研究的因变量和自变量具有重要的流行病学与生物统计学意义，首先它有助于选择拟研究的变量，对调查表的设计具有指导作用。其次数据分析阶段可以指导数据分析方法的选择及模型的建立。若因变量是分类变量，则常考虑应用分类变量的分析方法，如卡方检验，logistic回归分析等。如果因变量是数值变量，则考虑应用数值变量的分析方法如t检验、方差分析，协方差分析、多元回归等。同时明确自变量与因变量可以建立正确的统计学分析模型。因变量应该放在模型的左侧，自变量则放在模型的右侧。例如欲评价不同治疗方法（口服药物、注射胰岛素及膳食控制）对糖尿病人的治疗效果（血糖水平），在分析时要求调整病人的性别、年龄和病程的影响。对本例的处理需要进行协方差分析，在应用SAS进行分析时，要将血糖水平（因变量）放在模型的左则，而治疗方法或其它协变量（covariate）即性别、年龄和病程放在模型的右侧。又如分析脂蛋白（a）与冠心病发生的关系，则冠心病是否发生为因变量，脂蛋白（a）则为自变量，不可颠倒这种关系。不同变量类型的数据分析方法选择因变量自变量数值变量分类变量有序变量数值变量相关分析，多元回归分析t检验,方差分析，协方差分析，多元回归分析相关分析，多元回归分析分类变量t检验,方差分析，logistic回归分析,判别分析，聚类分析c2检验，logistic回归分析c2检验有序变量方差分析，logistic回归分析,判别分析，聚类分析c2检验，logistic回归分析相关分析，c2检验生存时间生存分析不同研究设计和数据类型的数据分析方法选择研究设计类型变量类型两组比较两组以上比较实验前后比较重复测量两变量间的联系重复测量的方差分析线性回归，Pearson相关系数数值变量t检验方差分析配对t检验分类变量c2检验c2检验配对c2检验列联表相关系数有序变量Mann-Whitney秩和检验Kruskal-Wallis分析Wilcoxon符号秩和检验Spearman相关系数生存时间生存分析数据的分析程序数据的转换1)非正态数据的变量转换多数的统计学分析方法是建立在数据正态分布的基础上的，若数据不符合正态分布，则不能够应用参数检验(parametrictest)的方法，只能应用非参数检验(non-parametrictest)的方法，而非参数的方法不是对原始数据的检验，如秩和检验就是非参数检验方法之一，它是对原始数据的秩次(rank)进行检验，这样可能损失数据信息，降低检验效率在对数值变量进行分析时，需首先根据统计分析方法/统计分析公式的限制性使用条件对数据进行“条件”检验，如正态性检验和方差齐性检验等。很多统计学软件具有方便的正态性检验、方差齐性检验功能如SAS软件等.若经过检验数据不符合使用条件，就需要进行数据的变量变换，变换后符合条件就可以应用参数检验的方法，否则，只有应用非参数检验的方法。数据变量转换的方法很多，可以根据数据的分布特征，选择合适的数据转换方法。常用的方法有对数变换，平方根变换或倒数变换等。2)分类变量转换成哑变量若分类变量是二分类尺度及顺序尺度，则可直接应用其原有的数量化数值，但对于名义尺度因为各类别间没有顺序关系，在进行不同分析（包括多元分析、logistic回归、Cox回归等）时，不能使用原始的计算机录入数值，必经进行变量转换。即将该变量转换成（水平数-1）个哑变量，再将这些新转换的变量放入多因素模型中。t检验的应用条件两组数据的比较1样本量比较小（n50）；2样本来自正态总体；3两样本总体方差齐同；当两样本方差不齐时可以采用t’检验，变量变换，或者秩和检验。u检验两组数据的比较1样本量足够大（n50）2样本来自正态总体3两样本总体方差齐同当两样本方差不齐时可以采用t’检验，变量变换，或者秩和检验。方差分析的应用条件两组以上数据的比较1各样本是相互独立的随机样本；2各样本要来自正态总体；3要求各个样本的总体方差齐同。多个样本均数间的两两比较Newman－Keuls检验，亦称Student－Newman－Keuls（SNK）检验，简称q检验。最小显著性差距(LSD)t检验。协方差分析定量分析中，进行两个样本或者多个样本的均数比较时，不仅需要使用假设检验判断其差异是否具有统计学差异，还应该考虑他们之间是否存在混杂因素（协变量）的影响。若存在协变量，则应该通过协方差分析进行校正。协方差分析是定量变量分析中控制混杂因素的重要手段影响观察指标的其他非研究性因素（混杂因素）在统计分析中又称之为协变量；考虑协变量影响的方差分析即为协方差分析。协方差分析是解决以上问题的分析方法，它将线性回归与方差分析结合起来，检验2个或者多个修正均数之间有无差别的假设检验方法。一般是先用直线回归的方法找出各组因变量与协变量之间的数量关系，求得修假定协变量相等时的修正系数，然后用方差分析比较修正均数间的差别。协方差分析的条件1各个样本来自方差齐同的正态总体2各组的总体直线回归系数相同，且都不为0。协方差分析的判别步骤：1正态性和方差齐性检验；2判断协变量与因变量有无线性关系；3判断各组回归直线是否平行。直线回归与相关的区别与联系区别直线相关直线回归变量地位变量x变量y处于平等的地位，彼此相关关系变量y称为因变量，处在被解释的地位，x称为自变量，用于预测因变量的变化变量性质所涉及的变量x和y都是随机变量，要求两个变量服从双变量正态分布因变量y是随机变量，自变量x可以是随机变量，也可以是非随机的确定变量实际作用主要是描述两个变量之间线性关系的密切程度（相关系数无单位）揭示变量x对变量y的影响大小（回归系数有单位），还可以由回归方程进行预测和控制多元线性回归的基本概念事物间的相互联系往往是多方面的，在很多情况下对应变量y发生影响的自变量往往不止一个。多元线性回归的目的就是用一个多元线性回归方程表示多个自变量和1个应变量间的关系。mmiixbxbxbxbby22110ˆ标准偏回归系数表示其他自变量固定的情况下，xi改变一个单位，y平均改变bi个单位。多元线性回归的应用条件：1.独立性：各观察对象间相互独立。2.线性：自变量与应变量间的关系为线性。3.正态性：自变量取不同值时，应变量的分布为正态。4.方差齐性：自变量取不同值时，应变量的总体方差相等。5.当不符合条件时，可对自变量进行变换。如：23322110)lg(ˆxbxbxbby要比较各个自变量对于应变量的作用大小，不能用偏回归系数，因为各偏回归系数的单位不同。必须把偏回归系数标准化，化成没有单位的标准偏回归系数.消除不同单位的影响后，标准偏回归系数的绝对值越大，该自变量对于应变量的作用越大，但该差别是否有统计意义，也必须经过检验。（2）对各偏回归系数的显著性检验：F检验与t检验1.计算截距和各偏回归系数。2.多元回归方程的显著性检验：（1）整个方程的显著性检验：用方差分析。STEPWISEREGRESSION一．逐步回归分析的基本概念逐步回归分析的目的是建立“最优”回归方程。“最优”回归方程是指包含所有对y有显著作用的自变量，而不包含对y作用不显著的自变量的方程。逐步回归分析的计算方法在供选的自变量Xi中，按其对y的作用大小，由大到小地把自变量逐个引入方程，每引入一个自变量就对它作显著性检验，显著时才引入，而当新的自变量进入方程后,对方程中原有的自变量也要作检验，并把作用最小且退化为不显著的自变量逐个剔出方程。因此，逐步回归的每一步（引入一个变量或剔除一个变量都称为一步）前后都要作显著性检验，以保证每次引入新变量前方程中只包含作用显著的自变量。这样一步步进行下去,直至方程中所含自变量都显著而又没有新的作用显著的自变量可引入方程为止。逐步回归分析在医学研究中的应用及需要注意的几个问题1方程“最优”问题，实际是精选自变量以求得拟和效果最好的多元回归方程。最优子集回归是选择一种使回归方程拟和最好的自变量，而逐步回归则选择对因变量作用有意义的自变量。要根据研究目的选用适合方法。2逐步回归主要在医学中用于病因探索，临床疗效分析及控制等。3线性回归模型要注意正态性，方差齐性和独立性，因变量必须是随机变量等。4入选变量如果明显地与实际问题的专业理论不一致时，首先检查数据是否有异常点，自变量间有无共线性存在，数据输入是否有误等，要结合专业知识作出合理的解释。5逐步回归在对大量因素进行分析时，可以先进行聚类分析，然后进行逐步回归。通常，观察单位取变量值的5～10倍为宜。Logistic回归分析的基本思想回忆：线性回归分析对因变量的要求因变量y连续型服从正态分布胆固醇含量自变量x数值型与Y呈线性关系年龄舒张压医学研究中经常遇到分类型变量，例如：二分类变量：生存与死亡有病与无病有效与无效感染与未感染多分类有序变量：疾病程度（轻度、中度、重度）治愈效果（治愈、显效、好转、无效）多分类无序变量：手术方法（A、B、C）就诊医院（甲、乙、丙、丁）这种回归分析问题不能借助于线性回归模型，因为因变量的假设条件遭到破坏。能否找到一种其他形式的模型y=f(x)来描述分类变量y和x之间依存关系呢？•因为从数学角度看，使得x取任意值而y仅取1和0两个值的的函数不存在。转换为分析y取某个值的概率变量p与x的关系不能直接分析变量y与x的关系Logistic回归模型Logistic回归分析的分类按数据的类型：非条件logistic回归分析（成组数据）条件logistic回归分析（配对病例-对照数据）按因变量取值个数：二值logistic回归分析多值logistic回归分析按自变量个数：一元logistic回归分析多元logistic回归分析Logistic回归分析的数学模型1、一元logistic回归模型令y是1,0变量，x是一个危险因素；p=p(y=1|x)，那么，二值变量y关于变量x的一元logistic回归模型是：其中，α和β是未知参数或待估计的回归系数。该模型描述了y取某个值（这里y=1)的概率p与自变量x之间的关系2、多元logistic回归模型令y是1,0变量，x1,x2,…,xk是k个危险因素；p=p(y=1|x1,x2,…,xk)，那么，变量y关于变量x1,x2,…,xk的k元logistic回归模型是：Logistic回归模型的另外一种形式它给出变量z=logit(p)关于x的线性函数。参数估计的步骤1数据结构设有P个危险因素X1,X2,……Xn及结果分析变量Y，观察例数为n。进行logistic回归时，应将原始资料进行整理，一般格式如下编号因素YX1X2……XP1X11X12……XP1Y12X21X22……XP2Y2………………………………nXn1Xn2Xn3XnPYn2参数的估计Logsitc回归的参数估计常用最大似然估计法。其基本思想是先建立似然函数和对数似然函数，求似然函数或对数似然函数达到极大值时参数的取值，即为参数的最大似然估计值。可求出αβ值。3假设