常用基本统计分析方法-统计分析培训项目汪涛复旦大学公共卫生学院卫生统计教研室taowang@shmu.edu.cn二项分布资料的统计分析二项分布BinomialDistribution二分类变量:有且只有两种结果的变量,如性别、死亡生存、复发未复发,一般用0和1表示其结果Bernouli试验:具有两值结果的一次试验。条件:1、互斥的有且只有两种结果;2、独立性;3、每次关心结果的发生概率不变。二项分布:进行的N次Bernouli试验中,所关心结果按不变概率发生0、1、2、…、N-1、N次的概率分布练习:4张牌里有一张A,放回抽样抽5次,抽到0,1,2,3,4张A的概率是多少?至少抽到2张A的概率?!!!,1XNXNXNXNXPXNX二项分布的集中趋势和离散趋势二项分布的均数–样本计数:X0=np–样本率:p二项分布的方差–样本计数:Var(X)=np(1-p)–样本率:Var(p)=p(1-p)/n二项分布近似正态分布理论上–当N和N(1-)均大于5时,或同样的,当X0和N-X0均大于5时,样本计数近似服从均数为N,方差为N(1-)的正态分布,样本率近似服从均数为,方差为(1-)/N的正态分布。实际上–当Np和N(1-p)均大于5时,或同样的,当X0和N-X0均大于5时,样本计数近似服从均数为Np,方差为Np(1-p)的正态分布,样本率近似服从均数为p,方差为p(1-p)/N的正态分布。二项分布N人中B型血人数X的概率分布10人中B型血人数X的概率分布图100人中B型血人数X的概率分布图00.10.20.30.40.501234567890.00E+002.00E-024.00E-026.00E-028.00E-021.00E-011.20E-011.40E-011.60E-010246810121416180.080.08举例:二项分布近似正态分布示意图总体百分构成或总体率的统计推断点估计–p百分构成或率:p=X0/N–常规疗法治疗流行性出血热病人50例,死亡8例,病死率为16%区间估计–查表法(基于二项分布的确切概率)–正态近似法演习:随机抽查某乡村民100人,发现感染血吸虫者21人,该乡血吸虫感染率?利用可信区间推断样本是否来自于一已知总体–查表法–正态近似法演习:已知某地区血吸虫感染率为15%,现随机抽查某乡村民100人,发现感染血吸虫者21人,问该乡血吸虫感染率是否高于一般?总体百分构成或总体率的统计推断利用假设检验推断样本(样本率为p)是否来自于一已知总体(总体率为0)–基本步骤1、建立无效假设和备择假设H0:=0;H1:02、确定检验水准=0.053、在无效假设的前提下直接计算概率或利用正态近似法计算检验统计量后找到p值a、确切概率法b、正态近似法4、根据概率或p值作出推断演习:已知某地区血吸虫感染率为15%,现随机抽查某乡村民100人,发现感染血吸虫者21人,问该乡血吸虫感染率是否高于一般?两个样本百分构成或两个样本率比较的统计分析两个率比较的目的是其所代表的总体率相同,即:1=2或1-2=0(无效假设)两个样本率之差的均数和方差–均数:p1-p2–方差:S2(p1-p2)=p(1-p)(1/n1+1/n2),p=(X1+X2)/(n1+n2)利用可信区间利用假设检验–正态近似法–2检验法演习:随机抽查A乡村民100人,发现感染血吸虫者21人,随机抽查B乡村民100人,发现感染血吸虫者15人,问AB两乡血吸虫感染率是否相同?Poisson分布资料的统计分析Poisson分布单位时间、面积、空间内所关心事件发生数的概率分布二项分布数据当N很大X0很小(比例很低)时X的概率分布例:沪闵高架1天中发生的交通事故数(注:交通事故发生的时间可以短至1秒)。一个参数(对于样本X0)。Notation:X~P()。练习:长期统计数据显示:沪闵高架一天发生交通事故5起,问今天发生0,1,2,3,4,5起交通事故的概率?最多(至少)发生3起的概率?eXXPX!Poisson分布的性质及其集中趋势和离散趋势Poisson分布资料的性质–平稳性:样本计数大小只与观察单位的大小有关–独立性:各所关心事件的发生与否互不相关–普通性:所关心事件离散发生,无聚集性Poisson分布的均数–样本计数:X0Poisson分布的方差–样本计数:X0Poisson分布的单位问题及正态近似虽然观察单位不是Poisson分布的参数,但Poisson分布资料的统计分析一定要注意单位的转换–Poisson分布资料的可加性–观察单位的不可扩展性但可缩减性:大观察单位可转换为小观察单位但反之不可Poisson分布的正态近似–当(样本为X0)大于50时,样本计数X近似服从均数和方差均为(样本为X0)的正态分布。–当(样本为X0)大于50时,如将大观察单位缩减为1/n的小观察单位,转换后的样本计数X’服从均数为/n(样本为X0/n),方差为/n2(样本为X0/n2)的正态分布Poisson分布资料总体计数的统计推断点估计–X0–沪闵高架某天发生交通事故6起区间估计–查表法(基于Poisson分布的确切概率)–正态近似法演习:沪闵高架上个月发生交通事故60起,沪闵高架一个月发生交通事故数?利用可信区间推断样本是否来自于一已知总体–查表法–正态近似法演习:长期观察可知沪闵高架一个月发生交通事故50起,上个月发生60起,问上个月交通事故发生数是否多于往常?Poisson分布资料总体计数的统计推断利用假设检验推断样本(样本计数为X0)是否来自于一已知总体(总体计数为)–基本步骤1、建立无效假设和备择假设H0:0=;H1:02、确定检验水准=0.053、在无效假设的前提下直接计算概率或利用正态近似法计算检验统计量后找到p值a、确切概率法b、正态近似法4、根据概率或p值作出推断演习:长期观察可知沪闵高架一个月发生交通事故50起,上个月发生60起,问上个月交通事故发生数是否多于往常?观察单位相同时两个样本计数比较的统计分析两个样本计数比较的目的是其所代表的总体计数相同,即:1=2或1-2=0(无效假设)两个样本计数之差的均数和方差–均数:X1-X2–方差:S2(X1-X2)=X1+X2利用可信区间(两个样本计数均大于20即可)利用假设检验–正态近似法演习:沪闵高架一周发生交通事故30起,南北高架一周发生交通事故40起,问两条高架一周发生交通事故数是否相同?观察单位不同时两个样本计数比较的统计分析观察单位不同时,需要先缩减成为观察单位相同的两个样本计数,如果第一个样本的缩减倍率为1/n1,第二个样本的缩减倍率为1/n2,则缩减后的第一个样本计数X1’=X1/n1,第二个样本计数X2’=X2/n2,这时比较的目的是缩减后的样本所代表的总体计数相同,即:1’=2’或1’-2’=0(无效假设)缩减后的两个样本计数之差的均数和方差–均数:X1’-X2’–方差:S2(X1’-X2’)=X1/n12+X2/n22利用可信区间(两个样本计数均大于20即可)利用假设检验–正态近似法演习:沪闵高架20周发生交通事故300起,南北高架10周发生交通事故200起,问两条高架一周发生交通事故数是否相同?分类数据的组间比较-2检验分类数据的表现形式频数表及交叉频数表cross-tabulation所关心事件发生百分构成或发生率的组间比较四格表-二分类数据的两组间比较行列表(RC表、列联表)分类水平的有序还是无序(对于水平数3的分类变量有意义)近视眼非近视眼合计男abn1+女cdn2+合计n+1n+2n水平1水平C合计组1n11n1Cn1+nij组RnR1nRCnR+合计n+1n+Cn2分布一个标准正态变量X的平方服从自由度为1的2分布k标准正态变量X1,X2,…,Xk的平方和服从自由度为k的2分布G(G2)组间Q(Q2)分类水平百分构成或率的比较,在组间总体率或总体百分构成相同的无效假设前提下:21122~QGEEOX成组设计两样本率的比较当G=2,Q=2时(四格表资料),在两组所关心事件发生率相同的无效假设前提下:(无效假设前提下)理论频数(如第一个格子)的计算:E(a)=(a+b)(a+c)/N2122~EEOXColumn1Column2TotalRow1aba+bRow2cdc+dTotala+cb+dN成组设计两样本率的比较假设检验的步骤–建立无效假设和备择假设–确立检验水准–计算检验统计量–作出统计推断观测频数O理论频数EO-E(O-E)2/Ea=69E(a)=57.6611.342.230b=37E(b)=48.34-11.342.660c=30E(c)=41.34-11.343.111d=46E(d)=34.6611.343.710Total=1821820X2=11.711存活死亡合计单纯6937106联合304676合计9983182四格表资料2检验的应用条件四格表资料2检验是利用连续型的2分布应用于分类资料,当样本含量较小时,不能直接应用–当N40且理论频数O均5时,可直接应用;–当N40但有理论频数1O5时,需进行连续性校正(称Yates校正)–当N40,或有理论频数O1时,只能用Fisher确切概率法直接计算概率注意:无论样本大小,均可用Fisher确切概率法进行假设检验2122~5.0EEOXYates配对设计两样本率的比较配对设计:针对可能影响研究结果的因素将研究对象配对后,将每个对子的研究对象随机分配至不同处理组,如同窝别小鼠、同性别病人、同一人的左右手。数据结构-配对四格表当b+c40时,YesNo合计Yesabn1+Nocdn2+合计n+1n+2nB法+B法+合计A法+563591A法-212849合计77631402122~cbcbX行列表的分析生存死亡合计组1abn1+组2cdn2+合计n+1n+2n水平1水平Q合计组1n11n1Cn1+nij组GnG1nGQnQ+合计n+1n+Qn行列表又称RC表、列联表分析前要考虑的问题:1.水平数2.水平之间是否有序3.要回答问题的性质变量1的水平数变量2的水平数22表(四格表)2C表C无序2C表C有序RC表双向无序RC表单向有序RC表双向有序成组设计多个样本率或百分构成的比较检验统计量的计算方法相同多组间所关心事件发生率的比较–假设不同(与四格表资料的2检验相比):H0:各组所关心事件的发生率相同;H1:各组所关心事件的发生率不全相同两组间观察指标各水平百分构成的比较–假设H0:两组间观察指标各水平的百分构成相同;H1:两组间观察指标各水平的百分构成不同2检验的适用条件理论频数:80%的格子5和100%的格子1。21122~QGEEOX行列表的关联性分析对于双向无序行列表–检验统计量的计算方法相同–假设不同(与前相比):H0:行变量与列变量间无关联性;H1:行变量与列变量间有关联性对于单向有序行列表–行或列平均分差异检验或等级资料的秩和检验对于双向有序行列表–等级相关分析21122~QGEEOX非参数统计分析方法-秩和检验法t检验、方差分析的应用条件要求数据服从正态分布,两样本或多个样本比较时还要求方差齐性。当不满足上述条件时,–转换数据-对数转换法、平方根转换法、反正弦转换法等使转换后数据满足正态性和方差齐性–秩和检验法秩和检验用于计量/分类等级资料统计推断的一组方法非参数方法-不要求数据服从正态甚至是任何分布(不用考虑分布中的均数、标准差等参数)在两组或多组比较时,无需考虑方差是否齐性相对