讲稿5统计推断MBA

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1统计推断概述四川大学华西医院循证医学与临床流行病学中心刘关键一、关于抽样研究总体À总体(population)是根据研究目的确定的同质观察单位的全体,更确切地说,是同质的所有观察单位某种变量值的集合。À总体可分为有限总体与无限总体两大类。有限总体À有限总体(finitepopu-lation)是指确定的时间,空间范围内的有限个观察单位。À例如调查某地1992年正常成年男子的红细胞数,则观察对象是该地1992年的正常成年男子,观察单位是每个男子,变量是红细胞数,变量值是每人测得的红细胞数,该地1992年全部正常成人的红细胞数就构成一个总体。它的同质基础是同一地区、同一年份、同为正常成人。无限总体À无限总体(infinitepopulation)是指确定的时间,空间范围内的观察单位个数是无限的,甚至是假想的。À例如研究贫血患者用某药治疗后的疗效,这里总体的同质基础是同为贫血患者,同用某药治疗,总体包括设想用该药治疗的所有贫血患者的治疗结果,是没有时间和空间范围限制的,因而观察单位数无限。1.为什么要进行抽样研究À对有限总体的研究方法:普查,需花费大量的人力、财力和时间。抽样,节省人力、财力和时间。是常用方法。À对无限总体的研究方法:抽样研究是唯一的研究方法。À由此可见,无论是有限总体还是无限总体,抽样研究是最常用的方法。22.抽样误差À在抽样研究的过程中,由于随机抽样所致的样本与总体间的差异,叫抽样误差。在统计学中,抽样误差的大小常用标准误来衡量。抽样误差越大,标准误越大,用样本估计总体的误差就越大,反之,用样本估计总体的误差就越小。À抽样研究的过程中,抽样误差无法避免,但可以控制,一般来讲,增大样本含量可以减小抽样误差。3.抽样研究的目的À(1)参数估计:以样本的指标去估计总体的参数。方法有二:点估计、区间估计。À(2)假设检验:用(两个或多个)样本提供的信息去推断这些样本所代表的总体间是否具有差别。各种假设检验的方法(如t检验、卡方检验等)都是为了达到这一目的。二、总体参数的估计总体参数的估计方法À用样本指标估计总体参数有两种方法,即点估计和区间估计À点估计:直接使用样本指标值,即总体参数等于样本指标值。这种估计简单、易理解,但是,点估计没有考虑抽样误差的影响,对总体参数的估计误差较大,在医学研究中的应用也较少。À区间估计:是医学研究最常使用的参数估计方法。可信区间的概念一À可信区间的定义:À按预先给定的概率(1-α)去估计未知总体参数(均数或率)的可能范围,这个范围被称为所估计参数的可信区间(confidenceinterval,CI)或置信区间(confidencelevel)。À如95%可信区间,是指该区间有95%的可能性(概率)包含了被估计的参数,有5%的可能性(概率)不包含被估计的参数。可信区间的概念二À若无特殊说明,可信区间的1-α常取双侧的95%。À可信区间是以上、下可信限为界的一个开区间(不包含界值在内)。À可信限(confidencelimit,CL)或置信限是指可信区间的上、下两个点值。3À可信区间的范围愈小,用样本指标估计总体参数的可靠性就愈好;反之,用样本指标估计总体参数的可靠性就愈差。À可信区间范围的大小与计算,主要与标准误有关,标准误越大,可信区间的范围就越大,反之,可信区间的范围就越小。可信区间与标准误可信区间的主要用途一À可信区间主要用于估计总体参数À从样本获取数据资料后,若要得到某个指标的总体值(参数)时,常用可信区间来估计。À均数的可信区间可用来估计总体均数,率的可信区间可用来估计总体率。可信区间的主要用途二À可信区间也可用做假设检验À95%的CI与α为0.05的假设检验等价,99%的CI与α为0.01的假设检验等价。À在均数的比较中,如果某研究两疗效差值均数的95%可信区间不包含0,即两疗效差值95%可信区间的上下限均大于0或均小于0时,有统计学意义(P0.05);而两疗效差值的95%可信区间包含0时,两疗效无差别(P0.05)。均数的可信区间均数的可信区间的计算(1)À正态近似法(小样本)均数的可信区间:其标准误sX-=sn小样本通式:X-±tα,νsX-95%CI:X-±t0.05,νsX-99%CI:X-±t0.01,νsX-均数的可信区间的计算(2)À均数的可信区间(大样本):其标准误sX-=sn大样本通式:X-±uαsX-95%CI:X-±1.96sX-99%CI:X-±2.58sX-4影响均数标准误的因素À通常,均数标准误的大小与样本例数(n)的平方根成反比;与标准差(s,个体变异)的大小成正比。À因此,增大样本含量可以减小均数的抽样误差(标准误),减少总体均数的估计误差。率的可信区间率的可信区间的计算正态近似法:p±uαsp95%CI:p±1.96sp99%CI:p±2.58sp率的标准误:sp=p(1-p)n-1影响率的标准误和CI的因素À在分类资料(计数资料)中,标准误与样本含量(n)的平方根成反比。因此,增大样本含量可以减小抽样误差,减少总体率的估计误差。À此外,计算率的可信区间(CI),通常使用正态近似法,而该法存在估计误差,当发生率在0.5时其估计误差最小,偏离0.5越多,其估计误差越大。因此发生率较小(如<5%)或较大(如>95%)时,不能使用正态近似法,而应使用直接计算法计算其CI。三、假设检验À当研究者通过抽样研究的方法获取了能代表防治措施的两个或多个样本,由于抽样误差的影响,不能由样本数据间的比较直接得出结论,此时需要使用假设检验在考虑抽样误差影响的情况下,对这些样本数据所代表的总体间的差别做出统计推断,即为假设检验,它是一大类统计方法的总称。5(一)基本思想À当研究者用随机抽样的方法获取了两个或多个样本,并且需要利用这些样本数据进行总体间的比较。这时,样本数据间的不同有以下两种原因所致:À一是样本来自同一总体,样本指标间的不同是由于抽样误差所引起;À二是样本分别来自不同的总体,其样本指标间的不同是因为来源的总体不同所致。X1X2μ2μ1μ0X1X2X2X1假设检验的基本思想(以两个均数比较为例)示意图À统计中的假设检验是从假设开始,即假设两个样本均数可能是来源于同一总体μ,然后计算出在此假设下的某个统计量的大小。À若统计量在其分布中的概率较小时(如P≤0.05)我们就拒绝其来源于同一总体的假设,而接受其对立假设,认为两样本分别来自不同的总体μ1和μ2。À若统计量在其分布中的概率较大时(如P>0.05)我们就不能拒绝假设。À由此可见,假设检验方法的本质是一种概率性的反证法。假设检验中的概率À概率是某事件发生的可能性大小,假设检验中的概率(P)在数理统计中解释为,由抽样误差所致样本间如此大的差别的概率。À对于临床医生来说,我们可以将假设检验中概率(P)简单地理解为“假设各样本均数是来源于同一总体的可能性大小”。À当概率(P)较小时,如P≤0.05,假设成立的可能性较小,故拒绝假设;À当概率(P)较大时,如P>0.05,假设成立的可能性不太小,故不拒绝该假设。(二)基本步骤6À建立检验假设有三个内容,即无效假设H0、备择假设H1和检验水准α。À无效假设H0。是根据反证法原理,假设研究者想得到结论的对立事件,研究者若想得到有差别的结论,首先应假设各总体间无差别,即μ1-μ2=0À备择假设H1,是研究者想得到的有差别的结论,即μ1-μ2≠0À确定检验水准α,通常α取0.05。1.建立检验假设À建立假设的三个内容如下:ÀH0:各样本来自同一总体,样本间的差别是由于抽样误差所致如:μ1-μ2=0或μ1=μ2ÀH1:各样本来自不同总体,样本间的差别是总体的不同所致如:μ1-μ2≠0或μ1≠μ2(双侧)Àα=0.05À根据资料的类型、分布特征、科研设计方法等应用条件,选择不同的统计量计算方法。À若不考虑应用条件的使用某个统计量计算方法,所得结论可能会出错。À大多数假设检验的名称都根据统计量的名称来命名的如t、u等检验方法。2.计算统计量À根据某个统计量的值得到该统计量下概率(P)值,如用查表的方法或用计算机直接计算得到P值。À根据概率(P)值的大小得出结论。À假设检验只有两类结论。3.确定概率,下结论假设检验的结论一À若P≤α时,即概率小于我们事先确定好的检验水平概率(如P≤0.05),我们就拒绝其无差别假设H0,而接受H1,认为差别有统计学意义,各样本来自不同总体,样本间的差别是总体的不同所致。假设检验的结论二À若P>α时,其概率大于我们事先确定好的检验水平(如P>0.05),我们就不拒绝其无差别的假设H0,还不能认为各总体间有差别,样本来自同一总体,即差别没有统计学意义。7(三)两类错误第一类错误(Ⅰ型错误)À当假设检验得到P≤α时,做出“拒绝其无差别的假设,可认为各总体间有差别”的结论时,这有可能将事实上没有差别的结果错误地判断为有差别,即这时可能犯第一类错误(Ⅰ型错误,typeⅠerror),其犯错误的概率用α表示,若α取0.05,此时犯Ⅰ型错误的概率小于或等于0.05。第二类错误(Ⅱ型错误)À当假设检验得到P>α时,做出“不拒绝其无差别的假设,还不能认为各总体间有差别”的结论时,这有可能将事实上有差别的结果错误地判为没有差别,即这时可能犯第二类错误(Ⅱ型错误,typeⅡerror),其犯错误的概率用β表示,在通常情况下犯Ⅱ类错误的概率未知。两类错误示意表Ⅱ类错误(β)推断正确(1-β)样本来自不同总体推断正确(1-α)Ⅰ类错误(α)样本来自同一总体不拒绝H0拒绝H0假设检验的结果真实情况两类错误与假设检验结论的关系一À当假设检验得到P≤α时,做出“拒绝其无差别的假设,可认为各总体间有差别”的结论时,这时要犯第一类错误(α)。À此时,若假设检验的P值比0.05越小,犯一类错误的概率就越小,即在这种情况下,其P值越小,其结论的可靠程度就越好。À当假设检验得到P>α时,做出“不拒绝其无差别的假设,还不能认为各总体间有差别”的结论时,这有可能将事实上有差别的结果错误地判为没有差别,这时可能犯第二类错误(β)。À此时,虽然β是个未知数,但假设检验P值越大,犯二类错误的概率就越小。因此,若假设检验的P值比0.05越大,犯二类错误的概率就越小,即在这种情况下,其P值越大,其结论的可靠程度就越好。两类错误与假设检验结论的关系二8À在假设检验的假设中,我们只确定了α的大小,无法确定β的大小,虽然β是个未知数,但是我们知道α与β间有如下关系:À增大α,可以减小β;减小α,可以增大β。À故在实际应用中,若研究者需要得到“没有统计学意义”的结论时,我们常常增大α,如α=0.1或0.2,以减小β。两类错误α、β间的关系α与β的关系示意图αβ(四)注意事项1、双侧检验À建立假设时,通常H1假设为μ1≠μ2,即假设两总体均数不等。这时该假设包含了μ1μ2和μ1μ2两种情况,故称之为双侧检验(two-sidetest)。这是目前统计界最常使用和推荐的假设,双侧检验的假设如下:ÀH0:μ1-μ2=0H1:μ1-μ2≠0α=0.05(双侧)À使用双侧检验时,若检验结果出现P≤α,可认为两总体不相等,其真实情况有可能是μ1μ2;也有可能是μ1μ2;此时无法得出进一步的确切结论。2、单侧检验À建立假设时,H1若为是下列假设之一,即是单侧检验(one-sidetest):À假设一:H0:μ1-μ2=0H1:μ1-μ20α=0.05(单侧)À若该检验结果出现P≤α,可认第1组的均数大于第2组,即可认为μ1μ2À假设二:H0:μ1-μ2=0H1:μ1-μ20α=0.05(单侧)À若该检验结果出现P≤α,可认第2组的均数大于第1组,即可认为μ2μ1À采用单侧检验必须要求H1的另一种情况已被某专业确认不可能出现时才能使用。3、假设检验的结论(1)À假设检验是根据概率(P)的大小得出结论À当P≤α时,我们拒绝其无效假设H0,可认为样本所代表的总体间的差异有统计学意义,进而得出这些总体间有差别的倾向性意见。9“有统计学意义”的含意À在统计中,Significant的本意是“非偶

1 / 10
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功