随机化及其SAS实现医学统计学教研室柳伟伟讲师实例辨析n在一项基础医学研究中,将15只大鼠分为三组,先对所有大鼠施加某种处理,建立疾病模型,然后采用三种不同的药物治疗n在治疗前、治疗后1周、治疗后2周、治疗后3周分别观测大鼠的三项指标实例辨析n在对治疗前的数据进行分析时,发现三组之间有两项指标的差别有统计学意义n原因何在?怎样做才能尽量避免这种差别的出现?随机原则回顾n随机原则是指采用随机的方式来选取和分配样本,即研究总体中每个个体都具有同等的机会被抽中进入样本,而样本中每个受试对象都有同等的机会被分配到各个试验组中随机分组方法n完全随机化n分层随机化n区组随机化n分层区组随机化n动态随机化完全随机化n直接对受试对象进行随机化分组,常通过掷硬币或随机数字表,或用计算机产生随机数来进行随机化,在事先或者实施过程中不作任何限制和干预或调整n分组后各组受试对象的例数不一定相等查表法的实施步骤n第一步,将受试对象编号,将编号按顺序写成一排n第二步,事先规定分组的规则。分组规则可以有多种方式,但必须事先确定下来,一旦确定不应随意改动查表法的实施步骤n如分两组时,可规定遇到随机数字为偶数时将对应的受试对象分入实验组、遇到随机数字为奇数时将对应的受试对象分入对照组n再如分三组时,可事先规定,凡随机数字除以3余数为0者分入第一组、余数为1者分入第二组、余数为2者分入第三组查表法的实施步骤n第三步,从随机数字表中任意指定的位置开始向后(或向前)抄录随机数字,依次写在各编号之下,注意:舍弃不符合要求的随机数字n第四步,根据抄录的随机数字按事先确定的分组规则分组利用查表法实现完全随机分组n某医生为了研究一种降血脂新药的临床疗效,按统一纳入标准选择120名患者,采用完全随机设计方法将患者等分为四组进行双盲试验。问如何进行分组?利用查表法实现完全随机分组先将120名高血脂患者从1开始到120编号,见第一行从随机数字表中的任一行任一列开始,如第5行第7列开始,依次读取三位数作为一个随机数录于编号下,见第二行编号12345678910…119120随机数260873373204056930160905886958…220634序号241063915311413109108117…1675分组结果甲丁乙甲甲丁甲丁丁丁…甲丙利用查表法实现完全随机分组n然后将全部随机数由小到大编序号,将每个随机数对应的序号记在第三行n规定序号1~30为甲组,31~60为乙组,61~90为丙组,91~120为丁组,见第四行利用SAS实现完全随机分组n现有100只小鼠,编号为1-100号,试将它们完全随机均分入甲、乙两个试验组中去利用SAS实现完全随机分组nprocplan;nfactorsno=100;noutputout=a;nrun;ndatabc;nseta;nmouse=_n_;ifno=50thendo;group='甲';outputb;dropno;end;elsedo;group='乙';outputc;dropno;end;run;利用SAS实现完全随机分组ndatad;nsetbc;nrun;nprocprintdata=d;nrun;表8100只小鼠随机分为两组的结果mousegroupmousegroupmousegroupmousegroupmousegroup2甲44甲84甲19乙61乙4甲45甲85甲20乙63乙8甲47甲87甲21乙64乙9甲49甲89甲23乙66乙11甲50甲91甲24乙67乙12甲52甲93甲26乙68乙14甲53甲94甲28乙70乙15甲54甲95甲32乙71乙22甲59甲96甲35乙73乙25甲60甲98甲36乙75乙27甲62甲1乙40乙78乙29甲65甲3乙41乙79乙30甲69甲5乙43乙83乙31甲72甲6乙46乙86乙33甲74甲7乙48乙88乙34甲76甲10乙51乙90乙37甲77甲13乙55乙92乙38甲80甲16乙56乙97乙39甲81甲17乙57乙99乙42甲82甲18乙58乙100乙上表中mouse代表老鼠编号,group表示试验分组完全随机化的效果是否总是最好n完全随机化的效果是否总是最好?不一定!关键取决于样本含量的大小n若样本含量很大,完全随机化的效果应当是比较理想的;若样本含量比较小,有时完全随机化的结果可能很糟糕n此时,宜采用分层随机化分层随机化n首先对可能影响试验过程和结果的主要混杂因素(如年龄、性别、病情、疾病分期等)进行分层,然后在每一层内进行完全随机化分组,最后分别合并为试验组和对照组分层随机化n分层目的:使某些对结果影响较重的因素在各组中尽可能相等n分层因素选择:根据不同疾病n分层因素的数量和分级:不宜太多,否则组合太多且病人收集有一定困难分层随机化n现有24只小鼠,其中16只雌性,8只雄性n若采用完全随机化方式将他们均分成两组,则有可能某一组中的12只小鼠全是雌性的,另一组中有4只雌性、8只雄性小鼠n当小鼠性别对观测结果有较大影响时,性别这个重要的非实验因素就会严重地影响实验因素两个水平对观测结果效应大小的正确评价分层随机化n此时,宜采用分层随机化n先用完全随机化法将16只雌性小鼠随机均分成两组,实验组和对照组各8只;再用完全随机化法将8只雄性小鼠随机均分成两组,实验组和对照组各4只样本含量估计及其SAS实现医学统计学教研室柳伟伟讲师一、样本含量和检验效能的含义n样本含量(samplesize)也叫样本大小或样本例数,是一项科研工作中,拟进行调查的被调查对象的个体数或拟用于试验研究的动物只数或新药临床试验中拟观察的患者例数一、样本含量和检验效能的含义n总样本量用N表示,各组的样本含量用n表示n若各组的样本含量不相等,则给“n”加上右下标n不仅要关注N的大小,更应关注n的大小一、样本含量和检验效能的含义检验效能也称为把握度,是指当对比组的参数之间确实存在有意义的差别时,假设检验能够发现这种差别的能力或概率01Pr(|)1powerHH拒绝成立Ⅱ型错误概率二、估计样本含量和检验效能的意义n在医学科研工作中,无论抽样调查,临床试验或实验研究,正确确定样本含量都是一项十分重要的内容,也是一个需要科研人员给予认真考虑的问题二、估计样本含量和检验效能的意义n根据假设检验的原理,若样本太小,会使本来存在的差别不能显示出来,难以获得正确的研究结果,结论也缺乏充分的依据n反之,若样本太大,也会增加实际工作中的困难,不必要地浪费人力、物力、财力和时间,此外,由于样本太大,可能投入不足,科研过程的质量控制下降,从而引入不必要的干扰因素,对研究结果造成不良影响二、估计样本含量和检验效能的意义n目前,不管是从期刊杂志上发表的论文,还是从实际科研人员的实验记录等科研档案来看,绝大多数研究工作都没有交代样本含量的确定方法、计算依据及公式,没有进行科学的、有理有据的样本含量估计n当假设检验的结果为“阴性”,即不能拒绝原假设(H0)时,也很少有研究者去估计假设检验的检验效能,进而判断“阴性”结果的可信度如何二、估计样本含量和检验效能的意义n造成这种状况的原因:一是研究者没有认识到样本含量估计与检验效能分析对科学研究的重要性二是研究者不知道如何进行样本含量与检验效能估计三、估计样本含量时应具备的条件n影响样本含量估计的因素:拟开展的研究类型研究中将涉及到的因素的个数及其水平数的多少观测的效应指标的性质必不可少的前提条件三、估计样本含量时应具备的条件n检验水准或显著性水平α:即事先规定本次试验允许犯Ⅰ型(或假阳性)错误的概率α,通常规定α=0.05,同时还应明确是单侧检验还是双侧检验。α定得越小,所需的样本含量越大三、估计样本含量时应具备的条件n检验效能:要求的检验效能越大,所需的样本含量就越大,实际上,检验效能由犯Ⅱ型错误的概率β的大小所决定。在科研设计时,检验效能不宜低于0.75,否则检验的结果很可能反映不出总体的真实差别,出现非真实的阴性结果三、估计样本含量时应具备的条件n样本推断总体的一些信息:在不同的情形下需要提供的信息会有所不同,可以通过专业知识、文献资料或预试验结果获得四、样本含量与检验效能估计的具体情形n估计总体均值与总体率n单组设计均值的检验n配对设计均值与率的检验四、样本含量与检验效能估计的具体情形n成组设计均值与率的差异性检验、等效性检验、非劣效性检验n单因素多水平设计均值与率的检验n两因素析因设计定量资料方差分析样本含量与检验效能估计的SAS实现方式n根据计算公式编制程序:SAS数据步+宏n利用SAS过程估计:POWER过程、GLMPOWER过程(一)估计总体均值时样本含量的估计计算公式若已知:21/2un若未知:21/2tSn标准正态分布分位数总体标准差容许误差t分布分位数样本标准差(一)估计总体均值时样本含量的估计在血吸虫病防治工作中,需要调查血吸虫病人血红蛋白含量,根据以往经验,标准差为30,这次希望误差不超过5(即置信区间上限与下限之差为10),取05.0,在这些条件下,要估计病人的血红蛋白含量,问需调查多少病人?(二)估计总体率时样本含量的估计计算公式当(或P)接近0.5时:)1(22/1PPun当(或P)接近0或1时:21/21sin/(1)unPP当P未知时:22/125.0un容许误差总体率或样本率(二)估计总体率时样本含量的估计拟用抽样调查了解某地小学生蛔虫感染率。假定以往该地小学生蛔虫感染率P50%,要求绝对误差不超过3%,如取05.0,问需调查多少人?(二)估计总体率时样本含量的估计某地区现调查HBsAg阳性率,过去调查的结果为P=10%,本次调查容许误差为1%,取=0.05(双侧),试估计应调查人数。(三)单组、配对设计定量资料统计分析时样本含量估计计算公式单侧:211ttSn双侧:21/21ttSn标准差总体效应差值(三)单组、配对设计定量资料统计分析时样本含量估计用某药治疗矽肺患者后,尿矽排除量平均增加15mg/L,其标准差为25mg/L。已知该药确能使尿矽排除量增加,取05.0(单侧),10.0,问需观察多少患者才能得出服药前后尿矽排除量之间差别有统计学意义的结论?(四)成组设计定量资料统计分析时样本含量估计计算公式两组样本含量相等时单侧:211212Sttnn双侧:212/1212Sttnn标准差两组总体效应差值(四)成组设计定量资料统计分析时样本含量估计两组样本含量不等时,令Tn=Rkn单侧:2222R11TR[](/)/nttSkS双侧:2222R1/21TR[](/)/nttSkS标准差两组总体效应差值(四)成组设计定量资料统计分析时样本含量估计在动物镇咳实验中,比较中药复方Ⅰ与复方Ⅱ使小鼠推迟发生咳嗽的时间,复方Ⅰ与复方Ⅱ的平均数分别为31.67s和44.00s(即33.1267.3100.44s)。设两组标准差相等,且为25s,05.0(双侧),10.0,要得出两组之间的差别有统计学意义的结论,问需要用多少只小鼠?(五)单因素多水平设计定量资料方差分析时样本含量估计计算公式:kiikiikXXkSn12122)1/(//标准差均数(五)单因素多水平设计定量资料方差分析时样本含量估计用3种方法治疗脑卒中抑郁患者,观察其神经功能康复状况。估计治疗后3种方法SSS评分均数分别为11.0、10.0、9.0,标准差分别为3、3、2,如果要得到3组之间的差别有统计学意义的结论,问每组各需要多少例患者?(六)两因素析因设计定量资料方差分析时样本含量估计某医院用中药复方治疗高胆固醇血症,拟采用2×2析因设计方案进行研究。先进行预试验,将12例高胆