一、不定项选择1、下列哪些资料适用于生存分析(1、2、3、4)1两组生存率的比较2白血病术后的两组复发情况3两组心脏病术后发病间隔4乳腺癌随访资料2、定群研究,y为连续性变量,要建预测自变量为定量的模型,可选择(1、4)1多元回归2logistic回归3cox模型4协方差3结局变量y为连续变量,两组在各种外部影响条件下疗效或影响因素选择(1、4)1多元回归2logistic回归3cox模型4协方差4结局为二分类或等级资料,确定联系大小应选择(2)1多元回归2logistic回归3cox模型4协方差5logistic回归β=-1.2,且该变量为危险因素,计算or值(E1.2)Y=0(冠心病)1(非冠心病)x=0(非高血压)1(高血压)二、填空:哪个是条件logistic回归,哪个是非条件logistic回归1配对设计____条件________________21:m配比设计____条件_________________3医院基础成组________非条件_____________4社区基础成组非条件三、简答:1、ANOVA和GLM的区别。表1ANOVA和GLM过程步的区别ANOVAGLM自变量定性定性/定量应用方差分析方差分析协方差分析回归分析偏相关分析重复测量方差分析……资料类型平衡实验设计/不平衡的完全随机设计平衡实验设计/不平衡实验设计运行速度快较慢2、医院的住院病例作为研究对象,研究者将居住底气作为一个影响发病的因素进行探讨,居住地按全国六大行政区划分,即东北、西北、西南、华北、华中和华南。为了比较不同地区之间发病的OR值,该研究者将调查获得的的有关居住地区按定性资料进行指标数量化。他将上述地区一次赋值为1,2,3,4,5,6后进行分析。请问他的这一作法是否正确?无论你认为正确与否,都请讲出理由,并写出你采用的定性资料进行指标数量化设计结果。答:(引入亚(哑)变量的目的在于区分某个变量的不同属性。当自变量为属性变量,特别是不同属性之间无等级高低之分,为说明不同属性对因变量的影响大小,常需引入亚(哑)变量。)有时自变量(如年龄)虽然是连续变量,但按其每改变一个单位(一岁),来估计其对因变量的影响很微弱,如将其划分成大小不同的几种属性,并设立亚变量,则可看出不同属性对因变量的影响大小。这种指标分解方法的优点是有助于分清究竟哪种属性对所研究疾病危险性的作用较大,也便于研究因素间的交互作用。(1)不正确。理由:当自变量为属性变量,特别是不同属性之间无等级高低之分,为说明不同属性对因变量的影响大小,常需引入亚变量。地区变量属于无序变量,如果按照研究者1-6的按序赋值方法,则最后所得到的地区与鼻咽CA发病之间的联系强度将人为的划分为6个由低到高的等级,这与实际是不符的。(2)方法是以华南为对照,设5个哑变量:d1-d5,d1d2d3d4d5东北10000西北01000西南00100华北00010华中00001华南00000方法二程序为:Ifd=”东北”thend1=1;Elsed1=0;Ifd=”西北”thend2=1;Elsed2=0;Ifd=”西南”thend3=1;Elsed3=0;Ifd=”华北”thend4=1;Elsed4=0;Ifd=”华中”thend5=1;Elsed5=0;3、多元Cox回归分析时,方程的自变量X都可以是什么类型的资料?如何解释不同类型资料的结果?用什么程序步?答:PHREG(proportionalharzardregression,比例风险回归)过程基于Cox比例危险模型对生存数据进行回归分析,该模型以生存结局和生存时间为因变量,可同时分析众多因素对生存期的影响,分析带有删失生存时间的资料,且不要求资料服从特定的分布类型。模型中的自变量可以是连续性、分类变量、时间依存的自变量。当βj0时,RRj1,说明Xj增加时,风险函数增加,即Xj为危险因素;当βj0时,RRj1,说明Xj增加时,风险函数下降,即Xj为保护因素;当βj=0时,RRj=1,说明Xj增加时,风险函数不变,即Xj为无关因素。X的变量类型:•连续性变量:自变量相差一个单位的危险比•分类变量:不同类型变量与参照组间相比较的危险比•等级变量:相邻等级变量间的危险比•COX回归语法格式:PROCPRREGDATA=[选项];•MODEL生存时间变量*截尾指示变量(数值)=自变量名/[选项];•STRATA分组变量名列;•FREQ变量名列;•BY变量名列;•run;4在一项有关乙型肝炎疫苗不同剂量加强免疫实验的效果评价中,结局指标是乙肝病毒表面抗体(anti-HBs)血清学测量SN值,影响免疫效果的潜在混杂因素有加免时的年龄、家中是否有乙肝表面抗原(HBsAg)携带者、初次免疫的疫苗剂量(三针10微克或三针20微克),研究设计者将受试对象分为两组:1微克疫苗加免组和5微克疫苗加免组。请问在比较两种剂量疫苗加免效果的血清学指标SN值时,用什么统计分析方法来控制混杂偏倚可能产生的影响?SAS软件中可选用什么分析模块(程序)来进行分析?协方差广义线性模型分析PROCGLM协方差分析考虑到协变量对因变量的影响,利用回归分析的方法来消除协变量的影响;它是方差分析和回归分析结合的一种统计分析方法,是一种典型的广义线性模型分析。协方差分析前,需要对其应用条件进行假设检验:(1)正态性检验:Univariate过程(2)方差齐性检验:Discrim过程(3)因变量与协变量线性关系检验:只有一个协变量:reg过程/多个协变量:glm过程(4)效应因子不同水平,因变量与协变量线性关系的斜率是否相同:Glm过程,交互作用协方差分析过程步基本组成:procglmdata=xx;classgroup;/*grouop是效应因素*/modely=groupx;/*x是协变量*/lsmeansgroup/stderrtdiffpdiff;/*输出效应因素各水平下y的修正均数*/run;三、bp962.dbf中彝族农民和彝族移民收缩压水平是否有差异,控制年龄和体重危险因素。procunivariatedata=bpnormal;classrace;varmsbp;run;procdiscrimdata=bppool=test;classrace;varmsbp;run;procsortdata=bp;byrace;run;procregdata=bp;/*线性相关性检验*/modelmsbp=age;byrace;run;procregdata=bp;/*线性相关性检验*/modelmsbp=weight;byrace;run;procglmdata=bp;classrace;modelmsbp=raceageweightage*raceweight*race/ss3;run;procglmdata=bp;classrace;modelmsbp=raceageweight;lsmeansrace/stderrtdiffpdiff;run;检验各组y正态性检验各组y方差齐性各组y与两个协变量的线性关系做单因素和交互的协方差分析把有意义的放入模型再做一遍2、Framingham心脏研究中,获得了有关男性冠心病与研究的危险因素之间的多元logistic回归模型如下:P=1/3{1+exp[-(-13.2573+0.1216x1+0.0070x2+0.0068x3+0.0257x4-0.0010x5+0.4223x6+0.7206x7)]}试完成下述三项工作:(1)某男性A各危险因素暴露情况为:年龄x1为45岁,胆固醇x2为210mg/dl,收缩压为x3为130mmHg,相对体重x4为100,血红蛋白x5为120mg%,吸烟情况x6为不吸烟取值0,心电图x7正常取值为0,请估计该男子发生冠心病的概率,写出计算式,可不必计算出结果。(2)另一男性B个危险因素暴露情况为:年龄x1大20岁,其他危险因素暴露均相同,该男子发生冠心病的危险是增加还是降低?(3)请计算男子B与男子A反生冠心病的相对危险度RR值,出计算式便可。(1)P=1/{1+exp[-(-13.2573+0.1216*45+0.0070*210+0.0068*130+0.0257*100-0.0010*120+0.4223*0+0.7206*0)]}(2)增加OR=exp(0.1216*20)=11.38i:自变量xi的回归系数,大小由因素xi决定,是控制了其他因素的混杂效应后的i值。i0:表明P与xi有关,变量xi是疾病发生的危险因素。(3)RR=PA/PBRR=1/3{1+exp[-(-13.2573+0.1216*45+0.0070*210+0.0068*130+0.0257*100-0.0010*120+0.4223*0+0.7206*0)]}1/3{1+exp[-(-13.2573+0.1216*65+0.0070*210+0.0068*130+0.0257*100-0.0010*120+0.4223*0+0.7206*0)]}=exp(0.1216*20)?????0.06增加a45岁b65岁b是a的rr,exp{(65-45)*0.1216}=RR=6.97论述题:1.某人研究叶酸预防输精管畸形(NTD)的效果,Logistic回归模型分析获得的结果为lnP/(1-P)=18.22+0.06x1+1.36x2-6.60x3请回答下述问题:(1)式中变量x1为年龄,这结果能说明年龄是NTD发生的危险因素吗?(2)式中变量x2为叶酸(x2=0为服用;x2=1为不服),这结果说明服用叶酸能预防NTD发生吗?(3)式中变量x3为职业(x2=0为农民;x2=1为其他),研究结果表明农民发生NTD的危险性是其他职业者的倍数为多少(例出算式即可)?(1)不能,因为这与因变量的赋值有关,如果按以下模式对因变量赋值,发生输精管畸形者为0,否则为1,则根据模型结果,可认为年龄是危险因素。对β值还需要进行假设检验,对单个回归系数进行Wald检验。(2)设服用叶酸的危险度为P0,不服用叶酸的危险度为P1,则服用叶酸的危险度比不服用的危险度比值为[P0/(1-p0)]/[P1/(1-P1)]=e0*1.36/e1*1.36=e-1.361,所以服用叶酸为保护因素(3)e6.603、lbw.dbf多元回归分析y=新生儿体重(0为正常,1为低出生体重),(1)以低体重患儿为因变量求危险因素及回归模型(2)一名体重180磅的孕妇和100磅的孕妇产生低出生体重儿的危险度的多少倍?Stepwisesle=0.1sls=0.15答:程序如下:filenameaa'C:\DocumentsandSettings\Administrator\桌面\lbw.dbf';procdbfdb3=aaout=bb;run;dataone;setbb;proclogisticdata=onedesc;classrace/param=ref;modellow=agelwtracesmokeptlhtuiftv/selection=stepwisesle=0.15sls=0.15;run;部分结果:datann;setbb;proclogisticdata=nndesc;modellow=agelwtsmokeptlhtuiftv/stepwisesle=0.10sls=0.10;run;低体重患儿对危险因素(吸烟、HT和UI)的逻辑回归模型为:logit(p)=1.0331-0.0189*LWT-0.7660*RACE1+0.5931*RACE2+1.0272*SMOKE+2.3416*HT+1.0470*UI(2)e(180-100)*(-0.0189)=p180/p100协方差分析与方差分析、回归分析的关系:1.方差分析:所有的自变量(效应因子)都是离散型分类变量,该分类变量是用来比较在自变量的各个不同水平上因变量均值的差异。变量类型:自变量:定性变量因变量:定量变量2.回归分析:回归分析所有自变量都是