多水平模型简介

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

多水平模型简介公共卫生与家庭医学学院郭秀花2011.4.25传统的统计学分析是建立在个体测量值相互独立的假设上。如:多元回归模型的估计方法是建立在个体测量值要相互独立,当假设不成立时,回归模型中的各参数估计值的有效性和统计特征均会受到影响,从而最终的统计推断结论将可能偏倚。估计值的标准误会有偏差。。多元回归数据结构DataandExamplesChildrenwithinfamilies:•Childrenwithsamebiologicalparentstendtobemorealikethanchildrenchosenatrandomfromthegeneralpopulation.•Theyaremorealikebecause–Genetics–Environment–Both实验研究:如致畸试验•层次结构:孕鼠1子鼠m子鼠1子鼠2。。。孕鼠2子鼠m子鼠1子鼠2。。。子鼠m子鼠1子鼠2。。。孕鼠p窝别效应ObservationalStudies•Multi-stagesamplingiscosteffective.1.Takerandomsamplefrompopulation(e.g.schools).2.Takerandomsamplefromsub-population(e.g.classes).3.Takerandomsamplefromsub-population(e.g.students).•某省调查其农村居民的卫生服务随机抽取30个乡镇,每个乡镇分别抽取2个行政村,每个村再随机抽取33户(家庭),对每个家庭前半年内的常住人口进行问卷调查。调查研究•具有明显的层次结构(乡镇→行政村→户→个体);•在经济水平、生活方式、生活习惯上都具有某种程度上的相似性或聚集性;个体的数据是非独立的。ExamplesofHierarchiesLongitudinalDataSameindividualsmeasuredonmultipleoccasions.•Stronghierarchies.•Muchmorevariationsbetweenindividualsthanbetweenoccasionswithinindividuals.AHypotheticalExample-Twomeasurementoccasions多水平模型(MultilevelModels)又称随机效应模型(RandomEffectModels),它是在二十世纪八十年代,由英美教育统计学家基于方差成分分析而提出的统计模型。多水平模型理论是国外近些年发展起来的处理系统结构数据的多元统计方法,是将Ⅱ型方差分析理论与多元统计分析相结合的新技术。多水平统计模型概念DefinitionofMultilevelAnalysisSnijders&Bosker(1999):Multilevelanalysisisamethodologyfortheanalysisofdatawithcomplexpatternsofvariability,withafocusonnestedsourcesofvariability.多水平模型的不同称谓:层次线性模型(hierarchicallinearmodel)混合效应模型(mixed-effectsmodel)混合模型(mixedmodel)这些模型或许在算法或应用领域的普及程度上有差别,但是都是处理具有层次结构的数据或非独立数据的。常规数据的特征:•相互独立,等方差•由yi构成的观测向量服从正态分布具有这种结构的数据叫独立结构数据•当应变量的协方差阵不满足对称条件(∑≠δ2Ⅰ)时,大多为系统结构数据(hierarchicalstructuredata)。•多水平统计模型用于研究具有层次结构或嵌套式结构的数据,此类数据的主要特征是反应变量的分布在个体间不具备独立性,但存在某些范围内的聚集性,如分层抽样或整群抽样的数据。多水平模型主要种类•重复测量资料的多水平模型•二分类资料的多水平模型•Poisson分布资料的多水平模型•多水平Meta分析模型•多水平生存时间的统计模型•……多元重复测量资料的多水平模型实例新药临床试验资料数据库变量编码指标变量变量取值医院编号hosp1~15患者编号no1~456观察时间time1~3周组别group试验组=1,对照组=0患者年龄age18~75岁患者性别gender女性=0,男性=1疗前ESS评分ess040~80(评分高病情轻)疗前ADL评分adl00~95(评分高病情轻)疗后ESS评分ess0~100疗后ADL评分adl0~100新药临床试验原始资料格式医院编号患者编号组别年龄性别疗前疗后1周疗后2周疗后3周ESS0ADL0ESS1ADL1ESS2ADL2ESS3ADL31116006950735086908510012043176758275841009010013161140304235553572451417117880909592100931001507117275757582-82-1616718080938510095--二分类多水平模型实例某省进行了农村贫困居民的家庭卫生服务调查。先随机抽取乡镇,每个乡镇分别抽取2个行政村,每个村再随机抽取一定数量的家庭进行调查。共调查了30个乡镇,832户贫困家庭户,共计2369名15岁及以上的居民。现拟探讨该省农村贫困居民卫生服务需要的影响因素。以两周是否患病作为应变量。结合资料的层次结构特点,采用二分类多水平logistic回归模型探讨农村贫困居民两周是否患病的影响因素。变量赋值表(1)变量名称定义及赋值应变量两周患病uncomfor0否1是人口学特征性别gender0男1女民族ethnic0汉族1其他年龄(岁)agegroup015~145~265~婚姻状况marriage0未婚1已婚2离婚3丧偶文化程度edu0文盲半文盲1小学2初中及以上职业occupy0非农业劳动者1农业劳动者2学生3离退休4无业、失业、半失业者医疗保险insure0无1有变量赋值表(2)健康相关因素自身健康状况评价self_assesshea_stat0好1中2差吸烟smoke0否1吸饮酒drink0否、少量1经常饮家庭一般情况家庭饮水类型water0自来水1非自来水家庭户厕类型bathroom0卫生厕所1非卫生厕所易得的最快方式去最近医疗点时间(分钟)tim_hosp年人均收入(元)income0≤6371638~1000变量赋值表(3)乡镇特征乡镇地理地貌geography0山区1非山区个体水平id户水平family乡镇水平rural●家庭人均居住面积和乡镇人均可耕地面积以连续性变量形式中心化之后纳入模型;●无序多分类变量婚姻状况和职业以哑元形式纳入;●有序多分类变量年龄、文化程度和自身健康状况评价,是以分组线性变量或哑元的形式纳入,依据似然比检验结果加以判断。哑变量名定义•age1:45~,age2:65~;•marriage1:已婚,marriage2:离婚,marriage3:丧偶;•education1:小学,education2:初中及以上;•occupation1:农业劳动者,occupation2:学生,occupation3:离退休occupation4:无业、失业、半失业•多水平Poisson回归模型实例Poisson回归(Poissonregression)•单位时间、面积、空间内某事件发生数(count)的影响因素的分析•对于以人群为基础的稀有疾病发病率、卫生事件资料的分析例•收集英格兰和威尔士15个地区1959至1991年按年龄、性别分组的逐年人口数和肺癌死亡人数。肺癌死亡资料数据库变量编码指标变量变量取值年份Yearyear=年份1959-1991地区region1~15年龄ageage=0,年龄≤50岁;age=1,年龄>50岁性别gendergender=0,女性;gender=1,男性年观察人口数population年肺癌死亡数death资料特点•两水平层次结构•地区(水平2单位)15•各地区内逐年重复观察(水平1单位)1980•资料按性别、年龄分组•反应变量是肺癌死亡人数定性反应变量的多水平模型重点:二分类反应变量的两水平模型•某省调查其农村居民的卫生服务随机抽取30个乡镇,每个乡镇分别抽取2个行政村,每个村再随机抽取33户(家庭),对每个家庭前半年内的常住人口进行问卷调查。调查研究资料的特点•具有明显的层次结构(乡镇行政村户个体);•在经济水平、生活方式、生活习惯上都具有某种程度上的相似性或聚集性;个体的数据是非独立的。固定效应和随机效应•固定效应:某研究中有多个不同的处理因素,若研究者感兴趣的各种处理因素都设计在研究当中,则认为这一因素具有固定效应。•随机效应:若处理包含的各个组别是从更大的总体中得到的随机样本,则认为该处理因素具有随机效应。二分类反应变量两水平模型•优势处理具有层次结构特征的数据资料,可将传统模型中的随机误差项分解到与数据层次结构相应的水平上,使得个体的随机误差更纯。普通Logistic回归模型l令:y=1发病(阳性、死亡、治愈等)ly=0未发病(阴性、生存、未治愈等)l将发病的概率记为P,它与自变量x1,x2,…,xp之间的Logistic回归模型为:l可知,不发病的概率为:l)exp(1)exp(110110ppppXXXXp)exp(111110ppXXp)]1/(ln[)(logpppitppXXpLogit110)(两水平logit模型001logit()()ijjijPux000jju020~(0,)()(1)/juijijijijuNVarPn,•为处理因素的效应参数,又称固定效应(fixedeffect)参数•为水平2单位的logit均值与总均值之差,又称为随机效应(randomeffect)或高水平的残差。10ju0j0•的方差又称为随机参数(randomcoefficient),反映了高水平单位间的比数(率)的差别。•越大说明数据在高水平单位内的聚集性越强。•为0时,该模型演变为一般的logistic回归模型。0ju20u20u20u判断是否存在高水平效应•密切结合专业知识和具体情况进行判断•对随机参数的估计值做检验02u例:探讨高血压的影响因素•在全市共抽取159个社区(53个生活社区和106个功能社区)作为调查社区,每个社区抽取100人左右,共抽取16000例社区常住居民作为调查对象。•分别调查其性别、年龄、文化程度、职业、吸烟、饮酒、体育锻炼及饮食情况等。由于该资料具有明显的层次结构,每个群体在经济水平、生活方式、饮食习惯上都具有某种程度上的相似性或聚集性,每个个体的数据是非独立的,因此我们选用社区和居民构成两个水平,居民是基本水平,即水平1单位,社区是水平2单位,来拟合两水平模型。•以调查对象是否患有高血压为应变量,将可能影响血压的居民个人特征参量的若干因素作为自变量,采用二水平logistic模型探讨对血压可能具有影响作用的因素以及因素作用的大小。•资料的统计分析过程均在SAS9.0中完成,两水平模型采用SASMIXEDCOVTEST过程进行拟合。变量的赋值方法见表1。•logistic模型的结果中得到代表居民差异的常数项估计值为0.3248,P0.0001,说明居民的差异在社区水平上的确存在聚集性,其层次结构不能忽略,故进一步引入解释变量拟合两水平logistic模型。•由表2可知,影响血压组分异常的主要因素包括:性别、年龄、文化程度、职业、吸烟、饮酒、中心型肥胖、零食、食用油摄入、食盐摄入。•在控制其他因素不变的情况下,女性患病率低于男性。年龄在40~59岁组和60岁及以上组患病率均高于18~39岁人群。文化程度为初中、高中或中专、大专及大专以上的患病率均低于小学及小学以下者。农民、居民的患病率均高于工人、商

1 / 91
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功