纵向数据張文超2014年6月目录1、什么是纵向数据?2、介绍这类数据的分析方法基本思想软件操作什么是纵向数据?纵向数据追踪数据重复测量数据纵向数据是指一个被试群体在一个或多个变量上,多个时间点的测量结果。例如,一组纵向数据中有N个个体,所关心的变量有M个,测量时间点为T个。与横向数据相比,纵向数据有多个时间点,即T1。而横断数据T=1。纵向数据的第i个个体在第j个变量上的第t次测量结果可以表示Yijt,其(i=1,2,…,N;j=1,2,…M;t=1,2,…T),纵向数据比横断数据多了一个时间维度。4纵向数据4.1线性随机效应混合模型4.2广义线性随机效应混合模型4.3决策树及随机效应模型4.4纵向生存数据分析4.5面板数据多层(多水平)分析模型来源:《复杂数据统计方法》纵向数据分析方法(1)方差分析※(2)多层线性统计分析模型&针对纵向数据的发展模型(线性随机效应混合模型)※(3)广义线性随机效应混合模型※(4)广义估计方程(GEE简介.ppt、刘静老师的pdf)(5)潜变量增长曲线模型(6)决策树及随机效应模型(了解)注:预计占用时间:1~2次课;方差分析方差分析(了解)传统方法:重复测量资料的一元方差分析和多元方差分析一元方差分析是将不同时间点的几次不同测量看成是一个因变量进行分析,而多元方差分析是将不同时间点的测量看成几个因变量同时进行分析重复测量方差分析一般资料受试者编号放置时间(分钟)0459013515.325.324.984.6525.325.264.934.7035.945.885.435.0445.495.435.325.0455.715.495.434.9366.276.275.665.2675.885.775.434.9385.325.155.044.48实验组对照组重复测量资料方差分析(一元方差分析)的条件:1.正态性处理因素的各处理水平的样本个体之间是相互独立的随机样本,其总体均数服从正态分布;2.方差齐性相互比较的各处理水平的总体方差相等,即具有方差齐同3.各时间点组成的协方差阵(covariancematrix)具有球形性(sphericity)或复合对称性(compoundsymmetry)特征。Box(1954)指出,若球形性质得不到满足,则方差分析的F值是有偏的,这会造成过多的拒绝本来是真的无效假设(即增加了I型错误)重复测量资料的一元方差分析,总变异分解思路:总变异处理对象间的变异重复测量间的变异处理组间的变异观察对象个体间的差异(受试者误差)测量时间之间的变异处理因素与测量时间的交互作用重复测量误差变异来源SSvMSF总变异nt-1处理(1)k-1受试者误差(2)n-k测量时间(3)t-1处理×时间(4)(k-1)(t-1)重复测量误差(5)(n-k)(t-1)2xC21/kgggHntC21/tigiMnkC21311/ktgiggiTnCSSSS1MS2MS3MS4MS5MS12/MSMS35/MSMS45/MSMS2111/gnkgigjBtCSS1234SSSSSSSSSS总重复测量资料的方差分析计算公式多元方差分析通过计算两个测量分数的差,用配对样本t检验方法对两次测量的差异进行检验,此种通过测量分数差值对测量之间差异进行检验的方法,正是多元方差分析处理追踪数据所有的最基本的方法。重复测量资料的方差分析(一元方差分析)多元方差分析假设条件重复测量的方差分析要求数据满足球形性条件假设,往往难以满足。多元方差分析要求数据满足多元正态分布,而重复测量的方差分析只要求数据满足一元正态分布;违背正态假设带来的检验后果远不如违背球形性假设条件严重。一类错误球形性不满足时,不加校正的重复测量方差分析所犯一类错误的概率大于指定的a,即使进行了校正后,所犯第一类错误的概率,只是接近指定的a。在假设条件满足时,多元方差分析所犯第一类错误的概率为指定的a。检验效能当满足球形假设条件时,重复测量的方差分析的检验效能要比多元分析强当不满足球形假设条件时,两种方法相比,很难说哪一种方法检验效能强;对于中等的样本容量,多元方差分析的检验力有时比重复测量的方差分析弱,但有时要强很多;在小样本时,多元方差分析往往遇到很多问题,甚至不能进行。两种方差分析方法的比较:SAS实现----单因素重复测量方差分析dataaaa;inputx1x2x3x4@@;cards;10.19.910.210.37.07.17.37.08.17.98.18.16.56.86.97.010.410.911.110.57.47.47.37.29.49.39.69.516.417.117.617.65.55.45.35.38.18.28.18.36.56.66.86.99.79.99.89.9procglmdata=aaa;modelx1x2x3x4=/nouni;repeatedtime4/printe;run;nouni表示不对x1~x4作单变量方差分析;Repeated语句指示重复测量因素为time变量,共4个水平,各水平值分别为1~4。Printe输出球对称性检验结果(即协方差阵的Mauchly检验结果)。当不满足球形性时,一种是调整F,另一种是进行多元方差分析。SAS实现----两因素重复测量方差分析dataA;inputtype$subjecttime1time2time3time4;cards;111.4311.5191.4771.364121.3851.5621.4591.372131.4731.4871.6121.414141.4521.5351.5371.403151.3711.4691.2681.296261.2570.9760.7250.578271.2320.9340.8280.609281.2981.0360.8130.512291.2161.2470.6940.5792101.2750.9420.6750.621;procglm;classtype;modeltime1time2time3time4=type/nouni;repeatedtime4/printe;meanstype;run;SAS实现----多因素重复测量方差分析《用SAS软件实现多因素重复测量设计定量资料的统计分析》胡良平;郭辰仪DataA3;Inputgroupbdb1-bdb5nxm1-nxm5alt1-alt5ast1-ast5;Cards;1222332.21.13.34.45.51.11.31.41.51.62.12.32.22.42.511.02.03.04.05.02.21.13.34.45.52.21.13.34.45.5222332222332.21.13.34.45.51.11.31.41.51.62.12.32.22.42.521.02.03.04.05.04.21.12.34.41.52.21.13.34.45.5222331222332.21.13.34.45.51.11.31.41.51.62.12.32.22.42.5;Run;Procglmdata=A3;Classgroup;Modelbdb1-bdb5nxm1-nxm5alt1-alt5ast1-ast5=group/nouni;Repeatedreponse4identity,time5(01234);Lsmeansgroup/cl;Run;共4个因变量,重复测量了5次结果:趋势性分析推荐:《重复测量资料分析方法与SAS程序》余松林利用正交多项式系数表配合正交多项式模型方差分析的局限性多水平统计模型简介多层统计模型的出现目前,大家基本上接受两组人分别独立开发出同一模型的结果。双方研究成果的发布时间基本相同(上世纪80年代末90年代初)。S.Raudenbush与A.BrykH.Goldstein模型称为:hierarchicallinearmodel;软件为:HLM模型称为:multilevelmodels;软件为:MLwiN(早期版本称ML3,MLn)横截面数据层次结构数据临床试验和动物实验的重复测量多中心临床试验研究纵向观测如儿童生长发育研究流行病学现场调查如整群抽样调查遗传学家系调查资料meta分析资料多水平主成分分析多水平因子分析多水平判别分析多水平logistic回归多水平Cox模型多水平Poisson回归多水平时间序列分析多元多水平模型多水平结构方程模型多水平主成分分析多水平一般线性模型!(多层线性模型)层次结构数据嵌套型数据多水平数据multilevelmodelshierarchicallinearmodelrandom-effectmodelrandomcoefficientmodelvariouscomponentmodelmixed-effectmodelempiricalBayesmodel两水平层次结构数据水平2水平1层次结构数据的普遍性“水平”(level):指数据层次结构中的某一层次。例如,子女为低水平即水平1,家庭为高水平即水平2。“单位”(unit):指数据层次结构中某水平上的一个实体。例如,每个子女是一个水平1单位,每个家庭是一个水平2单位。对于纵向数据,个体内不同测量时间是水平1,个体间不同个体是水平2。层次结构数据为一种非独立数据。?非独立数据不满足经典方法的独立性条件,采用经典方法OLS可能失去参数估计的有效性并导致不合理的推断结论,非独立数据的组内相关结构各异,理论上,不同的结构应采用相应的统计方法。多水平分析的概念为人们提供了这样一个框架,即可将个体的结局联系到个体特征以及个体所在环境或背景特征进行分析,从而实现研究的事物与其所在背景的统一。层次结构数据的特殊性经典模型的基本假定是单一水平和单一的随机误差项,并假定随机误差项独立、服从方差为常量的正态分布,代表不能用模型解释的残留的随机成份。当数据存在层次结构时,随机误差项则不满足独立常方差的假定。模型的误差项不仅包含了模型不能解释的应变量的残差成份,也包含了高水平单位自身对应变量的效应成份。构建与数据层次结构相适应的复杂误差结构,这是多水平模型区别于经典模型的根本特征。基本的多水平模型01iiYx000jju111jju01ijjjijijYx011ijijojjijYxuu随机结局?随机斜率?加入水平1解释变量?水平2解释变量?多层统计分析模型目录:1.方差成分模型2.随机系数模型3.模型参数估计方法4.反应变量向量的协方差结构(了解)5.假设检验6.在多层模型中其他注意事项方差成分模型1.1固定效应模型1.2不含协变量的随机效应方差成分模型(空模型)1.3含协变量的随机效应方差成分模型1.方差成份模型(多水平模型中最简单的)(VarianceComponentModel)1.1固定效应模型某研究中有多个不同处理因素,若研究者感兴趣的各种处理都设计在研究当中,则认为这一因素具有固定效应,如以下例2.1中对小白鼠给予三种不同的营养素。若处理包含的各个组别是从更大的总体中得到的随机样本,则认为该处理因素具有随机效应,如以下例2.2中病人对社区医生服务的满意度研究。1.2随机效应方差成分模型(不含协变量)假定一个两水平的层次结构数据,医院为水平2单位,患者为水平1单位,医院为相应总体的随机样本,模型中仅有一个解释变量X。1.3含协变量的随机效应方差成分模型和分别为第j个医院中第i个患者应变量观测值和解释变量观测值,和为参数估计,为通常的随机误差项。010ijjijijyxeijyijxj01ije0mj,...,2,1jni,...,2,1示水平2单位示水平1单位0101ijjijijyxe水平模型0100ijijjijyxue