流行病学的简单介绍张娟2015年4月8日流行病学概念关键名词大体框架统计学建模机理总结流行病学流行病学,是研究疾病分布规律及影响因素,借以探讨病因,阐明流行规律,预测病势,制订预防、控制和消灭疾病的对策和措施的科学。其基本原则是确定暴露和结果之间可能的因果联系。风险因子生物学原因:在生物个体内部起作用的原因群体原因:个体外起作用的原因所致疾病流行病学中的关键名词阳性率、阴性率假阳性、假阴性灵敏度=阳性检出率=真阳性数/(真阳性数+假阴性数)特异度=阴性检出率=真阴性数/(真阴性数+假阳性数)阳性阴性真阳性真阴性假阳性假阴性发生率I:单位时间内的新病例数/风险群体大小观察4个易感个体一个月。每个动物的观察史为:一个个体一直没有发病;一个个体在第10天发病;一个个体在第20天发病;一个个体在第15天被出售,那么这个群体的发生率为多少?单位时间内的新病例数:2风险群体大小?1+10/30+20/30+15/30=2.5I=2/2.5=0.8.而不是2/4=0.5时间增加的个体数)退出的个体数发病的个体数体数(研究开始时风险的个新病例**1/2*1/2-*1/2-IIS-dtdS风险R:在特定时间内新出现的受影响个体数/风险群体大小tIR不同的时间段,风险不同。若每个子时间区间内的发生率不同,那么整个时间区间的风险值为)(kktI-exp-1R现患率:p=特定时间点群体中的病例数/同一时间点群体中有风险的个体数。li罹患率:描述疾病暴发时的频率。病例数/暴露动物总数续发率:描述疾病的传播能力。(所有病例数-初始病例数)/风险群体大小事实上,为比例,不是率若考虑到群体的差异性,那么整个群体的风险值为./NNHRHRjjjj,其中流行病学分类按学科从分子水平揭示影响疾病的因素研究与遗传有关的疾病分析膳食和营养因素与疾病的关系行为包括:生物性(生理和心理反应)和社会性研究职业性有害因素对人体健康的影响,并评价因素的危险度。是社会精神病学的重要组成部分。有别于躯体疾病。研究疾病与地理环境的关系。是流行病学与地理学、环境科学、生态学、计算机科学等多门学科的交叉学科。流行病学框架文献、网站(世界卫生组织、卫生部、疾控中心)或者合作抽样方法调查问卷统计模型和动力学模型按研究方法传染源传播途径流行因素防控措施致病因子治愈手段健康状况影响因素调查,是一种观察性研究,用于收集群体的描述型信息(例如频率和分布)。试验是设计用来检测或者量化个体的指征、所含物质、组织变化及身体反应的任何装置和方法。描述性研究:通过调查、观察,了解所研究问题在人群中的分布情况。主要在于描述群体的属性(例如群体水平、疾病发生频率等等)分为:病例报告(罕见病例)、病例序列报告和调查。分析性研究:对总体中的结果和暴露因子之间的联系大小检验进行评估。包括:病例对照研究(回顾性)、队列研究(前瞻性)队列研究:选择一个尚未发生疾病的人群,根据研究因素而将其分为暴露组(也可根据暴露程度再分组)和非暴露组,随访观察一段时间后,比较两组发病率或死亡率的差异,从而判断暴露因素与疾病的关系的一种研究方法。我们方向的主要工作基于现实数据的应用研究无现实数据的应用研究基于现实数据的工作思路前期工作:获取数据、查阅文献、搜集材料建立数学模型。模型验证。包括:数据拟合、参数估计、模型检验、不确定分析。动力学分析。空间可视化:ArcGIS软件数值方法:Matlab、R语言、SPSS、ArcGIS简单的数据分析暴露因素和防控措施评估:敏感性分析数学模型统计模型动力学模型各自的建模原理参数估计最小二乘估计极大似然估计MCMC1.估计的理论原理2.在软件的实现各类分布函数、各种估计方法(点估计、区间估计)、假设检验等查阅资料,彻底了解欲解决问题的背景知识建立模型模型分析或者问题解决数值模拟不基于现实数据的工作思路统计模型的建模机理数据:横向(时齐)数据和纵向(时序)数据统计模型:横向数据:回归模型纵向数据:随时间t的模型(函数)线性回归广义线性回归:logistic回归,……自回归线性模型指数模型Logistic模型……动力学模型:纵向数据:仓室模型回归模型是分析影响因素的一种方法,把与个体标志对应的随机变量作为应变量,暴露因素作为自变量,采用回归方法,分析因素水平(自变量值)对个体标志状态(应变量值)的影响。自变量可以是连续性、分类型或二分类变量。包括:线性回归和广义线性回归(例:Logistic回归和Poisson回归)。例:分析羊群阳性率和羊群的养殖量、免疫以及养殖模式的关系。因变量Y为某地区羊群阳性率自变量X1为羊群养殖量自变量X2为羊群是否免疫自变量X3为羊群的养殖模式:放牧、圈养或者二者混合:iYi地区的羊群阳性率123(,,)YfXXX观测值:1:iXi地区的羊群养殖量2:iXi地区的羊群免疫情况3:iXi地区的羊群养殖模式模型介绍线性回归,例:201,(0,)YXN模型分析的基本内容为系数与误差项方差的估计及其假设检验,从而获得回归函数的估计,来描述影响因素X对变量Y及其期望值的作用,来实现预测或控制。01,2数学期望和方差分别为:201(Y),D(Y).EX常数项或者回归截距回归系数调整每个分量的影响力,可以看出哪个因素更为重要01YX预测函数(回归函数)为:研究内容20,(0,)kkYXN研究路线:第一步确定所考虑的最大模型。1.建立因果关系图2.尽可能地减少所考虑的自变量的数目3.相关分析4.自变量和因变量之间存在的关系(线性或者非线性):光滑核函数4.高度相关(共线性)变量的检测:方差膨胀因子、中心化方法等5.交互作用的检测6.主成分分析第二步参数估计,得到预测函数(回归函数)。第三步模型的可靠性评价:分割样本法分析,留一出法分析。第四步预测值及区间的估计第五步回归系数的显著性检验其它,观测值的缺失值问题,X变量的误差问题,异常值的识别。(1)加x的幂次项(2)对y进行变换(3)将连续变量转化为分类变量模型参数估计:最小二乘估计和极大似然估计最小二乘估计:n个样本值满足:01(X),i1niiiY误差平方和:220111[(X)]nniiiiiQY为使Q最小的值可作为的估计值。01ˆˆ,01,由正规方程可解出:010,0QQ01ˆˆ,误差方差由残差均方和估计:222011111ˆˆˆ[(X)]22nniiiiiMSEYnnMatlab实现:lsqcurvefit,fminisearch,由前面可知,对于样本有以下结果:2i01i(Y),D(Y)iEXii(X,Y)服从的正态分布。iY从而似然函数为:222010101i2/22111(,,)(,,)exp{[y(x)]}(2)2nniiniiLLp201lnlnln0,0,0.LLL解方程求估计参数值:201ˆˆˆ,,极大似然估计:Logistic回归多线性回归模型为201122,(0,)kkYXXXN在流行病中,有时候关注的是:个体是否患病,即Y为两点分布。01122(Y).kkEXXX1)当Y为两点分布时,误差不服从正态分布。001()1()0jjjjXYXY2)当Y为两点分布时,预测值有可能会落在该约束条件之外。0(Y)1.Ep为避免以上情况,就需要进行变换。logistic回归本质上是线性回归,只是在特征到结果的映射中加入了一层函数映射,将有限区间上有定义的直线变换为整个实数区间有定义的S型的对称曲线。01122011221kkkkXXXXXXepe为避免以上情况,提出了logit(对数)变换。p与各自变量的关系为以下形式:12,,,kXXX01122ln[].1kkpXXXp参数估计:极大似然估计区间估计模型检验:1)模型的参数假设检验:Z检验,似然比检验和记分检验2)模型的拟合度检验:Logistic回归logistic回归与多重线性回归实际上有很多相同之处,最大的区别就在于他们的因变量不同,这两种回归可以归于同一个家族,即广义线性模型(generalizedlinearmodel)。这一家族中的模型形式基本上都差不多,不同的就是因变量不同,如果是连续的,就是多重线性回归,如果是二项分布,就是logistic回归,如果是poisson分布,就是poisson回归,如果是负二项分布,就是负二项回归,等等。只要注意区分它们的因变量就可以了。包括:两分类logistic回归,多分类logistic回归,非条件logistic回归与条件logistic回归。Poisson回归分析(Yk),0,1,2,!kpekk01122(Y)kkXXXEe线性回归模型评价结果发生的可能性;利用logistic回归模型评价事情是否会发生多项式模型来评价发生的种类。利用possion回归模型来判断事件发生的数量(或事情发生的速率)动态数据的修匀时距扩大法:把间隔时距较短的动态数列合并成间隔时距较长的动态数列以减少短期误差对数列中观测值的影响。移动平均法例如5项移动平均按月平均法12345323456443212,5,5.5nnnnnnaaaaaaaaaaaaaaaaaa时序资料的回归分析随机变量Y是时间t的函数,成为随机函数。构成时间序列的随机变量族的特点是族中的随机变量间相关(不独立)。模型:滑动平均模型(MA模型)、自回归模型(AR模型)和自回归滑动平均模型(ARMA模型)分析:阶数、平稳性、参数估计和模型检验。11()(Y(t))bbttqtqZYtE11ttptptYaYaY1111bbttptpttqtqYaYaY线性模型指数模型等价于Logistic模型Gompertz模型动态数据的统计模型一般形式为:指标Y随时间t的模型(函数)表示为()Yft01Ybbt0101,bbtbbtYecece其中01lnYbbt0111111bbtbtYece01exp{}bbtYce推广多项式模型:具有多峰(谷)性。空间数据的分析空间数据分析包括空间数据的可视化、空间关系描述及其建模。统计方法的学习(统计量、分布函数、假设检验、参数估计)统计软件的学习模型的结合和建立