一、Logistic和多元线性回归(1)相同点:①都可以利用模型来筛选危险因素,在估计出回归系数后,可以得到相应因素的危险度;②都可以校正混杂因子的影响;③都可以用来预测。(2)不同点:多元线性回归分析logistic回归分析(概率型非线性回归)应变量的分布必须是正态分布对应变量的分布类型无要求应变量必须是连续型随机数值变量应变量必须是分类型变量(二项分布)要求自变量和应变量之间存在线性依存关系不要求自变量和应变量呈线性关系直接分析应变量与自变量之间的关系分析应变量取某个值的概率与自变量的关系既适合大样本也可用于小样本资料要求较大的样本量二、logistic和COX(1)相同点:在估计出回归系数后,可以得到相应因素的相对危险度。(2)不同点:①logistic分析只考虑了事件的结果,没有考虑生存时间的长短,因此Cox模型更多利用了资料的信息。②logistic回归模型要求资料满足事件的发生率较低的假定,而Cox模型不受该条件的限制。③在前瞻性研究中,如用logistic回归分析方法,则在设计上要求每个观察对象的观察时间长短一致,而用Cox回归分析方法,在研究设计上比较灵活,只要记录每个观察对象的观察时间即可。④在有研究对象发生失访时,用logistic回归较难处理,而用Cox回归处理容易得多。Logistic回归分析可用于多因素预后分析,控制混杂因素效应,并可进行优势比OR或相对危险度RR的估计,但是不能处理随访中常见的删失数据。另外,logistic回归模型仅考虑随访结局(生存或死亡,有效或无效),而未考虑出现结局的时间长短。Cox比例危险率回归模型的应变量观察结局和有关时间,它不仅可以从结局的好坏,而且可以从出现该结局的时间长短进行比较,并且可以进行相对危险度RR的估计,因此cox回归具有logistic回归模型的所有优点,并可以处理删失数据,特别适用于长期随访资料的分析,如肿瘤及慢性病的预后分析。但当数据删失较少或终点事件发生数较少时,宜用logistic回归。三、Logistic回归分析与多元线性回归分析的异同点比较相同点:①都可以利用模型来筛选危险因素;②都可以校正混杂因子的影响;③都可以用来预测。不同点:logistic回归分析(概率型非线性回归)多元线性回归分析Ⅰ对应变量的分布类型无要求应变量的分布必须是正态分布Ⅱ应变量必须是分类型变量(二项分布)应变量必须是连续型随机数值变量Ⅲ不要求自变量和应变量呈线性关系要求自变量和应变量之间存在线性依存关系Ⅳ分析应变量取某个值的概率与自变量的关系直接分析应变量与自变量之间的关系Logistic回归分析还可用于判别分析(主成分分析和因子分析都可用于判别分析),且对数据分布类型无严格要求;还可用于logistic曲线拟合。多元线性回归分析可确定多个指标变量与一个反应变量之间的线性关系;还可用于建立专家辅助诊断系统。多元线性回归分析基本原理:利用观察或收集到的应变量和自变量的一组数据建立一个应变量关于自变量的线性函数模型,并且这个模型最好地拟合了观察数据。多元线性回归模型的一个用须满足一下条件:1应变量Y是服从正态分布的连续性随机变量。2Y与x1、x2、…、xm之间具有线性关系。3各例观察值Yi(i=1,2,…,n)相互独立。---如果各观察值之间存在关联性(共线性或多重线性关系),那么,多元线性回归分析就不适合应用,因为它此时已近不能真实地反映客观情况了。4K个自变量是固定变量(即非随机的或无度量误差的变量)且相互独立,它们之间K个自变量之间不存在多重共线性。5残差ei是相互独立的随机变量,且服从均值为0、方差为σ2的正态分布。多元线性回归在医学中的应用:1)确定多个指标变量与一个反应变量之间的线性关系。2)筛选疾病的危险因素和有利于健康的健康促进因素。筛选危险因素3)从较易测得的自变量来推测较难测得的自变量。4)从已知发生的X来预测将发生的Y。预测!(同logistic回归)5)用于建立专家辅助诊断系统。校正混杂因子(预测、预报与控制——A.影响因素分析[a.控制混杂因素b.分析研究哪些因素影响较大]B.估计与预测[建立用于预测目的的回归方程,应选择较高R2值的方程]C.统计控制[统计控制是指利用回归方程进行逆估计,即给应变量Y指定一个确定值或者在一定范围内波动,通过控制变量值来实现])四、聚类分析与判别分析的区别聚类分析判别分析聚类分析:对于总体分类未知的一群事物依照“物以类聚”思想,把性质相近的事物归入同一类,而把性质相差较大的事物归入不同类的一种统计分析方法。判别分析:是对于总体分类已知的一群事物,根据已有的分类信息把性质相近的事物归入同一类,而把性质相差较大的事物归入不同类的一种统计分析方法。可对样本(Q聚类)和指标(R聚类)进行分类只能对样本进行分类事先不知道事物的类别,也不知道该分几类,缺乏先验知识事先知道事物的类别,也知道该如何分成几类不需要分类的历史资料,能直接对样本进行分类需要分类的历史资料来建立判别函数,然后才能对样本进行分类聚类分析:聚类分析属于数据的探索性分析,解释其分析结果时须密切结合专业知识进行;聚类分析是将随机现象进行归类,发掘海量基因信息时首选。对指标归类时,能降维,从而选出有代表性的指标;对样品归类时,目的是找出样品间的共性。判别分析:可用于疾病的计算机辅助诊断研究。可用于慢性病早期预后、手术预后估计,病因研究,环境污染程度的鉴定,环保措施与劳保措施的效果评价等。可分析出各种指标对判别所起作用的大小,从而可对多个指标进行筛选,使得鉴别诊断的可靠性得到提高。判别分析:1)样本的原始分类必须正确无误,否则得不到可靠的判别函数;判别指标的选择要适当,但不在多;必要时要应对判别指标进行筛选。2)判别函数的判别能力不能只由训练样本的回代情况得出结论。3)Fisher判别、Bayes线性判别以及二值回归对二类判别是等价的,它们都是线性判别。Logistic回归也能用于二类判别,但它是非线性的。但常用Fisher判别,因为它更简单,回代率也往往更高于Bayes判别准则。可用于多类判别的有Fisher判别、Bayes判别、logistic回归,但常用Bayes判别。聚类分析的基本思想:寻找一种能客观反映事物之间亲疏关系或者合理评价事物性质相似程度的统计量,然后根据这种统计量和规定的分类准则把事物进行分类。聚类分析方法:系统聚类法、逐步聚类法、最优分割法(有序样品的聚类)任务:寻找合理的度量事物相似性的统计量;寻找合理的分类方法。聚类分析在医学中的应用注意事项:6常用于数据的探索性分析。聚类分析的结果解释应密切结合专业知识,同时尝试用多种聚类方法分类,才能获得较理想的结论。7聚类前应对变量作预处理,剔除无效变量(变量值变化很小)、缺失值过多的变量。一般需对变量作标准正态变换或极差变换,以消除量纲和变异系数大幅度波动带来的影响。8较理想的样品分类结果应使类间差异大,类内差异较小。分类后单变量时应用方差分析,多变量时应用多元方差分析检验类间差异有无统计学意义。判别分析基本思想:同类内的样品其性质特征相似,表现在类内的离散程度应最小;不同类的样品其性质特征差异大,表现在类间的离散程度应最大,并以此为原则建立判别分类函数---Fisher判别准则。判别分析在医学中的应用:1可用于疾病的计算机辅助诊断研究。2可用在慢性病早期预后、手术预后估计,病因研究,环境污染程度的鉴定,环保措施与劳保措施的效果评价等医学研究中。③可分析出各种指标对判别所起作用的大小,从而可对多个指标进行筛选,使得鉴别诊断的可靠性得到提高。五、主成分与因子分析的比较:主成分分析因子分析基本思想将彼此相关的一组指标变量转化为彼此独立的一组新指标变量,并且其中较少的几个新指标变量就能综合反映多个指标变量中所包含的主要信息,又各自带有独特的专业含义。寻找那些隐藏在可测变量中、无法直接观察到,却影响或支配可测变量的潜在因子,并估计潜在因子对可测变量的影响程度以及潜在因子之间的关联性。密切的联系在主成分分析模型两端同时乘以A-1(即A’)则有X=A’F,此即为无特殊因子的公因子模型;另一方面,在公因子分析的约相关矩阵R*中,如果取hi2=1(i=1,2,…,m),则因子分析的结果(主成分解)即为主成分分析的结果,此外,因子分析的主因子解也常常由主成分分析的结果作为hi2的初始值来计算。不同点(对变量)主成分分析不考虑观察变量的度量误差,直接用观察的某种线性组合来表示一个综合变量探索性因子分析所产生的综合变量(即潜在变量),是校正了的观察变量的度量误差,因此它的分析结论更接近真实探索性因子分析的优点是可以进行因子旋转,使得潜在因子具有更明确的实际意义,从而使用价值也更高一些主成分分析中的主成分是可以准确计算的因子分子中各公因子的得分只能进行估计得到不同点(分析重点不一致)主成分的数学模型为:Z=AX,即主成分为原始变量的线性组合因子分析的数学模型为X=AF+e,即原始变量为公因子和特殊因子的线性组合主成分分析重点在综合原始变量的信息公因子分析则重在解释原始变量之间的关系应用降维作用(减少变量个数)可消除共线性作用(将非独立变量化为独立变量)可用于综合评价可用于判别归类——对量表的评价(信度、效度[结构效度,内容效度]、反应度[灵敏度])主成分分析:实际工作中,所涉及到的众多指标之间经常是有相互联系和影响的。从这一点出发,通过对原始指标的相互关系的研究,找出少数几个综合指标,这些综合指标是原始指标的线性组合,它既保留了原始指标的主要信息,且又互不相关(彼此独立)。这样一种从众多指标之间相互关系入手,寻找少数几个综合指标用以概括原始指标信息的多元统计方法就被称为主成分分析。主成份分析:对数据和变量结构进行分析处理的一种行之有效的多元统计分析方法,它可在不损失或尽量少损失原有指标信息的情况下,将多个具有相关性的指标转换成少数几个互相独立的综合指标,即主成份。基本原理:寻找一个适当的线性或非线性变换,将若干个彼此相关的变量转变为彼此独立的新变量,然后根据新变量的方差大小,选取几个方差最大的新变量替代原变量,使得用最少的几个新变量就能综合反映原变量中所包含的主要信息且又各自带有独特的专业涵义。有实际意义的主成分累积贡献率达不到70%时,原因可能有:1样本太小;②原始资料中有很多偏态分布;③原则上不能有分类指标,但当样本提高到足够大时,允许有分类变量。确定主成分个数的准则:①根据主成分累积贡献率(70%~80%)②根据特征值:≥1主成分分析的任务:估计主成分、确定主成分个数;解释主成分的实际意义;有时还要计算主成分的得分。主成分分析在医学中的应用:1对原始指标进行综合。可以降维,直观明了。从方法学上讲,主成分分析的主要作用是在基本保留原始指标信息的前提下,以互不相关的较少个数的综合指标来反映原始指标所提供的信息,这就为进一步的统计分析奠定了基础。2可用于判别归类。利用主成分分析还可对样品进行分类。求出主成分后,如果各主成分的专业意义较为明显,可以利用各样品的主成分得分来进行样品的分析。3可消除多元线性回归中自变量的多重线性——共线性问题。原因在于各成分之间相互独立,不存在因果关系。由于一个主成分反映一个方面,所以主成分分析可用于综合评价(加权得分)。—————————因子分析基本思想:依据可测量指标变量之间的相关系数,从中寻找出合理的有实际意义的潜在因子,并估计出潜在因子对可测指标变量的影响程度及潜在因子之间的关联性。进行因子分析的4个任务:1计出载荷矩阵A;2确定共性因子个数m;3确定有实际意义的载荷矩阵B;4计算因子得分。确定潜在因子个数的准则:1特征根大于1;2最大特征根之和占总特征根之和的70%以上。因子分析的应用Ⅰ降维作用。Ⅱ可消除共线性作用。Ⅲ因子分析可用于综合评价(因子分析可对个体也可对群体进行评价)。Ⅳ可用于判别分类,因为一个因子代表一个独立的方面(同主成分分析)。Ⅴ对量表的评价:4.logistic回归和COX风险模型在应用上的区别但是在删失数据较少或终点事件发生数较少时宜用logisti