同济医学院-《医学多元统计》课件-电子版多元统计

demhenter
2 ℃
2020-03-04

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

1直线回归&直线相关2几个概念区别（1）偏回归系数：多元回归方程中b1┄为在其他自变量固定的条件下，xi改变一个单位时应变量的改变量，在多元回归方程中常称为偏回归系数。可以直接用来解释自变量和因变量的依存关系，没有消除量纲的影响，在同一模型中不能相互比较，在不同模型中可以进行比较。（2）标准化偏回归系数：由于各自变量的单位不同，因此偏回归系数值大小不能说明各自变量的重要性。┄是对每个变量都作标准化，用标准化的变量求得的偏回归系数。可以说明各自变量相对贡献大小。消除了量纲的影响，可在同一模型中对参数估计值进行大小比较，绝对值大的对应的自变量对因变量的影响大，但本身无实际意义。不能直接用来解释自变量和因变量的依存关系，不能在不同模型中进行比较。（3）相关系数：表示两个随机变量之间线性相关程度和方向的统计量，没有单位，取值范围（-1,1）。正负值表示两变量之间线性相关的方向。00=0；绝对值越大表示两变量之间线性相关的密切程度，越接近1密切程度越高。（4）复相关系数：决定系数的平方根R，表示变量Y与p个自变量（x1，x2，xp）的线性相关的程度。（5）偏相关系数：一般的，扣除其他变量影响后，变量Y与X的相关，称为Y与X的偏相关系数。（6）决定系数R2：回归平方和在总平方和中所占的百分比【0,1】无单位，反映了回归贡献的相对程度，即在因变量Y的总变异中回归关系所能解释的比例。R2越接近1，表示样本数据很好地拟合了所选线性回归模型。对于Ⅱ型回归，数值上SS回/SS总=r2，但Ⅰ型回归和多重回归不存在该性质。（7）调整的决定系数：决定系数的一个缺点是随回归方程中自变量增加，只增不减，可能使回归方程中包含一些对解释Y变异程度贡献极小的自变量。┄=R2-p（1-R2）/(n-p-1),即对自变量个数实施惩罚，在解释变异能力和自变量个数之间做出折中，使模型能尽可能较少自变量更多地解释Y的变异。3多元回归&多元相关（1）相同点：都讨论了变量之间的关联性（2）区别：①多元回归分析给出了变量之间的依存关系，而多元相关分析没有给出依存关系；②多元回归分析要求将变量分为自变量和因类型直线回归（线性回归）直线相关（线性相关）联系都讨论了变量之间的关联性对于既可以作相关又可以做回归分析的同一组数据，计算的b与r正负号一致假设检验等价：对同一样本，r和b经过t检验之后得到的值相等，即tr=tb。用回归可以解释相关，决定系数r2=SS回/SS总，r2越接近1，说明相关性越好。区别资料要求线性回归要求应变量Y是服从正态分布的随机变量线性相关要求X和Y为服从双变量正态分布的随机变量应用目的回归分析说明X和Y之间的数量依存关系，用以说明Y如何依赖于X变化相关分析说明X和Y之间的关联关系，是平等关系意义回归系数b表示每增/减一个单位时，Y平均改变b个单位相关系数r说明具有线性相关的两个变量之间关系的密切程度和相关方向取值范围-∞＜b＜+∞-1≤r≤1单位回归系数b有量纲，受X、Y计量单位的影响r无量纲，不受X、Y计量单位的影响变量，而多元相关分析不要求将变量分为自变量和因变量；③多元回归分析要求因变量服从正态分析，而多元相关分析要求所有变量服从正太分布。4Logistic&多元线性回归（1）相同点：①都可以利用模型来筛选危险因素，在估计出回归系数后，可以得到相应因素的危险度；②都可以校正混杂因子的影响；③都可以用来预测。（2）不同点：多元线性回归分析应变量的分布必须是正态分布应变量必须是连续型随机数值变量要求自变量和应变量之间存在线性依存关系直接分析应变量与自变量之间的关系既适合大样本也可用于小样本资料5最小二乘法&最大似然函数法最小二乘原理：为了使估算的y与实测的y间的误差越小越好，由n个实测点决定一条回归线时，往往用最小二乘法，即在所有直线中找使估计误差平方和∑（y体体有y）2达最小值的直线作为回归线。极大似然原理：直观的想法是一个随机试验如果有若干可能ABC结果，在一次试验中A出现了，则一般认为A出现概率很大，试验条件对A出现有利。已知某参数能使这个样本出现的概率最大，我们不再选择小概率样本，干脆将这个参数作为估计的真实值。最大似然法就是选取使得总体真参数落在样本观察值领域里的概率达到最大的参数值作为真参数的估计值。极大似然法需要已知概率分布函数。5logistic&COX（1）相同点：在估计出回归系数后，可以得到相应因素的相对危险度。（2）不同点：①logistic分析只考虑了事件的结果，没有考虑生存时间的长短，因此Cox模型更多利用了资料的信息。②logistic回归模型要求资料满足事件的发生率较低的假定，而Cox模型不受该条件的限制。③在前瞻性研究中，如用logistic回归分析方法，则在设计上要求每个观察对象的观察时间长短一致，而用Cox回归分析方法，在研究设计上比较灵活，只要记录每个观察对象的观察时间即可。④在有研究对象发生失访时，用logistic回归较难处理，而用Cox回归处理容易得多。Logistic回归分析可用于多因素预后分析，控制混杂因素效应，并可进行优势比OR或相对危险度RR的估计，但是不能处理随访中常见的删失数据。另外，logistic回归模型仅考虑随访结局（生存或死亡，有效或无效），而未考虑出现结局的时间长短。Cox比例危险率回归模型的应变量观察结局和有关时间，它不仅可以从结局的好坏，而且可以从出现该结局的时间长短进行比较，并且可以进行相对危险度RR的估计，因此cox回归具有logistic回归模型的所有优点，并可以处理删失数据，特别适用于长期随访资料的分析，如肿瘤及慢性病的预后分析。但当数据删失较少或终点事件发生数较少时，宜用logistic回归。一、多元线性回归1模型条件：①应变量Y是服从正态分布的连续性随机变量，与x1、x2、…、xm之间具有线性关系；②各例观察值Yi（i=1，2，…，n）相互独立；③K个自变量是固定变量（即非随机的或无度量误差的变量）；④K个自变量相互独立，之间不存在多重共线性；⑤k个自变量与残差独立；⑥残差ei是相互独立的随机变量，且服从均值为0、方差为σ2（常数）的正态分布；⑦各残差间相互独立；2在医学中的应用：①确定多个指标变量与一个反应变量之间的线性关系。②筛选疾病的危险因素和有利于健康的健康促进因素。（影响因素分析[a.控制混杂因素b.分析研究哪些因素影响较大]）例如在疾病病因研究中，多元线性回归分析可以从众多相关因素中筛选出疾病的主要危险因素，并估计出这些危险因素对引起疾病发生的相对重要程度。③从较易测得的自变量来推测较难测得的自变量。（身高、体重——身体表面积）④从已知发生的X来预测将发生的Y（估计和预测）。根据病人术后观察的一些指标和术后存活时间建立两者之间的多元回归方程，用于预测其他同类型病人的术后生存时间。⑤用于建立专家辅助诊断系统。利用著名医生诊断疾病的各项检验指标和诊断结果，建立各种疾病的发病率或死亡率和这些指标之间的关系，其他人可以借助该模型分析病情，这就是专家辅助诊断系统。⑥统计控制（预报和控制）：利用回归方程进行逆估计，即给应变量Y指定一个确定的值或者在一定范围内波动，通过控制自变量的值来实现。二logistic回归1条件：①因变量是分类变量，包括顺序变量和名义变量。不论是哪种变量都要用数字来表示它的取值。自变量可以是数值型连续变量，也可以是顺序型分类变量，如果是名义变量，则需要转换成哑变量来处理。②自变量与应变量没有线性关系；③各观测对象/研究个体间相互独立，不适用于传染病、遗传性疾病或家族聚集性疾病的发病因素研究；④对所需样本大小与自变量个数，一般认为样本应为自变量个数的5~10倍，样本含量过少参数估计值不稳定，甚至专业上无法解释。2原理：①因变量y是分类型变量，自变量x是与之有关的一些因素。②从数学角度看，很难找到一个函数y=f(x)，当x变化时，它对应的函数值y仅取两个或几个有限值。③研究者将所要研究的问题转换了一个角度，不是直接分析y与x的关系，而是分析y取某个值的概率p与x的关系。④分析因变量y取某个值的概率p与自变量x的关系，等价于寻找一个连续函数p=p(x)，使得当x变化时，它对应的函数值p不超出[0,1]范围。⑤数学上这样的函数是存在且不唯一的，logistic回归模型就是满足这种要求的函数之一。⑥从数学角度看，logistic回归模型非常巧妙地避开了分类型变量的分布问题，补充完善了线性回归模型和广义线性回归分析的缺陷。利用一组观测数据拟合一个logistic模型，然后借助这个模型揭示总体中若干个自变量与一个因变量取每个值的概率之间的依存关系，并评估用这一模型模拟相关事物变化规律的准确性。具体说，logistic分析可以从统计意义上确定在消除了其他自变量的影响后，每一个自变量的变化是否引起因变量取某个值概率的变化，并且估计出在其他自变量固定不变的情况下，每个自变量对因变量取某个值的概率的数值影响大小。3分类：非条件logistic回归（根据因变量可分为二分类、多分类无序、多分类有序）：用于成组数据或非配对的病例对照研究。条件logistic回归（根据因变量可分为二分类、多分类无序、多分类有序）：用于配对病例对照研究。同一协变量在各个配对组中有相同的作用，而ai是随配对组的不同而变化的，反映了各配对组的特性。在配对研究中并不关心配对因素的作用，可以不估计a1┄an，而同一协变量在各个配对组中的作用是相同的，用条件似然函数替代一般似然函数。在参数估计时属于每个配对组的参数ai会被消去，从而减少了参数估计的个数，降低了对样本含量的要求。4Logistic回归模型在医学中的应用：①筛选危险因子。常用于流行病学的病因学研究中，研究疾病与致病因子间的联系，以疾病发生与否作为应变量，影响疾病发生的因子为自变量，估计各因子的相对危险度或比数比，即适用于定群研究资料，又适用于病例体对照研究资料。②校正混杂因子，校正非研究因素的混杂作用，常用于临床实验数据分析。如它可以消除性别、年龄、病情等对治疗效果分析的干扰，消除年龄、职业、收入等对生活嗜好与疾病关系分析的干扰等。③预测疾病或事件发生的概率。非条件logistic回归模型是一个概率模型，它可用于预测事件发生的概率，如暴露在某些危险因素下的得病的概率，这是其它模型所不具有的特性。④将样本进行判别分类。它起的作用和判别分析一样，但它对数据的分布没有严格要求，这使其在医学研究中使用很方便。⑤Logistic曲线的拟合，常用于分析药物或毒物的剂量反应。医学中不少指标变量之间的关系呈现logistic曲线形状。常用的拟合曲线分析，如药物有效剂量估计、剂量反应的趋势分析等。三Cox比例风险模型（logistic回归只考虑终点事件的出现与否，生存分析就是将终点事件的出现与否和达到终点所经时间结合起来分析的一类统计分析方法）1基本思想：类似logistic回归模型2Cox模型在医学中的应用：①Cox模型是一种多元统计分析方法，可分析多种因素对疾病预后或对生存时间的影响。这一多变量统计方法使生产分析更适合流行病学研究。流行病学研究的重要目的之一是分析各种因子与发病的关系，Cox模型可用来分析各种因子对发病的影响。②Cox模型具有一般回归方法的特点，可用于比较和预测，在其它因素固定的情况下，它可用于某一因素不同水平的比较；在患者的各种因素已知时，可预测不同时刻的生存概率。③cox模型应用时不受生存时间分布的影响，比其他生存分析方法应用的范围更广。属于半参数模型，对资料没有特殊要求，该模型还能排除混杂因素的影响，筛选出影响生存时间的因素，且能利用截尾数值提供的信息。它将定性指标与定量指标信息相结合，进行分析，利用了数据提供的信息，提高效率。临床试验和实验医学研究中，有时观察结果是定性指标，如“显效”、“死亡”等，就需要有大量数据才能使实验获得统计学上的可靠结论，如果同时将观察结果的发生时间记录下来，增加信息量，用Cox模型可起到以少量观察对象得到可靠结论的作用，从而提高实验效率。此外，Cox模型在分析过程中不用归组，使得资料保存的信息