多元分析复习题及答案

流氓lr
1 ℃
2019-12-23

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

1.什么是单变量（一元）分析？什么是多元分析？对多变量资料为什么不能用一元分析代替多元分析？答案：应变量(因变量/反应变量)即分析指标仅一个时：称一元分析或单变量分析。应变量(因变量/反应变量)即分析指标有多个时：称多元分析/多变量分析。对多变量资料分别进行单变量分析，可能导致①增大犯第Ⅰ类错误的概率②当单变量分析结果不一致时，很难得到一个综合的结论③忽略变量间的相互关系。因此，多元分析与一元分析在使用时是相辅相成的。多元统计分析具有概括和全面考虑的综合能力和特点一元分析(单指标)容易分析各指标各组间的关系和差异两种结合起来所得结论更丰富2.某研究者对当地40岁以上人群进行调查，收集性别、ECG、年龄与患冠状动脉疾病数据，并进行回归分析，数据的编码及SPSS软件分析结果如下，写出回归模型的一般形式，并解释各回归系数（结合or值）。因素赋值说明性别1=男性，0=女性ECG1=ST段压低0.1mV，2=ST段压低范围在0.1~0.2mV3=ST段压低范围≥0.2mV年龄(岁)冠状动脉疾病Y是=1否=0SPSS软件分析结果因素回归系数标准误Wald卡方P值OR值常数项-20.2074.56218.6660.000性别0.2630.6360.1710.6790.072ECG1.6340.6825.7440.0175.124年龄0.0850.0365.5210.0191.089答案：=-20.207+0.263性别+1.634EGG+0.085年龄根据spss软件结果可知，影响冠状动脉疾病患病的因素有ECG和年龄；偏回归系数解释实际是对OR的解释：ECG的OR值为5.124，即ECG每增加一个等级，患冠状动脉疾病的风险增加4.124倍（5.124-1））并且ECG的影响大于年龄的影响；年龄OR值1.089，年龄增大一岁患冠状动脉疾病的风险是原来的1.089倍。3、测定n例糖尿病人的血糖（Y，mmol/L），胰岛素(X1,mu/L)以及生长素(X2,g/L)的数值，均为定量资料。并建立了血糖对于胰岛素及生长素的多重线性回归方程，ˆY=17.0018-0.4059X1+0.0977X2.假定经过检验方程有意义,且两个偏回归系数都有统计学意义,请回答：1）多重线性回归对应变量和自变量有哪些要求？答案：Y（应变量）变量服从正态分布的连续性随机变量；自变量x大多数应为连续性变量，可以有少部分的分类变量（两分类、无序多分类和有许多分类）2）请解释两个偏回归系数的含义。b1为-0.4059，在其他自变量（生长素不变）不变的情况下，胰岛素每增加1mu/L，血糖下降0.4059mmol/L。b1为0.0977，在其他自变量（胰岛素水平不变）不变的情况下，生长素每增加1g/L，血糖增加0.0977mmol/L。3）若评价此多重线性回归方程优劣程度应选取什么指标？剩余标准差或调整决定系数。4.为研究恶性肠道梗阻住院患者生存时间的影响因素，在1995年至2000年间，收集了三所医院95例住院患者的资料，各变量的赋值说明见表16-3。表16-395例恶性肠道梗阻住院患者资料各变量赋值说明变量说明赋值ID编号time生存时间(天)status生存状态0=删失，1=死亡group支架类型1=金属支架，2=塑料内涵管gender性别1=男，2=女complica并发症0=无，1=有obstruct梗阻段1=上段，2=中段，3=下段stage分期1=Ⅰ期，2=Ⅱ期，3=Ⅲ期，4=Ⅳ期size肿瘤体积(cm3)duration住院天数表16-10Cox回归分析参数估计及假设检验结果变量偏回归系数标准误Wald2P值OR值OR值95%置信区间下限上限group1.1550.4327.1510.0073.1751.3617.403gender0.0230.4210.0030.9570.9780.4292.230duration0.0120.0073.4060.0651.0120.9991.026complica0.2340.38603670.5451.2630.5932.689obstruct0.3270.1773.3960.0650.7210.5091.021size0.0180.0069.4890.0021.0191.0071.031stage0.7550.2449.5720.0022.1291.3193.4351）对生存状况有影响的自变量有哪些？答案：group，size，stage2)哪些是保护因素，哪些是危险因素？答案：size为保护因素，group、stage危险因素。3）如何解释有意义自变量的影响程度？（此解释与前述第二题解释相似。）5.生存资料的特点、生存分析的目的。①蕴涵有结局和时间两个方面的信息；②结局为两分类互斥事件；③一般是通过随访收集得到，随访观察往往是从某统一时间点(如确诊、入院或实施手术等某种处理措施后)开始，观察到某规定时间点截止；④常因失访等原因造成某些研究对象的生存时间数据不完整；数据分完全数据和删失数据。⑤生存时间不服从正态分布，需用生存分析①描述生存过程②比较生存过程③生存过程的影响因素分析6.主成分分析与因子分析有何异同？1.区别：(1)研究目的不同主成分分析，降维和消除多重共线性；因子分析：寻找内在结构，解释事物间的关联。(2)应用条件不同：因子分析的条件更严格，样本量足够大，变量间存在相关性(Bratlett’s球形检验P0.05)；KMO统计量0.7左右。(3)模型不同主成分分析：主成分为原变量的线性组合；因子分析模型：原变量为主因子和特殊因子的线性组合联系：因子分析采用主成分法，不进行因子旋转的分析结果与主成分分析结果一致。7.聚类分析和判别分析有什么异同点？聚类分析可以对样品进行分类，也可以对指标进行分类；判别分析只能对样品进行分类聚类分析事先不知道事物的类别，也不知道应该分几类；判别分析必须事先知道事物的类别，也知道分几类聚类分析不需要分类的历史资料，能直接对样品进行分类；判别分析需要分类历史资料(训练样品)去建立判别函数，然后才对样品进行分类。8.简述简单相关、复相关、偏相关以及典型相关分析有何区别？简单相关：两个连续型定量变量相关分析，说明相关关系的方向和密切程度；复相关分析：说明一个定量变量与另一组定量变量间的相互关系；偏相关：扣除其他变量的影响，分析两个定量变量间的相关关系；典型相关分析：一组定量变量和另一组定量变量间的相互关系。9.什么是多重共线性？如何识别？当发生共线性如何处理？答案：自变量之间存在着较强的线性关系，此现象称为自变量间的多重共线性(collinearity)。识别：1）回归系数的符号与由专业知识不符2）变量的重要性与专业不符3）整个方程有意义或决定系数R2高，但各自变量对应回归系数均没有统计学意义。解决共线性的主要方法：筛选自变量用主成分回归岭回归4.主成分分析的主要用途有哪些？主要用途：降维(减少变量的个数)；消除严重多重共线性，进行主成分回归分析；综合评价，(确定各指标的权重)；作为复杂数据分析中的中间环节，可以进一步进行聚类分析、判别等分析。