1.什么是单变量(一元)分析?什么是多元分析?对多变量资料为什么不能用一元分析代替多元分析?答案:应变量(因变量/反应变量)即分析指标仅一个时:称一元分析或单变量分析。应变量(因变量/反应变量)即分析指标有多个时:称多元分析/多变量分析。对多变量资料分别进行单变量分析,可能导致①增大犯第Ⅰ类错误的概率②当单变量分析结果不一致时,很难得到一个综合的结论③忽略变量间的相互关系。因此,多元分析与一元分析在使用时是相辅相成的。多元统计分析具有概括和全面考虑的综合能力和特点一元分析(单指标)容易分析各指标各组间的关系和差异两种结合起来所得结论更丰富2.某研究者对当地40岁以上人群进行调查,收集性别、ECG、年龄与患冠状动脉疾病数据,并进行回归分析,数据的编码及SPSS软件分析结果如下,写出回归模型的一般形式,并解释各回归系数(结合or值)。因素赋值说明性别1=男性,0=女性ECG1=ST段压低0.1mV,2=ST段压低范围在0.1~0.2mV3=ST段压低范围≥0.2mV年龄(岁)冠状动脉疾病Y是=1否=0SPSS软件分析结果因素回归系数标准误Wald卡方P值OR值常数项-20.2074.56218.6660.000性别0.2630.6360.1710.6790.072ECG1.6340.6825.7440.0175.124年龄0.0850.0365.5210.0191.089答案:=-20.207+0.263性别+1.634EGG+0.085年龄根据spss软件结果可知,影响冠状动脉疾病患病的因素有ECG和年龄;偏回归系数解释实际是对OR的解释:ECG的OR值为5.124,即ECG每增加一个等级,患冠状动脉疾病的风险增加4.124倍(5.124-1))并且ECG的影响大于年龄的影响;年龄OR值1.089,年龄增大一岁患冠状动脉疾病的风险是原来的1.089倍。3、测定n例糖尿病人的血糖(Y,mmol/L),胰岛素(X1,mu/L)以及生长素(X2,g/L)的数值,均为定量资料。并建立了血糖对于胰岛素及生长素的多重线性回归方程,ˆY=17.0018-0.4059X1+0.0977X2.假定经过检验方程有意义,且两个偏回归系数都有统计学意义,请回答:1)多重线性回归对应变量和自变量有哪些要求?答案:Y(应变量)变量服从正态分布的连续性随机变量;自变量x大多数应为连续性变量,可以有少部分的分类变量(两分类、无序多分类和有许多分类)2)请解释两个偏回归系数的含义。b1为-0.4059,在其他自变量(生长素不变)不变的情况下,胰岛素每增加1mu/L,血糖下降0.4059mmol/L。b1为0.0977,在其他自变量(胰岛素水平不变)不变的情况下,生长素每增加1g/L,血糖增加0.0977mmol/L。3)若评价此多重线性回归方程优劣程度应选取什么指标?剩余标准差或调整决定系数。4.为研究恶性肠道梗阻住院患者生存时间的影响因素,在1995年至2000年间,收集了三所医院95例住院患者的资料,各变量的赋值说明见表16-3。表16-395例恶性肠道梗阻住院患者资料各变量赋值说明变量说明赋值ID编号time生存时间(天)status生存状态0=删失,1=死亡group支架类型1=金属支架,2=塑料内涵管gender性别1=男,2=女complica并发症0=无,1=有obstruct梗阻段1=上段,2=中段,3=下段stage分期1=Ⅰ期,2=Ⅱ期,3=Ⅲ期,4=Ⅳ期size肿瘤体积(cm3)duration住院天数表16-10Cox回归分析参数估计及假设检验结果变量偏回归系数标准误Wald2P值OR值OR值95%置信区间下限上限group1.1550.4327.1510.0073.1751.3617.403gender0.0230.4210.0030.9570.9780.4292.230duration0.0120.0073.4060.0651.0120.9991.026complica0.2340.38603670.5451.2630.5932.689obstruct0.3270.1773.3960.0650.7210.5091.021size0.0180.0069.4890.0021.0191.0071.031stage0.7550.2449.5720.0022.1291.3193.4351)对生存状况有影响的自变量有哪些?答案:group,size,stage2)哪些是保护因素,哪些是危险因素?答案:size为保护因素,group、stage危险因素。3)如何解释有意义自变量的影响程度?(此解释与前述第二题解释相似。)5.生存资料的特点、生存分析的目的。①蕴涵有结局和时间两个方面的信息;②结局为两分类互斥事件;③一般是通过随访收集得到,随访观察往往是从某统一时间点(如确诊、入院或实施手术等某种处理措施后)开始,观察到某规定时间点截止;④常因失访等原因造成某些研究对象的生存时间数据不完整;数据分完全数据和删失数据。⑤生存时间不服从正态分布,需用生存分析①描述生存过程②比较生存过程③生存过程的影响因素分析6.主成分分析与因子分析有何异同?1.区别:(1)研究目的不同主成分分析,降维和消除多重共线性;因子分析:寻找内在结构,解释事物间的关联。(2)应用条件不同:因子分析的条件更严格,样本量足够大,变量间存在相关性(Bratlett’s球形检验P0.05);KMO统计量0.7左右。(3)模型不同主成分分析:主成分为原变量的线性组合;因子分析模型:原变量为主因子和特殊因子的线性组合联系:因子分析采用主成分法,不进行因子旋转的分析结果与主成分分析结果一致。7.聚类分析和判别分析有什么异同点?聚类分析可以对样品进行分类,也可以对指标进行分类;判别分析只能对样品进行分类聚类分析事先不知道事物的类别,也不知道应该分几类;判别分析必须事先知道事物的类别,也知道分几类聚类分析不需要分类的历史资料,能直接对样品进行分类;判别分析需要分类历史资料(训练样品)去建立判别函数,然后才对样品进行分类。8.简述简单相关、复相关、偏相关以及典型相关分析有何区别?简单相关:两个连续型定量变量相关分析,说明相关关系的方向和密切程度;复相关分析:说明一个定量变量与另一组定量变量间的相互关系;偏相关:扣除其他变量的影响,分析两个定量变量间的相关关系;典型相关分析:一组定量变量和另一组定量变量间的相互关系。9.什么是多重共线性?如何识别?当发生共线性如何处理?答案:自变量之间存在着较强的线性关系,此现象称为自变量间的多重共线性(collinearity)。识别:1)回归系数的符号与由专业知识不符2)变量的重要性与专业不符3)整个方程有意义或决定系数R2高,但各自变量对应回归系数均没有统计学意义。解决共线性的主要方法:筛选自变量用主成分回归岭回归4.主成分分析的主要用途有哪些?主要用途:降维(减少变量的个数);消除严重多重共线性,进行主成分回归分析;综合评价,(确定各指标的权重);作为复杂数据分析中的中间环节,可以进一步进行聚类分析、判别等分析。