1名词定义绪论1.多元统计分析(多元分析):是研究多元数据处理方法的一门学科。多元分析中的“元”指主要研究指标或因变量。(研究多个因变量与一个或多个自变量的关系,称为多元分析。)2.多重分析:研究一个因变量与多个自变量的关系,称为多重分析。3.均向量:将各指标的均数用矩阵向量的形式排列,得均向量。4.方差—协方差矩阵:将各指标的方差、协方差用矩阵的形式排列,得方差-协方差矩阵。均向量的统计推断1.多元方差分析的主要思想是对方差-协方差矩阵的分解。多重线性回归1.多重线性回归:用线性方程表达一个因变量与一组自变量的数量关系,就是多重线性回归。2.m元线性回归模型:𝑦̂=𝑏0+𝑏1𝑥1+𝑏2𝑥2+⋯+𝑏𝑚𝑥𝑚(𝑦𝑖=𝑦̂𝑖+𝑒𝑖=𝑏0+𝑏1𝑥1𝑖+𝑏2𝑥2𝑖+⋯+𝑏𝑚𝑥𝑚𝑖+𝑒𝑖)3.回归方程的矩阵形式:𝒀=𝑿𝑩+𝑬=𝒀̂+𝑬4.𝒚̂:𝑦̂称为y的估计值或预测值,表示给定各自变量的值时,因变量y的估计值。5.𝒃𝒊:𝑏𝑖称为偏回归系数,简称为回归系数,表示其他自变量不变时,𝑥𝑖每改变一个单位,y估计值的变化量。6.复相关系数:复相关系数定义为决定系数之平方根。反映因变量与自变量的密切程度,不反映相关的方向。𝑅=√𝑈𝑙𝑦𝑦=√1−𝑄𝑙𝑦𝑦7.复共线性:自变量间的高度相关。8.剩余标准差:即残差之标准差。主要反映回归方程的估计精度。𝑠𝑦•12⋯𝑚=√𝑄𝑛−𝑚−1,其中𝑄=∑(𝑦𝑖−𝑦̂𝑖)2𝑛𝑖=19.赤池信息准则当模型用最小二乘法估计时𝐴𝐼𝐶=𝑛𝑙𝑛(𝑛−𝑝𝑛𝑠𝑦•12⋯𝑝2)+2𝑝当模型用极大似然法估计时𝐴𝐼𝐶=−2𝑙𝑛(𝐿)+2𝑝𝐴𝐼𝐶越小越好。logistic族回归1.优势:发病的概率P与未发病的概率1-P之比为优势。2.优势比:暴露人群的优势与非暴露人群的优势之比定义为暴露因素的优势比(𝑂𝑅)。3.logit变换:logit𝑃定义为优势的对数。4.𝒊:优势比之对数值。回归系数𝑖表示自变量𝑥𝑖改变一个单位时,logit𝑃的改变量。25.累积优势模型:将𝐾个等级人为地分为两类:{1,⋯,𝑗}与{𝑗+1,⋯,𝐾},在这两类的基础上定义的logit表示属于后𝐾−𝑗个等级的累积概率与前𝑗个等级的累积概率的比数之对数,称该模型为累积优势模型。主成分分析1.主成分分析:主成分分析是利用降维的思想,在损失很少信息的前提下,把多个指标转化为几个综合指标的多元统计方法。(主成分分析是对变量共性的提取,它利用降维分析技术来解释原变量的协方差结构。)★★★2.主成分:原变量的线性组合或综合变量,它们彼此间相互独立,且包含了原变量的所有信息。3.特征根𝝀𝒊:主成分的方差。4.特征根的贡献:每个特征根所占总方差的比例,称之为特征根的贡献。5.多主成分综合值:将前k个主成分按相应主成分的贡献加权求和。(P158)𝐹𝑖=1𝑚∑𝜆𝑖𝐶𝑖𝑘𝑖=16.条件数:条件数定义为矩阵𝑋′𝑋的最大特征根与最小特征根之比。条件数度量了特征根的散布情况,可以用来判断自变量的复共线性。因子分析1.因子分析:因子分析是研究原始变量的内部关系,简化原变量的协方差结构,分析变量中存在的复杂关系。2.因子负荷:指因子结构中原始变量与因子分析时抽取出的公共因子的相关程度。(原变量与公共因子的协方差等于因子负荷。)3.特殊因子:不能被公共因子解释的特殊部分,称为特殊因子。4.正交因子模型:正交因子模型是一种特殊的公共因子模型。其基本假设是:各个公共因子间相互独立;各个特殊因子间相互独立;各个公共因子与各个特殊因子间相互独立。5.第i共同度:k个公共因子对第i个变量的贡献称为第i共同度或共性方差、公因子方差。6.因子得分:公因子的估计值。7.Heywood现象:如果因子提取方法不是主成分法,而是用极大似然法、主因子法等,则所得特征根有时会是负的,计算累计贡献时,可能会超过100%;或公因子方差等于或超过1,这种现象称为Heywood现象。8.因子旋转:为使因子分析法求出因子负荷矩阵结构简化,便于因子的解释,常对因子负荷矩阵作变换,称为旋转。9.方差最大正交旋转:其基本思想是使公共因子的相对负荷(𝑙𝑖𝑗/ℎ𝑖2)的方差之和达到最大。10.斜交旋转:为了使新因子的意义更明确,有时甚至不惜放弃公共因子间互不相关的要求,使新的因子对应的轴穿过因子图上聚集的点,从而使这些点在新因子轴上有较大的负荷,而在其他轴上的负荷几乎等于0。聚类分析1.聚类分析:是研究“物以类聚”的一种方法。2.类:类的一个不严格定义是:相似物体的集合叫做类。判别分析1.判别分析:是判断样品所属类型的一种统计方法。常用的判别方法有距离判别法、Bayes判3别法、Fisher判别法、逐步判别法。2.先验概率:Bayes学派认为,一个事件的概率可以是人们根据经验对该事件发生的可能性所给出的个人信念。这样给出的概率称为先验概率。问答简答绪论1.多元分析在医学上的应用(P8)★★★(1)比较:对不同处理组的多个观察指标同时进行比较,从而得到一个综合的结论;(2)关系:探讨指标间的关系,探索病因及预后因子;(3)综合:在不损失有价值的信息的前提下,对多个指标进行归纳、总结,尽可能地用简单的方式来表达研究对象;(4)归类:基于个体的特征,将相似的个体进行分组或归类,寻找最好的分类规则。或答(1)比较:多元方差分析;(2)关系:多因素回归模型;(3)预测:多因素回归模型;(4)分类:聚类分析与判别分析、回归模型;(5)评价:主成分分析与因子分析。多元正态分布2.多元正态分布在实际中有着广泛应用的原因(P10)★★★(1)正态分布在许多情况下能作为真实总体的一个近似;(2)根据中心极限定理,不论总体分布如何,许多统计量的分布是近似正态的;(3)很多检验统计量的分布对正态分布条件是稳健的,即原始资料稍微偏离正态对检验结果的影响不大。3.𝒎元正态分布的性质(P12)★★★(1)每一个变量均服从正态分布;(2)变量的线性组合服从正态分布;(3)𝑚元正态分布中的任意𝑘(0𝑘𝑚)个变量服从𝑘元正态分布;(4)𝑚元正态分布的条件分布仍服从正态分布;(5)协方差为0的变量间相互独立。均向量的统计推断4.多元分析的必要性★★★(1)某些特征常常用多个相关的变量来描述(2)一元分析的缺点↓5.分别对多变量资料的单个变量进行一元分析的缺点(P18)(1)当变量较多时,重复进行一元分析会大大增加假阳性错误;(2)一元分析结果不一致时,难以得到一个综合结论;(3)忽略了变量间的相互关系。多重线性回归6.多重线性回归对资料的要求(P34&&P61)★★★4(1)自变量与因变量的关系是线性的(Linear);(2)𝐶𝑜𝑣(𝑒𝑖,𝑒𝑗)=0,即独立性(Independence);(3)𝑒𝑖~𝑁(0,2),即正态性(Normality);(4)𝑉𝑎𝑟(𝑒𝑖)=2,即方差齐性(Equalvariance)。7.自变量作用的分解(P42)★★★(1)𝑥𝑖对𝑦的直接作用=𝑏𝑖′(2)𝑥𝑖对𝑦的间接作用=∑𝑏𝑗′𝑟𝑖𝑗𝑗≠𝑖(3)𝑥𝑖对𝑦的作用𝑟𝑖𝑦=∑𝑏𝑗′𝑟𝑖𝑗𝑚𝑗=18.指标的量化(P44)(1)如果是二分类指标,常用0,1变量表示;(2)如果是多分类指标,常用哑变量表示,又称指示变量;(3)如果是等级资料,两种处理方法:其一是将等级数量化后直接进入分析;其二是视为定性指标,将其用哑变量表示。9.衡量回归方程的标准(P45)复相关系数𝑅(决定系数𝑅2)反映模型的拟合优度越大越好校正复相关系数𝑅𝑎𝑑𝑗反映模型的拟合优度越大越好剩余标准差𝑠𝑦⋅𝑥1𝑥2⋯𝑥𝑝反映回归方程的估计精度越小越好赤池信息准则𝐴𝐼𝐶前一部分反映回归方程的拟合精度,后一部分反映了模型的复杂程度。越小越好𝐶𝑝统计量𝐶𝑝越接近𝑝越好10.逐步回归“前进法”步骤(P49)(1)事先给定自变量入选标准;(2)开始时,方程中除常数项外没有自变量,按自变量对𝑦的贡献由大到小依次选入;(3)每选入一个变量,则重新计算方程外各自变量对𝑦的贡献;(4)直到方程外变量均不符合入选标准为止。11.逐步回归“后退法”步骤(P49)(1)事先给定自变量剔除标准;(2)开始时,自变量都在方程中,按自变量对𝑦的贡献由小到大依次剔除;(3)每剔除一个变量,则重新计算未被剔除的各自变量对𝑦的贡献;(4)直到方程中变量均不符合剔除标准为止。12.逐步回归“逐步向前法”步骤(P49)(1)事先给定自变量剔选标准;(2)按自变量对𝑦的贡献由大到小依次选入;(3)每选入一个变量,重新计算各自变量对𝑦的贡献;(4)如已选入的变量低于选入标准,将其剔除;(5)重新计算各自变量对𝑦的贡献,继续考虑剔除,直到方程内变量均符合选入标准,再考虑选入变量;5(6)直到方程内没有变量可被剔除,方程外没有变量可被选入为止。示意图定义剔选标准;计算贡献;while(方程外有变量可被选入,即存在变量贡献符合选入标准){选入贡献最大的变量;重新计算贡献;while(方程内有变量可被剔除,即存在变量贡献小于剔除标准){将贡献最小的变量剔除;重新计算贡献;}}13.逐步回归“逐步向后法”步骤(P50)(1)事先给定自变量剔选标准;(2)按自变量对𝑦的贡献由小到大依次剔除;(3)每剔除一个变量,重新计算各自变量对𝑦的贡献;(4)如已剔除的变量符合选入标准,将贡献最大的自变量重新选入;(5)重新计算各自变量对𝑦的贡献,继续考虑选入,直到方程外变量均符合剔除标准,再考虑剔除变量;(6)直到方程内没有变量可被剔除,方程外没有变量可被选入为止。示意图定义剔选标准;计算贡献;while(方程内有变量可被剔除,即存在变量贡献小于剔除标准){剔除贡献最小的变量;重新计算贡献;while(方程外有变量可被选入,即存在变量贡献符合选入标准){将贡献最大的变量重新选入;重新计算贡献;}}14.回归系数反常的原因(P58)(1)数据中有离群值或异常数据;(2)自变量的观察范围太窄,或方差太小;(3)样本含量不够,或自变量数太多;(4)自变量间存在复共线性。15.复共线性的存在可能会导致的现象(P59)(1)回归系数的符号与实际不符;(2)回归系数的估计值与实际相差太大;(3)回归系数的标准误太大,因而有些重要变量选不进方程;6(4)整个方程有统计学意义,而每一个自变量均无统计学意义。logistc族回归16.暴露因素量化的方法(P66)★★★17.基线状态有意义时,α可解释为?(P67)★★★(1)横断面研究中,𝑒𝛼(1+𝑒𝛼)⁄表示基线状态下,个体的患病概率;(2)队列研究中,𝑒𝛼(1+𝑒𝛼)⁄表示基线状态下,个体的发病概率;(3)成组病例-对照研究中,𝑒𝛼(1+𝑒𝛼)⁄表示基线状态下,病例在研究对象中所占比例;(4)1:1配比病例-对照研究中,α=0,𝑒𝛼(1+𝑒𝛼)⁄=0.5,表示基线状态下病例在研究对象中占一半。18.建模策略(P94)★★★(1)任一建模过程均应从详细的各变量的单因素分析开始。(2)对性质相同的一些自变量进行部分多因素分析,并探讨自变量纳入模型时的适宜尺度,及自变量间的必要的一些变量变换。;(3)在单变量分析和相关自变量分析的基础上,进行多因素的逐步筛选;(4)在多因素筛选模型的基础上,考虑有无必要纳入变量的交互作用项。19.logistic族回归模型的应用条件(P94)★★★(1)独立性;(2)logit𝑃与自变量的关系是线性的;(3)累计优势logistic回归模型假设,自变量的回归系数与分割点j无关;(4)相邻优势logistic回归模型假设,相邻等级比较时,自变量的回归系数应相等,与比较的两类无关。(5)当对队列资料