多元统计思考题及答案

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

《多元统计分析思考题》第一章回归分析1、回归分析是怎样的一种统计方法,用来解决什么问题?答:回归分析作为统计学的一个重要分支,基于观测数据建立变量之间的某种依赖关系,用来分析数据的内在规律,解决预报、控制方面的问题。2、线性回归模型中线性关系指的是什么变量之间的关系?自变量与因变量之间一定是线性关系形式才能做线性回归吗?为什么?答:线性关系是用来描述自变量x与因变量y的关系;但是反过来如果自变量与因变量不一定要满足线性关系才能做回归,原因是回归方程只是一种拟合方法,如果自变量和因变量存在近似线性关系也可以做线性回归分析。3、实际应用中,如何设定回归方程的形式?答:通常分为一元线性回归和多元线性回归,随机变量y受到p个非随机因素x1、x2、x3……xp和随机因素Ɛ的影响,形式为:011ppyxx01p是p+1个未知参数,是随机误差,这就是回归方程的设定形式。4、多元线性回归理论模型中,每个系数(偏回归系数)的含义是什么?答:偏回归系数01p是p+1个未知参数,反映的是各个自变量对随机变量的影响程度。5、经验回归模型中,参数是如何确定的?有哪些评判参数估计的统计标准?最小二乘估计法有哪些统计性质?要想获得理想的参数估计值,需要注意一些什么问题?答:经验回归方程中参数是由最小二乘法来来估计的;评判标准有:普通最小二乘法、岭回归、主成分分析、偏最小二乘法等;最小二乘法估计的统计性质:其选择参数满足正规方程组,(1)选择参数01ˆˆ分别是模型参数01的无偏估计,期望等于模型参数;(2)选择参数是随机变量y的线性函数要想获得理想的参数估计,必须注意由于方差的大小表示随机变量取值的波动性大小,因此自变量的波动性能够影响回归系数的波动性,要想使参数估计稳定性好,必须尽量分散地取自变量并使样本个数尽可能大。6、理论回归模型中的随机误差项的实际意义是什么?为什么要在回归模型中加入随机误差项?建立回归模型时,对随机误差项作了哪些假定?这些假定的实际意义是什么?答:随机误差项Ɛ的引入使得变量之间的关系描述为一个随机方程,由于因变量y很难用有限个因素进行准确描述说明,故其代表了人们的认识局限而没有考虑到的偶然因素。7、建立自变量与因变量的回归模型,是否意味着他们之间存在因果关系?为什么?答:不是,因果关系是由变量之间的内在联系决定的,回归模型的建立只是一种定量分析手段,无法判断变量之间的内在联系,更不能判断变量之间的因果关系。8、回归分析中,为什么要作假设检验?检验依据的统计原理是什么?检验的过程是怎样的?答:因为即使我们已经建立起了模型,但是尚且不知这个回归方程是否能够比较好地反映所描述的变量之间的影响关系,必须进行统计学上的假设检验;假设性检验原理可以用小概率原理解释,通常认为小概率事件在一次试验中几乎不可能发生的,即对总体的某个假设是真实的,那么不支持这一个假设事件在一次试验中是几乎不可能发生的,要是这个事件发生了,我们就有理由怀疑这一假设的真实性,拒绝原假设;检验过程:(1)提出统计假设H0和H1;(2)构造一个与H0相关的统计量,称其为检验统计量;(3)根据其显著性水平的值,确定一个拒绝域;(4)作出统计决断;9、回归诊断可以大致确定哪些问题?回归分析有哪些基本假定?如果实际应用中不满足这些假定,将可能引起怎样的后果?如何检验实际应用问题是否满足这些假定?对于各种不满足假定的情形,分别采用哪些改进方法?答:回归诊断解决:(1)回归方程的线性假定;(2)是否存在多重共线性;(3)误差项的正态性假定;(4)误差项的独立性假设;(5)误差项同方差假定;(6)是否存在数据异常;原基本假定H:(1)假设回归方程不显著;(2)假设回归系数不显著;引起后果:与模型误差相比,自变量对因变量的影响是不重要的(模型误差太大、自变量对y的影响确实太小)。如何检验:用F统计量或者P值法来检验方程的显著性;改进方法:(1)对于模型的误差太大,我们要想办法缩小误差,检查是否漏掉了重要的自变量,或检查自变量与y的非线性关系;(2)对于自变量对y影响较小,此时应该放弃回归分析方法。10、回归分析中的R2有何意义?它能用来衡量模型优劣吗?答:R2是回归平方和与总离差平方和之比,作为评判一个模型拟合度的标准,称为样本决定系数,其值越接近1,意味着模型的拟合优度越高。但是其不是衡量模型优劣唯一标准,增加自变量会使得自由度减少,因此需要引入自由度修正的复相关系数。这些都需要视具体的情况而定。11、如何确定回归分析中变量之间的交互作用?存在交互作用时,偏回归系数的意义与不存在交互作用的情形下是否相同?为什么?答:交互作用是指因素之间联合搭配对试验指标的影响作用,存在交互作用是,偏回归系数肯定与不存在是的系数不同,毕竟变量之间有相互影响的关系。12、有哪些确定最优回归模型的准则?如何选择回归变量?答:(1)修正的复相关系数2aR达到最大;(2)预测平方和达到最小;(3)定义Cp统计量值小,选择pCp小的回归方程;(4)赤池信息量达到最小;按照以上准则进行回归变量的选择。13、在怎样的情况下需要建立标准化的回归模型?标准化回归模型与非标准化模型有何关系?形式有否不同?答:在多元线性回归分析中,由于涉及到的变量量纲不同,差别很大,需要对变量进行中心化和标准化,数据中心化处理相当于将坐标原点移至样本中心坐标系的平移不改变直线的斜率;标准化处理后建立的回归方程模型比非标准化的回归方程少一个常数项,系数存在关系。14、利用回归方法解决实际问题的大致步骤是怎样的?答:(1)根据预测目标,确定自变量和因变量;(2)建立回归预测模型;(3)进行相关分析;(4)检验回归预测模型,计算预测误差;(5)计算并确定预测值。15、你能够利用哪些软件实现进行回归分析?能否解释全部的软件输出结果?答:目前会用的软件是SPSS和matlab,关于地球物理的软件如grapher也可以进行回归分析。对于SPSS的一些输出结果,还是不太理解。第二章判别分析1、判别分析的目的是什么?答:在自然科学和社会科学研究中,研究对象用某种方法已经划分为若干类别,当得到一个新的样本数据时,要确定该样本属于已知的哪一类。2、有哪些常用的判别分析方法?这些方法的基本原理或步骤是怎样的?它们各有什么特点或优劣之处?答:(1)距离判别法:根据已知分类数据,分别计算各类的重心,即是分类的均值;判别方法是—对于任意一个样品,若它与第i类的重心距离最近,就认为它来自第i类;特点是对各类数据分布并无特定的要求(2)Fisher判别法:其基本思想是投影,将k组m元数据投影到某一个方向,使得投影后组与组之间尽可能分开,其中利用了一元方差分析的思想导出判别函数;其特点是对总体的分布没有特殊要求,是处理概率分布未知的一种方法。(3)逐步判别法:逐步引入一个“最重要”的变量进入判别式,同时对先引入判别式的一些变量进行检验,如果判别能力随着引入新变量而变得不显著,则将它从判别式中剔除,直到没有新的变量能够进入,依然没有旧变量需要剔除为止。3、判别分析与回归分析有何异同之处?答:(1)相同点:这两种方法都有关于数据预测的功能;不同点:这个估计太多了,一般来讲判别分析功能是将样品归类,回归分析是探究样品对因变量的变动影响。4、判别分析对变量与样本规模有何要求?答:判别分析对总体分布没有要求,但是判别分析的假设之一是要求每一个变量不能是其他判别变量的线性组合,即不能存在多重共线性。5、如何度量判别效果?有哪些影响判别效果的因素?答:通过评价判别准则来度量判别效果,常用方法:(1)误判率回代法;(2)误判率交叉确认估计;影响因素是个总体之间的差异程度,各个总体之间差异越大,就越有可能建立有效的判别准则,如果差异太小,则判别分析的意义不大;当各个总体服从多元正态分布,我们可以根据各总体的均值向量是否相等进行统计检验。当然也可以检验各总体的协方差矩阵是否相等来采用判别函数。6、逐步判别是如何选择判别变量的?基本思想或步骤是什么?答:在判别分析中,并不是观测变量越多越好,而是选择主要变量进行判别分析,将各个变量在分析中起的不同作用,将影响力比较低的变量保留在判别式中,会增加干扰,影响效果。因此选择显著判别力的变量来建立判别式就是逐步判别法。基本思想:其与逐步回归法类似,都是采用“有进有出”的算法,即逐步引入一个“最重要”的变量进入判别式,同时对先引入的判别式进行检验,如果其判别能力随着新引入的变量显著性降低,则该因素应该被剔除,直到变量全部进入为止。7、判别分析有哪些现实应用?举例说明。答:判别分析在实际中的应用无处不在。例如我们根据各种经济指标把各个国家分为发达国家和发展中国家,通过这些指标成功的判定了一个国家的经济发展水平。第三章聚类分析1、聚类分析的目的是什么?与判别分析有何异同?这种方法有哪些局限或欠缺?答:把某些方面相似的东西进行归类,以便从中发现规律性,达到认识客观事物规律的目的。其与判别分析相同的地方是都是研究分组的问题;不同的是各自对于预先分组对象不一样,聚类分析是未知类别,判别分析是已知类别。2、有哪些常用的聚类统计量?答:(1)Q型统计量:对样本进行聚类,用“距离”来描述样本之间的接近程度;R型统计量:对变量进行聚类,用“相似系数”来度量变量之间的近视程度。3、系统(谱系)聚类法的基本思想是怎样的?它包含哪些具体方法?答:先将待聚类的n个样品(或变量)各自看成一类,共有n类,然后按照事先选定的聚类方法计算每两类之间的聚类统计量,即某种距离(或者相似系数),将关系最密切的两类并为一类,其余不变,即的n-1类,再按照前面的计算方法计算新类与其他类之间的距离(或者相似系数),再将关系最密切的两类归为一类,其余不变,即得n-2类,继续下去,每次重复都减少一类,直到所有样品(或者变量)都归于一类。4、聚类分析对变量与样本规模有何要求?有哪些因素影响分类效果?要想减少不利因素的影响,可以采取哪些改进方法?答:聚类分析要求其样本规模较大,需要变量之间相关性较弱,变量个数小于样本数。5、实际应用问题,如何确定分类数目?答:按理来说聚类分析的分类数目是事先不知道的,但是在实际应用中,应该根据相关专业知识确定分类数目,结合聚类统计量参考确定,并使用误判定理具体分析。6、快速聚类法(K—均值法)的基本思想或步骤是怎样的?答:如果待分类样品比较多,应先给出一个大概的分类,然后不断对其进行修正,一直到分类结果比较合理为止。7、有序样品的最优分别法的基本思想或步骤是怎样的?答:将n个样品看成一类,然后根据分类的误差函数逐渐增加分类,寻求最优分割,用分段的方法找出使组内离差平方和最小的分割点。8、应用聚类分析解决实际问题的基本步骤是怎样的?应该注意哪些方面的问题?答:(1)n个变量(样品)各自成一类,一共有n类,计算两两之间的距离,构成一个对称矩阵;(2)选择这个对称矩阵中主对角元素以外的上(或者下)三角部分中的最小元素,合成的新类,并计算其与其他类之间的距离;(3)划去与新类有关的行和列,将新类与其余类别的距离组成新的n-1阶对称矩阵;(4)再重复以上步骤,直到n个样品聚为一个大类;(5)记录下合并类别的编号以及所对应的距离,绘制聚类图;(6)决定类的个数和聚类结果。第四章主成分分析与典型相关分析1、主成分分析的基本思想是什么?在低维情况下,如何利用几何图形解释主成分的意义?答:构造原始变量的适当线性组合,使其产生一系列互不相关的新变量,从中选出少量的几个新变量并使它们含有足够多的原始变量的信息,从而使这几个新变量代替原始变量分析问题和解决问题提供了可能。几何解释,可以借用平面上旋转坐标系方法来达到降维的目的。2、什么是主成分的贡献率与累计贡献率?实际应用时,如何确定主成分的个数?答:主成分中,描述第k个主成分提取的信息占据原来变量总信息的比重,称为第k个主成分的贡献率;若将前m个主成分提取的总信息的比重相加,称为主成分的累计贡献率。实际应用中,通常选取前m个主成分的累积贡献率达到一定的比列来确定主成分的个

1 / 13
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功