第一章多元正态分布1.在数据处理时,为什么通常要进行标准化处理?数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。其中最典型的就是0-1标准化和Z标准化。(1)0-1标准化(0-1normalization)也叫离差标准化,是对原始数据的线性变换,使结果落到[0,1]区间,转换函数如下:其中max为样本数据的最大值,min为样本数据的最小值。这种方法有一个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。(2)Z-score标准化(zero-meannormalization)也叫标准差标准化,经过处理的数据符合标准正态分布,即均值为0,标准差为1,也是SPSS中最为常用的标准化方法,其转化函数为:其中μ为所有样本数据的均值,σ为所有样本数据的标准差。2、欧氏距离与马氏距离的优缺点是什么?欧氏距离(Euclideandistance)也称欧几里得度量、欧几里得度量,是一个通常采用的距离定义,它是在m维空间中两个点之间的真实距离。在二维和三维空间中的欧氏距离的就是两点之间的距离。缺点:就大部分统计问题而言,欧氏距离是不能令人满意的。(每个坐标对欧氏距离的贡献是同等的。当坐标表示测量值时,它们往往带有大小不等的随机波动,在这种情况下,合理的方法是对坐标加权,使变化较大的坐标比变化较小的坐标有较小的权系数,这就产生了各种距离。当各个分量为不同性质的量时,“距离”的大小与指标的单位有关。它将样品的不同属性(即各指标或各变量)之间的差别等同看待,这一点有时不能满足实际要求。没有考虑到总体变异对距离远近的影响。马氏距离(Mahalanobisdistance)是由印度统计学家马哈拉诺比斯提出的,表示数据的协方差距离。为两个服从同一分布并且其协方差矩阵为Σ的随机变量与的差异程度:如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离。它是一种有效的计算两个未知样本集的相似度的方法。对于一个均值为μ,协方差矩阵为Σ的多变量向量,样本与总体的马氏距离为(dm)^2=(x-μ)'Σ^(-1)(x-μ)。在绝大多数情况下,马氏距离是可以顺利计算的,但是马氏距离的计算是不稳定的,不稳定的来源是协方差矩阵,这也是马氏距离与欧式距离的最大差异之处。优点:它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关。(它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的)并且是尺度无关的(scale-invariant),即独立于测量尺度);由标准化数据和中心化数据(即原始数据与均值之差)计算出的二点之间的马氏距离相同。马氏距离还可以排除变量之间的相关性的干扰。缺点:夸大了变化微小的变量的作用。受协方差矩阵不稳定的影响,马氏距离并不总是能顺利计算出。3、当变量X1和X2方向上的变差相等,且与互相独立时,采用欧氏距离与统计距离是否一致?统计距离区别于欧式距离,此距离要依赖样本的方差和协方差,能够体现各变量在变差大小上的不同,以及优势存在的相关性,还要求距离与各变量所用的单位无关。如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,则马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧氏距离。第二章均值向量和协方差阵的检验3、多元均值检验,从题意知道,容量为9的样本,总体协方差未知假设H0:0,H1:0(n=9p=5)检验统计量/(n-1))()(0102XSXnT服从P,n-1的2T分布统计量2T实际上是样本均值与已知总体均值之间的马氏距离再乘以n*(n-1),这个值越大,相等的可能性越小,备择假设成立时,2T有变大的趋势,所以拒绝域选择2T值较大的右侧部分,也可以转变为F统计量零假设的拒绝区域{(n-p)/[(n-1)*p]}*2T,()pnpF1/10*2TF5,4(5)μ0=(6212.0132.8729729.515.78)’样本均值(4208.7835.121965.8912.2127.79)’(样本均值-μ0)’=(-2003.232.25-1006.112.7112.01)协方差矩阵(降维——因子分析——抽取)Inter-ItemCovarianceMatrix人均GDP(元)三产比重(%)人均消费(元)人口增长(%)文盲半文盲(%)人均GDP(元)1020190.840582.460331693.531-599.784-6356.325三产比重(%)582.46019.480-105.4646.62543.697人均消费(元)331693.531-105.464125364.321-213.634-3130.038人口增长(%)-599.7846.625-213.6346.09925.410文盲半文盲(%)-6356.32543.697-3130.03825.410196.884协方差的逆矩阵1.88034E-05-0.000440368-6.09781E-050.00279921-0.000625893-0.000440370.207023949-0.000210374-0.0237044-0.06044981-6.0978E-05-0.0002103740.00022733-0.01050190.0030474740.002799208-0.023704352-0.0105018810.85288927-0.18139981-0.00062589-0.060449810.003047474-0.18139980.070148804计算:边远及少数民族聚居区社会经济发展水平的指标数据.xls2T=9*(-2003.232.25-1006.112.7112.01)*s^-1*(-2003.232.25-1006.112.7112.01)’=9*50.11793817=451,06144353F统计量=45.26.2拒绝零假设,边缘及少数民族聚居区的社会经济发展水平与全国平均水平有显著差异。第三章聚类分析1.聚类分析的基本思想和功能是什么?研究的样品或指标之间存着程度不同的相似性,于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间的相似程度的统计量,以这些统计量作为划分类型的依据,把一些相似程度较大的样品聚合为一类,把另外一些彼此之间相似程度较大的样品又聚合为另外一类,直到把所有的样品聚合完毕,形成一个有小到大的分类系统,最后再把整个分类系统画成一张分群图,用它把所有样品间的亲疏关系表示出来。作用是把相似的研究对象归类。2.试述系统聚类法的原理和具体步骤。首先将n个样品看成n类(一类包含一个样品),然后将性质最接近的两类合并成一个新类,得到n-1类,再从中找出最接近的两类加以合并变成n-2类,如此下去,最后所有的样品均在一类,将上述并类过程画成一张图便可决定分多少类,每类各有哪些样品。3.试述K-均值聚类的方法原理K-均值法是一种非谱系聚类法,把每个样品聚集到其最近形心(均值)类中,它是把样品聚集成K个类的集合,类的个数k可以预先给定或者在聚类过程中确定,该方法应用于比系统聚类法大得多的数据组。把样品分为K个初始类,进行修改,逐个分派样品到期最近均值的类中(通常采用标准化数据或非标准化数据计算欧氏距离)重新计算接受新样品的类和失去样品的类的形心。重复这一步直到各类无元素进出。第四章判别分析1.应用判别分析应该具备什么样的条件被解释变量是属性变量而解释变量是度量变量,判别分析最基本的要求是,分组类型在两组以上,每组案例的规模必须至少在一个以上,解释变量必须是可测量的,才能够计算其平均值和方差,使其能合理地应用于统计函数。假设之一是:每一个判别变量(解释变量)不能是其他判别变量的线性组合。这时,为其他变量线性组合的判别变量不能提供新的信息,更重要的是在这种情况下无法估计判别函数。不仅如此,有时一个判别变量与另外的判别变量高度相关,或与另外的判别变量的线性组合高度相关,虽然能求解,但是参数估计的标准误差很大,以至于参数估计统计上不显著,这就是常说的,多重共线性问题。假设之二:各组变量的协方差矩阵相等,判别分析最简单和最常用的的形式是采用现行判别函数,他们是判别变量的简单线性组合,在各组协方差矩阵相等的假设条件下,可以使用很简单的公式来计算判别函数和进行显著性检验。假设之三:各判别变量之间具有多元正态分布,即每个变量对于所有其他变量的固定值有正态分布,在这种条件下可以精确计算显著性检验值和分组归属的概率,党委被该假设时,计算的概率将非常不准确。2.试述贝叶斯判别法的思路贝叶斯判别法的思路是先假定对研究的对象已有一定的认识,常用先验概率分布来描述这种认识,然后我们取得一个样本,用样本来修正已有的认识,(先验概率分布),得到后验概率分布,各种统计推断都通过后验概率分布来进行。将贝叶斯判别方法用于判别分析得到贝叶斯判别。(1)最大后验概率准则设有总体i(i=1,2,…k),具有概率密度函数fi(X),并且知道根据以往的统计分析,知道i出现的概率为Pi。当样本0x发生时,求属于某类的概率,由贝叶斯公式计算后验概率P(i|0x)=Pi*fi(X)/ΣPi*fi(X),i=1,2,…,k最大后验概率准则采用的判别规则是:i1,()()maxllikxpxpxX(2)最小误判代价准则设有K个总体12,,...,k分别具有p维密度函数,12(),p(x),...,p()kpxx,已知出现这k个总体的先验概率分布为12,,...kqqq用12,,...,kDDD表示样本pR的一个划分,12,,...,kDDD互不相交,且1kpiiDR,如果这个划分取得适当,正好对应于k个总体,这时判别规则可以采用如下方法,,1,2,3...iiikxxD落入用()cji表示来自样本i而被误判为j的损失,这一误判的概率为()()Djipjipxdx由以上判别规则带来的平均损失ECM1211(,,...,)()()kkkiijECMDDDqcjipji定义()0cii,目的是求12,,...,kDDD,使得ECM最小3.试述费歇判别法的思想将k组P维数据投影到某一方向,使得它们的投影组与组之间尽可能地分开。K个总体分别取得k组P维观察值(1)(1)111()()1:,...,:,...,xnkkknkGxxGx12...knnnn令a为pR中的任一向量,'(1)1()nuxax为x向以a为法线方向的投影,这时,上述数据的投影为'(1)'(1)111'()'()1:a,...,a:a,...,axnkkknkGxxGx组间平方和'()()''1[()()]kiiiiSSGanXXXXaaBa()iX为第i组均值X为总体均值向量组内平方和'()(i)()()''11[()()]kkiiijjijSSEaXXXXaaEa如果K组均值有显著差异,则''/(1)/()1SSGknkaBaFSSEnkkaEa应该充分地大,或者''()aBaaaEa应充分大(.)的极大值为1,它是0BE的最大特征根,12,,...,rlll为相应的特征向量,当1al时,可使(.)达到最大值,由于()a的大小可以衡量'()uxax判别的效果,所以称()a为判别效率。得到以下定理:费歇准则下的线性判别函数'()uxax的解a为方程0BE的最大特征根1所对应的特征向量1l,且相应的判别效率为11()l。4.什么是逐步判别分析如果在某个判别问题中,将起最重要的变量忽略了,相应的判别函数的效果一定不好。而另一方面,如果判别变量的个数太多,计算量必然大,会影响估计的精度,特别当引入了一些判别能力不强的变量时,还会严重影响到判