多元统计方法及应用概述数据预处理数据分析与处理数据描述性分析1、多元统计的研究对象:针对工程实践中收集的随机数据,采用定量的方法将隐藏在原始数据中的信息提炼出来,找出其中隐含的内在规律。可以认为多元统计的主要工作是寻找原始数据的内在规律。具体开展的时候有很多数据处理的方法。2、主要内容:数据预处理、回归分析、趋势面分析、聚类分析、判别分析、降维技术(主成分分析、因子分析、相关分析)。3、回归分析:研究随机变量之间的相关关系。趋势面分析:定量地研究事物在大范围上的变化规律,也可说是研究事物的变化趋势以及事物在局部范围的特殊性。聚类分析:采用距离统计量作为分类的依据,将样本聚合成一类。判别分析:判别分析就是要根据“总体”的已知知识和对待判样品的某些特征指标值,去判断样品应归属于哪一个“总体”。主成分分析:研究如何将多个特征变量综合成少数几个变量的一种统计方法。因子分析:因子分析是主成分分析的进一步发展,是一种很好的降维技术,它是用较少个数的公共因子的线性函数和特定因子之和来表达原来观测的每个变量,以便达到合理地解释存在于原始变量间的相关性和简化变量的个数的目的。4、数理统计学是研究收集数据、分析数据并据以对所研究的问题作出一定的结论的科学和艺术。多元统计中的原理方法对高等数学、线形代数、概率论与数理统计的综合程度很高。5、数据是信息的载体。数据分析方法就是分析和处理数据的理论与方法,从中获得有用的信息(规律)。从这个意义上讲,数据分析不存在固定的解决方法,分析的目的和分析的方法不同,会从同一数据中发掘出各种有用信息。数据分析与处理的研究内容:采用定量的方法对原始数据进行分析和处理,提取数据中可能蕴含的信息,揭示事物可能存在的规律性。6、数据预处理包括定性数据定量化和归一化处理。数据归“1”化处理包括变量的标准化、变量的正规化和变量的规格化。变量的标准化设有n个样品,m个特征变量,设第i个样品,第j个变量的观测值为:由此可构成一个n×m阶矩阵为:将上式中每个变量根据以下公式变换,称为标准化:式中:标准化后变量的平均值为0,标准离差为1。变量的正规化对每个变量施行以下变换,称为正规化:式中和别为第j个变量的最大和最小值。特点:变量的规格化对每个变量施行以下变换,称为规格化:式中为第j个变量的最大值。特点:7、数据的描述性分析即是从数据出发概括数据特征,主要是包括数据的位置特征、分散性、关联性等数字特征和反映数据整体结构的分布特征;它是数据分析的第一步,也是数据进行更进一步分析的基础。8、表示位置的数字特征:1)均值均值描述了数据取值的平均位置,平均值是全部数据的代数和除以样本量N。2)中位数),,2,1;,,2,1(mjnixijnmnnmmmnijxxxxxxxxxxX212222111211)(ijx),,2,1(),,2,1(mjniSxxxjjijij),,2,1(),,2,1((min)(max)(min)mjnixxxxxjjjijij(max)jx(min)jx10ijx),,2,1(),,2,1((max)mjnixxxjijij(max)jx10ijx中位数是描述数据的中心位置的数字特征,其确定方法是将所有数据以由小到大的顺序排列,位于中央的数据值就是中位数。3)分位数对的p(0≤p<1)分位数。p分位数就是p位置的数.分位数的延伸——总体分位数设总体分布F(x)为连续型分布(函数),0p1,称满足的为总体分布F(x)的p分位数。并且,当n充分大的时候,。9、表示分散性的数字特征:1)方差方差是描述数据取值分散性的一种度量,它是数据相对于平均值的偏差的平方的平均。方差越小,数据越集中,分散性越差!标准方差变异系数(相对分散性,无量纲)变异系数越小,数据越集中2)极差极差是一种较简单的描述数据分散性的数字特征,它是样本中数据的最大值与最小值之差,可表示为:R=xmax-xmin四分位极差R1=Q3-Q1其中Q3为3/4分位数,Q1为1/4分位数。3)截断点数据分析中,有一种判断数据异常值的简便方法,定义Q1-1.5R1,Q3+1.5R1分别为数据的下、上截断点,此范围外的数据,一般就视为异常值。P(Q1-1.5R1xQ3+1.5R1)10、表示分布形状的数字特征1)偏度(skewness)偏度是刻画数据分布对称性的指标:对称分布的偏度为0,正偏态分布数据的偏度值大于0,负偏态数据的偏度值小于0。2)峰度(kurtosis)峰度是以正态分布为标准来描述数据资料的形状为陡峭或者平坦的统计量。正态分布的峰度值为0;峰度大于0,数据形态较为陡峭;峰度小于0,数据形态较为平坦。11、大数定律12、数据分布的主要描述方法是直方图与茎叶图等。如果数据来自具有概率密度f(x)的总体,以频率除以组距的直方图的边缘线可以作为总体概率密度f(x)的估计。常用的参数分布类型:经验分布函数图也就是累计图,也就是说,可以用经验分布函数(累计图)作为总体分布函数F(x)的估计。13、在实际中,人们更多遇到的是多维数据,它是从多维总体(P维)中观测得到的。对于多维数据,除按前述一维数据的描述性分析方法分析各分量取值的数字特征外,更重要的是分析各个分量之间的相关关系,这就是多维数据的相关分析。相关系数是随机变量X、Y观测数据的两个分量线性相关性密切程度的度量:1)当rxy=0(或rxy≈0)时,称X、Y的观测数据是不相关的(或近似不相关);2)当0rxy1时,称X、Y的观测数据是线性正相关的;3)当-1rxy0时,称X、Y的观测数据是线性负相关的;4)当rxy=1(或rxy=-1)时,称X、Y的观测数据完全线性相关。14、以上定义的观测数据的相关系数r称为Pearson相关系数(皮尔生),这是一种最常用的相关系数。还有其他类型的相关系数,在此介绍Spearman相关系数。第一章方差分析双因子方差分析1、方差分析就是根据试验的结果进行分析,进而鉴别各有关因素对试验结果影响程度的一种统计方法。在实验中,我们将试验结果又称为试验指标,影响试验指标(试验结果)的条件称为因素。2、因素可分为两类,一类是人们可以控制的(可控因素);一类是人们不能控制的。以下我们所说的因素都是可控因素。因素所处的状态,称为该因素的水平。如果在一项试验中只有一个因素对试验结果有影响称为单因素方差分析,如果多于一个因素对试验结果有影响称为多因素方差分析。简言之方差分析的研究对象就是研究因素对试验结果的影响程度是否显著。3、假设随机变量X(试验结果)仅受单因素变化影响,现以该因素的k2个不同水平进行了n次试验,得到试验数据,将试验数据按不同水平分组排列如下:每个数据表示为xij,其含义为第i个水平下,第j次试验所得数据。4、表示第i个水平下的平均值(称为组内平均值):令,则。对于全部n个数据的总平均值:若令、,则。将各数据与总平均值之差的平方和称为总离差平方和,记为Q:简化为。称()为组间离差平方和,称()为组内离差平方和。可以证明。5、可以证明:总离差Q的自由度为f=n-1;组间离差Q1的自由度为f1=k-1;组内离差的自由度为f2=n-k。组间方差;组内方差。统计量服从自由度f1=k-1和自由度f2=n-k的F分布。6、单因素方差分析的目的就是要研究在一个因素条件下,各水平对试验结果有无显著性影响。为此不妨设在k个水平下,分别进行了n次试验,如在第i个水平下,进行n次试验,所得数据记为:xi1、xi2、…、xin该第个i水平下所产生的实验数据假设服从正态分布:用假设检验来表示即为:不全相等。为此由已构造出的统计量:对于给定的水平α,查F检验的临界值得Fα,将统计量F值与Fα比较,有下列几种情况,由此作出判断:1)如果F<F0.1,则该因素的不同水平对试验结果没有显著影响;2)如果F0.05>F>F0.1,则该因素的不同水平对试验结果有一定影响;3)如果F>F0.05,则该因素的不同水平对试验结果有显著影响;4)如果F>F0.01,则该因素的不同水平对试验结果有高度显著的影响。7、实际问题中,往往需要同时考虑两个或多个因素对于试验指标(试验结果)的影响,研究两个或多个因素对试验结果有无显著性影响的统计方法就是多因素方差分析所要解决的问题。随机变量X受两个因素A和B的影响,因素A有个r水平,因素B有t个水平,两种因素的不同水平共有r×t种组合;对每种组合都各作n次试验,即作重复数相等的试验,所以试验总次数为r×t×n。试验数据的通式可写为xijv,它表示A因素取第i水平、B因素取第j水平时,第v次试验所得到的数据。8、用表示A因素取第i水平、B因素取第j水平时n次试验的平均值。每行的行平均数的通式可写为;每列的列平均数的通式写为;全部数据的总平均数记为。总的离差平方和记为Q:;因素A的离差平方和(i行间平方和):,自由度;因素B的离差平方和(j列间平方和):,自由度为;因素A、B的交互作用A×B的离差平方和:,交互作用离差平方和的自由度;剩余平方和(误差平方和):,误差平方和的自由度;总离差平方和,总离差平方和自由度。相应的方差、、、。相应的统计量、、。双因素方差分析表9、给定显著性水平α,查检验的临界值表得出相应自由度的临界值Fα,为了便于区分,可将临界值记为Fα(f1,f2)的形式,相应的临界值如下:若相应的F<Fα,则相应的因素对试验结果无显著影响;若相应的F>Fα,则相应的因素对试验结果有显著影响。第二章多元回归分析方法及程序设计多元线性回归数学模型建立回归模型中参数的确定多元逐步回归算法原理非线性回归模型简介1、客观世界中普遍存在着变量之间关系。确定性关系是指变量之间的关系可以用函数关系来表达的;非确定性关系是指变量之间的关系不确定。这种关系不能用传统的函数关系来表示,只能退而求其次,研究她们“统计意义”上的关系。2、回归分析方法就是在大量试验观测数据的基础上,找出这些变量之间的内部规律性,从而定量地建立一个变量和另外多个变量之间的统计关系的数学表达式。回归分析中被回归的变量y称为因变量,影响y变化的其他变量x1、x2、…称为自变量。如果自变量只有一个,称为一元回归;如果自变量是两个或者以上,则称为多元回归。如果y与x1、x2、…间的关系是线性的,则称线性回归,否则称非线性回归。3、设随机变量y与m个自变量存在线性关系:以上方程称为回归方程,其中β0、β1、…、βm称为回归系数,ε为随机变量,称为随机误差,它可理解为y无法用x1、x2、…、xm表示的其他各种随机因素造成的误差。于是有:其中β0、β1、…、βm为m+1个待定参数,ε1、ε2、…、εn为n个相互独立的且服从同一正态分布的随机变量,上式称为多元(m元)线性回归数学模型。亦可写成矩阵形式,设则称为多元线性回归模型的矩阵形式。4、设b0、b1、…、bm分别是β0、β1、…、βm的最小二乘估计值,于是有:对于每一组试验数据,()称为回归值。真实值与回归值之间的误差越小越好,于是对全部观察值(试验值)有:为此,我们可以应用微分学中求极值的原理来确定b0、b1、…、bm:整理化简为方程E:可通过解方程求得b0、b1、…、bm。5、第一种解法:这里令则可用矩阵表示为,或。如果系数矩阵A满秩,则A-1存在,此时有:此即为多元回归方程中参数的最小二乘估计。另一种求解方法:如果记、,则由方程E第一式可解出,再将其代入方程E中整理化简得:如果记、,则上式可表示为:称为正规方程组,解此方程组可得b1、b2、…、bm,将参数代入可得:称为回归超平面方程。6、线性回归方程的检验总离差平方和;其中回归平方和,剩余平方和。复相关系数,剩余标准差。7、多元逐步回归分析是线性多元回归分析的深入研究和学习。Y并不是和所有的X都有关系,自变量的重要性也不一样。什么样的回归方程才能较好的反应因变量Y与自变量X(x1,x2,…,xm)之间的关系呢?从原始数据出发推导出的,能最好的反应影响因变量Y的因素的回归方程,就是“