数据描述性分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

数据描述性分析内容分布均值、方差的数据特征数据的分布二元数据的数字特征及相关系数误差坏值的剔除内容分布均值、方差的数据特征数据的分布二元数据的数字特征及相关系数误差坏值的剔除数据描述性分析数据分析研究的对象是数据,它们是个观测值:如果这个观测值就是所要研究对象的全体,那么数据分析的任务就是提取数据中包含的有用的信息。如果数据是从总体中抽出的样本,就要分析推断样本中包含的总体的信息。1nnnn,,,,,21nxxxn均值、方差等数字特征一元数据的数字特征主要是以下几种。设个观测值为其中称为样本容量。1均值:即是的平均数:均值表示数据的集中位置。n,,,,21nxxxn,,,,21nxxxniixnx11均值、方差等数字特征2方差、标准差与变异系数方差是描述数据取值分散性的一个度量,其量纲是数据量纲的平方。标准差niixxns122)(11niixxnss122)(11均值、方差等数字特征变异系数:刻画数据相对分散性的度量CV=校正平方和CSS=未校平方和USS=(%)100xsniixx12)(niix12均值、方差等数字特征3偏度与峰度偏度与峰度是刻画数据的偏态、尾重程度的度量。它们与数据的矩有关。数据的矩分为原点矩与中心矩。k阶原点矩K阶中心矩nikikxnv111)(1ikikxxnnu均值、方差等数字特征偏度其中s是标准差。偏度是刻画数据对称性的指标。关于均值对成的数据其偏度为0,右侧更分散的数据偏度为正,左侧更分散的数据偏度为负。3321331)2)(1()()2)(1(snnunxxsnnngniis频数频数频数偏向左0对称=0偏向右0均值、方差等数字特征峰度当数据的总体分布为正态分布时,峰度近似为0;当分布较正态分布的尾部更为分散时,峰度为正,否则峰度为负。当峰度为正时,两侧极端数据较多;当峰度为负时,两侧极端数据较少。242412244(1)(1)()3(1)(2)(3)(2)(3)(1)(1)3(1)(2)(3)(2)(3)niinnngxxnnnsnnnnunnnnsnn总体的数据特征设观测数据是由总体X中取出的样本,总体的分布函数是F。当X为离散分布时,总体的分布可由概率分布列刻画:总体为连续分布时,总体的分布可由概率密度刻画。连续分布中最重要的是正态分布,它的概率密度及分布函数分别为具有正态分布的总体成为正态总体)(x,iixXPp.,2,1i)(xf)(x)(x222)(exp21)(xxxdttx)()(总体的数据特征与样本数字特征对应的是总体的数字特征总体均值总体方差总体标准差总体变异系数)(xE)(2XVar)(XVar总体的数据特征总体原点矩(k阶)总体中心矩(k阶)总体偏度总体峰度)(kkXEkkxE)(331G3442G偏度为正的概率密度偏度为负的概率密度f(x)f(x)xx总体峰度是以同方差的正态分布为标准,比较总体分布尾部分散性的指标。细尾,峰度为负正态分布,总体峰度为0粗尾,峰度为正总体数字特征和样本数字特征根据统计学的结果,样本数字特征是相应的总体数字特征的矩估计。当总体数字特征存在时,相应的样本数字特征是总体数字特征的相合估计,从而当n较大时,有x22ssCVkkvkku11gG22gG总体数字特征和样本数字特征当观测数据是所要研究对象的全体时,数据的分布即总体分布,我们认为取得每一个观测数据是等可能性的,即为;总体分布是离散均匀分布:对这种情况,数据数字特征即总体数字特征。,,,,21nxxxixn1nxXPi1.,,2,1ni例1从19个杆塔上的普通盘形绝缘子测得该层电导率()的数据如下:9.898.006.406.175.397.279.0810.4011.208.756.4511.9010.309.589.247.756.208.958.33计算均值、方差、标准差、变异系数、偏度、峰度。s通过计算,得=8.487,=3.046,=1.845,CV=21.745,=0.035,=-0.852,的绝对值比较小,可以认为是来自正态总体的数据。x2ss1g2g2g1g中位数、分位数、三均值与极差均值、方差、标准差等数字特征是总体相应特征值的一种矩估计,更适合于来自正态分布的数据的分析。若总体的分布未知,或者数据严重偏态,有若干异常值(极端值),上述分析数据的方法不甚合适,而应计算中位数、分位数、三均值、极差等数据数字特征,计算上述特征需要用到次序统计量。次序统计量设是n个观测值,可以理解为来自某些总体的样本。将其按数值大小记为这就是次序统计量。最小统计量与最大统计量分别为:,,,,21nxxx(1)(2)(),,,,nxxx(1)()nxx(1)1inmin,ixx()1inmax,nixx中位数与极差中位数的计算公式是中位数是描述数据中心位置的数字特征。大体上比中位数大或小的数据个数为整个数据个数的一半。中位数与极差对于对称分布的数据,均值与中位数较接近;对于偏态分布的数据,均值与中位数不同。中位数的另一个显著特点是不受异常值(特大或特小)的影响,具有稳健性,因此它是数据分析中相当重要的统计量。极差的计算公式是它是描述数据分散性的数字特征。数据越分散,极差越大。例考虑下列样本:53113178写出次序计量,并求中位数、极差。对和容量为的样本它的分位数是其中[np]表示np的整数部分,当p=1时,M1=x(n)分位数10pn,,,,21nxxxp0.5分位数就是中位数M.在实际应用中,0.75分位数与0.25分位数比较重要,它们分别称为上、下四分位数,并简记为下列分位数也在实际应用中经常用到:,,,,,。5.0M,75.03MQ25.01MQ99.0M95.0M90.0M10.0M05.0M01.0M例考虑下列样本:53113178计算上面数据的,,及,,,,,。3Q1Q99.0M95.0M90.0M10.0M05.0M01.0M30.75np=0.75*7=5.25Q(51)(6)8Mxx10.25(11)(2)3;QMxx以此类推,我们可以得到其他的结果:0.990.950.900.100.050.0111,11,11,1,1,1.MMMMMM均值与中位数M皆是描述数据集中位置的数字特征。计算时,用了样本的全部信息,而M仅用了数据分布中的部分信息。因此,在正常情况下,用比用M描述数据的集中位置为优。然而,当存在异常值时,缺乏稳健性,而M具有很强的稳健性。考虑到要充分利用样本信息,又要具有较强的稳健性,可以用三均值作为数据集中位置的数字特征。三均值的计算公式是:xx,,,,21nxxxxx上、下四分位之差称为四分位极差(或半级差)。有一种简便判断数据为异常值的方法,以为数据的上下截断点。例从19个杆塔上的普通盘形绝缘子测得该层电导率()的数据如下:9.898.006.406.175.397.279.0810.4011.208.756.4511.9010.309.589.247.756.208.958.33计算中位数、诸分位数、极差、四分位数、三均值,并分析是否有异常值。s13111ˆ6.45*0.258.75*0.59.89*0.258.46424MQMQ31111.59.891.5*3.4415.05;1.56.451.5*3.441.29;QRQR上、下截断点分别为1.29和15.05,故数据无异常值。内容分布均值、方差的数据特征数据的分布二元数据的数字特征及相关系数误差坏值的剔除数据的分布数据的数字特征刻画了数据的主要特征,而要对数据的总体情况作全面的描述,就要研究数据的分布。对数据分布的主要描述方法是直方图与茎叶图、数据的理论分布即总体分布。数据分析的一个重要问题是要研究数据是否来自正态总体,这是分布的正态性经验的问题。直方图、QQ图对于数据分布,常用直方图进行描述。将数据取值的范围分成若干区间(一般是等间隔的),在等间隔区间的情况,每个区间的长度称为组距。考察数据落入每一区间的频数与频率,在每个区间上画一个矩形,它的宽度是组距,它的高度可以是频数、频率或频率/组距,在高度是频率/组距的情况,每一矩形的面积恰是数据落入区间的频率,这种直方图可以估计总体的概率密度。组距对直方图的形态有很大的影响,组距太小,每组的频数较少,由于随机性的影响,邻近区间上的频数可能很大;组距太大,直方图所反映概率密度的形态就不灵敏。QQ图可以帮助界别样本分布是否近似于某种类型的分布。茎叶图、箱线图与直方图相比较,茎叶图更能细致地看出数据分布的结构。例某班有31个学生,某门课程的考试成绩如下:254550545561646872757578798183848484858686868789898990919192100做出其茎叶图。茎叶图的特点茎叶图与直方图一样,可以直观地看出数据的分布状况。从茎叶图分析,可大致直观地看出这批数据是否接近对称,分散性如何,是否有异常值,数据中是否有间隙等等。利用茎叶图,很自然地可以对所有数据排序。从茎叶图可以看出由原始数据得到的次序统计量。对于排过序的一批数据,从小到大的每个数据的排序名次,称为升秩;而从大到小的每个数据的排序名次,称为降秩。每个数据的升秩与降秩的较小者,称为该数据的深度,即深度=min(升秩,降秩)例铅压铸件硬度数据如下:53.070.284.355.378.563.571.453.482.567.369.573.055.785.895.451.174.454.177.852.469.153.564.382.755.770.587.550.772.359.5做出数据的茎叶图。箱线图茎叶图是探索性数据分析所采用的重要方法。而箱线图也能直观简洁地展现数据分布的主要特征。内容分布均值、方差的数据特征数据的分布二元数据的数字特征及相关系数误差坏值的剔除多元数据的数字特征与相关分析以上我们分析的都是一元数据,但在实际中,人们更多的遇到的是多元数据对于多元数据,除分析各变量的取值特点外,更要分析各个变量之间的相关关系二元数据的数字特征及相关系数设是二元总体,从中取得观测数据引进数据观测矩阵记(,)TXY1122(,),(,),,(,)TTTnnxyxyxy1212nnxxxXyyy11niixXn11niiyyn二元数据的数字特征及相关系数则,称为二元观测数据的均值向量。记(,)Txxyy211()1nxxiisxxn211()1nyyiisyyn11()()1nxyiiisxxyyn二元数据的数字特征及相关系数协方差矩阵有由Schwarz不等式所以S总是非负定的,一般是正定的。xxxyyxyyssSssxyyxss2xyxxyysss设M是n阶实系数对称矩阵,如果对任何非零向量X=(x1,...xn)都有XMX′0,就称M正定(PositiveDefinite)。二元数据的数字特征及相关系数观测数据的相关系数(Pearson)计算公式是由Schwarz不等式,有即总有xyxyxxyysrss1xyr11xyr二元数据的数字特征及相关系数Spearman相关系数秩设其次序统计量是若,则称是在样本中的秩,记作例:-0.8,-3.1,1.1,-5.2,4.2次序统计量是-5.2,-3.1,-0.8,1.1,4.2而秩统计量是3,2,4,1,5当观测数据中有两个观测值相等,则相应的秩统计量不能唯一确定,通常对相同的观测值,其秩取为他们秩的平均值。,,,,21nxxx)()2()1(,,,nxxx()ikxx

1 / 71
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功