1第3章数据分布特征的描述本章的主要目的:掌握反映数据分布特征的中心、变化程度、位置等测度的工具;会基本的考察性数据分析EDA报告。3.1分布集中趋势的测度集中趋势是指一组数据向某一中心值靠拢的倾向,也就是寻找数据一般水平的代表值或中心值。如平均数、众数、中位数等。1.众数mode众数是一组数据中出现次数最多的变量值。是具有明显集中趋势的数值,一组数据分布的最高点所对应的数值即为众数。既可用于定量数据,也可以用于定性数据。可以有多个众数;也可以没有众数。图3-1。对于组距分组数据,众数的数值与其相邻两组的频数分布有一定的关系。首先要找出频数最多的组,即为众数组,然后按相关公式计算之。图3-2。实例3-1。众数是一个位置代表值,不受数据中极端值的影响。其统计思想是:在一组数据的中心点附近,变量值出现的频数最高,根据众数组及相邻两组的频数分布,确定中心点的位置。2.中位数median中位数是一组数据按大小排序后,处于正中间位置上的变量值。中位数将全部数据分为两部分,一部分比它大,另一部分比它小。也是一个位置代表值,中位数据位置=(N+1)/2。对于组距分组数据,要先根据位置确定中位数所在组,再按公式计算。实例3-2。中位数大小也不受极端值影响。3.平均数mean平均是指全部数据的算术平均。总体平均数和样本平均数。分组数据平均数的计算。以各组的组中值为代表。例3-3。加权平均数。平均数是一个极为重要的统计变量,它是一组数据的重心所在,是数据误差相互抵消后的结果。各变量值与其平均数的离差之和为0。各变量值与其平均数的离差平方和最小。平均数对每一个数值都很敏感。4.几何平均数arithmeticmean主要用于计算比率或速度的平均。例3-4。5.中列数midrange中列数是指原始数据集中最大值和最小值的平均。6.众数、中位数和平均数的比较图3-3。当数据呈对称分布或接近对称分布时,三个代表值相等或相近,此时选择平均数作为数据集中趋势的代表值,因为其代表了全部数据的信息且易被人理解。当数据为偏态分布时,且偏斜程度较高时,应选择众数或中位数等位置代表值。平均数只适用于定量数据。而众数和中位数还可以适用于定性数据。2课堂练习一:顾客在银行A(在那里所有顾客都进入一个等待行列)和银行B(在那里顾客在三个办事员窗口处列队三排等待)的等待时间(分钟)分别:银行A:6.56.66.76.87.17.37.47.77.77.7银行B:4.25.45.86.26.77.77.78.59.310.0从集中趋势测度能否看出二者的区别?3.2分布离散程度的测度上面的练习告诉我们什么?银行为什么要让顾客在一个等待行列中等待?从集中趋势测度我们没发现什么区别,顾客只是希望等待时间更加稳定,变化少一些!数据的离散程度就是用来测度变化的,是数据分布特征的又一个极为重要的特征,它反映的是各变量值远离中心值的程度,离中趋势。1.极差全距。是一组数据的最大值和最小值的差。计算简单;只利用了数据两端的信息,不能反应中间数据的分散状况。2.方差和标准差方差是各变量与其平均值离差平方的平均数。总体与样本的计算方式不同。A.总体方差和标准差。分组数据和未分组数据计算的不同。标准差是有量纲的,与变量值的计量单位相同。实际计算可以采取较简要的公式。B.样本方差和标准差。样本方差的计算是用样本数据个数或总频数减1去除离差平方和。n-1称为自由度。例3-5。课堂练习二:分别计算两个银行中顾客等待时间的标准差。3.标准化值z消除量纲的影响,是指一个已知值超过或低于平均数多少个标准差的个数。也给出了一组数据中各数值的相对位置。课堂练习三:美国NBA的M.Jordan身高78英寸,而WNBA的R.Lobo身高76英寸。很明显,Jordan高2英寸,但谁相对来说更高一些?Jordan在男性中的身高是否超过了Lobo在女性中的身高?男性身高的平均数是69.0英寸,标准差为2.8英寸;女性身高平均63.6英寸,标准差2.5。[解答]要比较他们相对于男性和女性总体的身高,我们需要通过将这些身高值转化为z值来将它们标准化。Jordan:z=3.21;Lobo:z=4.96。Jordan的身高高于平均数3.21个标准差,而Lobo的身高高于平均数4.96个标准差,这是一个很大的数。Lobo在女性中的身高要高于Jordan在男性中的身高。4.离散系数是一组数据的标准差与其对应的均值之比。消除变量值水平高低和量纲的影响。离散系数越大的说明该组数据的离散程度越大,否则越小。例3-65.解释和理解标准差标准差度量的是数据之间的变化。紧凑的数据将会产生一个小的标准差,而比较分散的数据将会产生一个较大的标准差。实例:邮件的稳定性。这里介绍三种不同的理解标准差数值的方法。全距经验法则。基本原理是对许多数值来说,样本值的大部分(如95%)位于平均数的2个标准差的范围3内。估计s=全距/4。如果标准差s已知,我们就可以粗略估计样本最大和最小的“通常”值。最小通常值=平均数–2s最大通常值=平均数+2s正常值:-2≤z≤2异常值:z<-2或z>2课堂练习四:在第二章有男性的身高数据,其平均数为69.0英寸,标准差为2.8英寸。使用全距经验法则来计算通常的最高与最矮身高。最小值=69.0-2*2.8=63.4英寸最大值=69.0+2*2.8=74.6英寸基于这个结果,我们预料典型的男性身高将在63.4—74.6英寸这个范围内。一些男性的身高没有落在这两个界限内,那些人是异乎寻常的高或矮。钟形分布的数据的经验规则(68-95-99.7)所有数据中,大约有68%的数据落在平均数一个标准差的范围内。所有数据中,大约有95%的数据落在平均数二个标准差的范围内。所有数据中,大约有99.7%的数据落在平均数三个标准差的范围内。切比雪夫定理任意一个数据集中,位于其平均数K(K>1)个标准差范围内的比例(或部分)总是至少为1-1/K2,对于K=2或3有所有数据中,大约有75%的数据落在平均数二个标准差的范围内。所有数据中,大约有89%的数据落在平均数三个标准差的范围内。这一节学完之后,我们应该理解标准差是数值之间变异程度的一种度量。你应该认识到,对于典型的数据,一个数值和平均数的差额超过2或3个标准差是很少见的事情。几个实例:⑴方差和标准差计算。我们知道,方差与标准差越大,意味着数据的分散程度越大;相反,方差与标准差越小,则意味着数据的分散程度越小,也即向平均值的集中程度越高。下表是1996年日本14家电器公司的销售额中出口额所占的比重,求其方差s2和标准差s。企业销售额中出口额所占比重%企业销售额中出口额所占比重%日立24松下33东芝31夏普44三菱23索尼65富士15三洋31NEC20日本JVC50富士通13电通19冲电工业19京瓷33工作表:XX-X¯(X-X¯)224-636311123-74915-1522520-1010013-1728919-11121433394414196653512253111502040019-11121333942002782X¯=420/14=30S2=2783/(14-1)=214S=14.6⑵变动系数。在比较不同的数据组A和B的变动系数时,如果A的系数较大,说明A与B相比,数据的分散程度更大。下表是日本、德国、法国按美元表示的汇率变化情况,计算各国汇率的变动系数CV,并对结果进行比较。年季日本(日元)德国(马克)法国(法郎)1991年第1季度140.551.6975.7461991年第2季度138.151.8106.1351991年第3季度132.951.6675.6821991年第4季度125.251.5195.1901992年第1季度133.051.6435.5721992年第2季度125.551.5235.1161992年第3季度119.251.4124.7741992年第4季度124.651.6215.5271993年第1季度115.351.6085.5931993年第2季度106.511.7065.7461993年第3季度105.101.6345.6951993年第4季度111.891.7385.9181994年第1季度104.151.6745.7171994年第2季度99.801.5885.4391994年第3季度99.451.5515.2981994年第4季度100.851.5495.3381995年第1季度90.351.3734.8061995年第2季度84.751.3824.8401995年第3季度98.151.4264.9211995年第4季度102.881.4374.9061996年第1季度106.481.4755.032日本CV=15.88/112.62=0.1410=14.10%德国CV=0.1238/1.573=0.0787=7.87%法国CV=0.3999/5.381=0.0743=7.43%⑶标准化值用来测算某个数据的数值与算术平均值的偏离程度,是标准差的多少倍。借此可以看出该数据在全体数据中所处的位置。经济系的小王,在期末考试中,宏观经济学得82分,微观经济学是69分。宏观经济学的平衡成绩是72分,标准差是8,微观经济学的平均成绩是61分,标准差是5。计算标准化值,5并回答小王的宏观经济学和微观经济学哪一个更好?宏观经济学z=(82-72)/8=1.25微观经济学z=(69-61)/5=1.60微观经济学成绩更好。3.3分布位置的测度前面说过众数、中位数和z是三个位置代表值。这里再介绍几个基本工具。四分位数、十分位数和百分位数就像中位数把数据分成两个相等的部分一样,三个四分位数,用Q1、Q2和Q3来表示,将排序数据分为4个相等的部分。有9个十分位数,用D1,D2,D3,D4,D5,D6,D7,D8,D9来表示,它们将数据分为10组,每一组大约有10%的数据。百分位数有99个,表示为P1,P2,…,P99,它们将数据分为100个组,每个组中大约有1%数据。实例一:表中列出了36罐普通可口可乐中饮料的重量(以磅计)。计算相对于重量0.8143磅的百分位。0.79010.80440.80620.80730.80790.81100.81260.81280.81430.81500.81500.81520.81520.81610.81610.81630.81650.81700.81720.81760.81810.81890.81920.81920.81940.81940.82070.82110.82290.82440.82440.82470.82510.82640.82840.82950.8143前面有8个数据,因此它的百分位数是(8/36)×100=22。在很多场所,我们要利用一个已知的百分位数来计算相应的样本数据。请计算第25个百分位数的值P25。请计算D4。还有一个概念:内四分位距=Q3-Q1半四分位距=(Q3-Q1)/210-90百分位距=P90–P103.4分布偏态和峰度的测度在图2-6中我们知道了数据分布的几种形态,这里介绍几个工具来判断数据分布形状对称性、偏斜程度及扁平程度等。1.偏态及其测度偏态是对分布偏斜方向及程度的测度。通过众数、中位数和平均数之间的关系来判断分布的方向:左偏或右偏;用偏态系数来测度偏斜的程度。计算公式α3=(∑(Xi-µ)3Fi)/Nσ3。这个数的绝对值越大,表示偏离的程度越大。当α3=0时,分布是对称的;当α3>0时,表示正偏离差值较大,是右偏;当α3<0时,表示负偏离差值较大,是左偏。例3-7。2.峰度及其测度峰度是分布集中趋势高峰的形状。通常与正态分布相比较而言,在归化到同一方差时,若分布的形状比正态分布更瘦更高,则称为尖峰分布;若比正态分布更矮更胖,则称平峰分布。图3-5。6峰度系数α4是离差的四次方的平均数再除以标准差的四次方,以之来说明分布的尖峰和扁平程度。由于正态分布的峰度系数是3,所以当α4>3时为尖峰分布;当α4<3时为扁平分布。例3-8。3.5统计