第二章统计学基础知识(一)1、算术平均nXnXXXXn.....212、加权算术平均是将数据先乘以反映其重要性的权数w,在求平均的方法。例题1:表1是对关东1都6县女性临时工的小时工资与劳动者人数的调查结果。(1),求小时工资的算术平均数(2),求加权算术平均nnn小时工资(日元)劳动者人数(千人)茨城83760栃木80933..80736..851152..874113东京993279神奈川8901918667890.....809837X904191....3360191*890....33*80960*837wX3、变化率变化率=例题2:日本在1994年和1995年对中国的出口额分别为18682和21931(百万美元),求日本对中国的出口年增长率。).....,3,2(1111ntXXXXXttttt%4.17174.01868218682-2193119941994199511=年輸出額年輸出額年輸出額-tttXXX4、几何平均;是n个数据连乘积的n次方根弱点:数据中只要有一个零,根就会变为零无法计算,而且有负值也无法计算。适合于经济增长率,工资上升率等增长率的平均数的计算。例题3:从1991年至1995年的美国的出口增长率分别为6.3,6.6,2.9,8.2,8.9%,求美国的出口平均增长率。nnXXXG.....21%6.69.8*2.8*9.2*6.6*3.65G[提示]跨越数年的平均变化率的计算方法现假设Y从0期到n期,按照同样的变化率g变化,则01)1(Ygy0212)1()1(Ygygy01)1()1(ygygynnn整理,得平均变化率g为0)1(yygnn10nnyyg例题;计算1991-1995年4年间的实际经济增长率。91年449.8亿,95年465亿%8.01008.1954-1=91年実質GDP年実質GDP5、移动平均:对时间序列数据中的前后数据求平均,将不必要的变动(循环变动,季节变动和不规则变动)平滑化,也将剔除这些变动,从而发现长期变化方向的一种方法。奇数移动平均:311ttttXXXX偶数移动平均:2112,,,,tttttXXXXX(1)前4项4112ttttXXXX(2)后4项4211ttttXXXX4年移动平均2)2()1(45.05.02112tttttXXXXX中心化4项移动平均GDP实际增长率3年之和3年移动平均5年之和5年移动平均19807.8----19815.222.17.37--19829.125.28.4048.29.64198310.935.211.7353.910.78198415.239.613.2057.511.5198513.537.512.5060.01219868.833.911.3060.412.08198711.631.710.5749.39.86198811.327.09.0039.67.9219894.119.26.4040.0819903.817.15.7042.68.5219919.227.29.0744.88.96199214.236.912.3053.310.66199313.540.313.4360.012199412.636.612.2060.412.08199510.532.710.9055.01119969.628.99.6349.39.8619978.826.28.7343.88.7619987.823.77.9041.38.2619997.122.97.63--20008.0----180200220240260280300320第3季度1992年第1季度第3季度1993年第1季度第3季度1994年第1季度第3季度1995年第1季度第3季度销售额中心化4项移动平均通过计算中心化4项移动平均,使得原数列变得平滑,也就是消除了季节变动。6、方差与标准差为了了解数据的结构,有必要考察数据的集中趋势和分散的程度。方差是衡量变量的离散性(分散)的,即变量的每个样本与均值的距离大小的概念。方差的计算方法是,先将每个数据与算术平均数之差(即离差)的相加求和,再除以样本数减一。而标准差是方差的正的平方根。标准差与原数据的单位相同,而方差不附加单位。方差:22212)(111)(.....)(XXnnXXXXSin标准差:2Ss方差方差与标准差越大,意味着数据的分散程度越大;相反,方差与标准差越小,则意味着数据的分散程度越小,也既向平均值的集中程度越高。标准差便利的特点,假定数据服从正态分布,一算术平均值为中心,左右各取1s范围,这一部分包含68.3%的数据。2s—95.4%,3s---99.7%。X14家电器公司的销售额中出口额所站的比重比重(X%)公司124-636公司23111公司323-749公司415-15225公司520-10100公司613-17289公司719-11121公司83339公司94414196公司1065351225公司113111公司125020400公司1319-11121公司143339Σ42002782XX2)(XX30420*1411XnX2142782131)(1122XXnS6.14214S7、变动系数变动系数又称变异系数,它用标准差s除以算术平均数的商来表示。变动系数CV的定义如下;对于不同数据组来说,由于各自的算术平均值不同,因此单纯根据各自的标准差,则无法比较分散程度。通过变动系数来对不同数据的分散程度进行比较。例如,再比较不同的数据组A和B的变动系数时,如果A的系数较大,说明A与B相比,数据的分散程度更大。算出的数值要按百分比形式表示。但如果算术平均为零或接近于零,变动系数无法计算。XsCV年・季円马克法郎1991.1140.551.6975.7461991.2138.151.816.1351991.3132.951.6675.6821991.4125.251.5195.191995.4106.481.4755.032X(1),先算3国的和标准差S日本;X=112.62S=15.88德国;X=1.573S=0.1238法国;X=5.381S=0.399(2),求变动系数%1.14141.062.11288.15XSCV日本;CV=7.87%德国;法国;CV=7.43%8、偏度用来反映变量数列分布偏斜程度的指标。可以用平均数,中位数,众数位置关系来大致判断分布是否对称。对称分布的特征是平均数,中位数,众数合而为一,即。0XMMe偏度系数:0M-XSK(-3和3之间)SK是以标准差为度量单位的众数和算术平均值的利差。算术平均值大于众数,分布为右偏态,也成为正偏态。算术平均值小于众数,分布为左偏态,也成为负偏态。9,峰度峰度是用来反映变量数列曲线顶端尖峭或扁平程度的指标。峰度系数为3时成正太曲线。峰度系数大于3时,尖顶曲线。峰度系数小于3时,顶部平滑。还有等于1.8和小于1.8的情况,矩形分布和U形分布。10,标准化变量标准化变量是又称基准化变量,它是用来测量某个数据的数值与算术平均数的偏离程度,是标准差的多少倍。标准变化量Z的定义如下;通过上式进行标准化,不管什么样的数据,算术平均值可以变换为零,方差和标准差变换为1,因此具有不同的算术平均的数据值,可以进行相互比较。SXXz大学入学模拟考试在公布相对成绩时,通常利用偏差值,这种偏差值实际上就是标准化变量的一种应用,公式如下;標準差自己得点-平均分5010501050Z=標準変化量=10偏差值设算术平均数为50,标准差为10,来显示分散的分布情况。例题:经济系的小王,在期末考试中,宏观经济学得82分,微观经济学的69分。宏观经济学的平均成绩是72分,标准差是8,微观经济学的平均成绩是61分,标准差5。(1),计算标准化变量Z,并回答小王的宏观和微观成绩哪一个更好。(2),求偏差值解答;(1),宏观经济学25.187282SXXZ微观经济学Z=1.60由于微观经济学的标准化变量比宏观经济学的标准化变量要大,因此,微观经济学处于上等。(2),宏观经济学偏差值5.621025.1501050z微观经济学偏差值=66从偏差值的比较中看出,小王的微观成绩相对来说要好一些。11,相关系数所谓相关系数是用来测量诸如收入和消费,气温和啤酒的消费量等两个变量X,Y之间相互关系的大小和方向(正或负)的关系。通过计算相关系数,可以知道X和Y之间具有多大程度的线性关系。先了解协方差概念,给定两个变量X和Y,这两个变量的协方差定义为;1))((nyyxxSniiXY协方差表示两个变量的相关关系。如果两个变量同方向变动,则协方差为正,反方向变动则为负。如果两个随机变量是独立的,协方差为0。相关系数R的定义如下式;22)()())((YYXXYYXXRiiii11R1R完全正相关0R正相关0R不相关0R负相关1R完全负相关正相关指的是当X增加时,Y也增加;相反,负相关指的是当X增加时,Y减少。在相关关系中,有时有因果关系,有时则没有。所谓因果关系,指的是原因明确的存在,并且由此产生了结果。但是,即使在没有因果关系的情况下,为了看看相关关系的大小,也需要进行相关分析。某地月平均气温和每户平均啤酒消费量012345678905101520253035月平均气温X每户平均啤酒消费量Y12,相关系数的检验计算出来的相关系数在多大程度上值得信赖,需要进行检验。所谓显著水平,指的是很少会发生的概率,这里相当于相关系数为零,也即相当于不相关的概率。例如,计算出来的相关系数的绝对值,如果大于系数表的显著水平为1%的相关系数,那意味着,该相关系数为零的概率,也即不相关的概率,小于1%(我们所作出的结论允许有1%的可能性是错误的),因此存在着显著的相关。显著水平越小,检验越严格。年度86878889909192939495年均汇率X汽车出口量Y168661145631128610........11150210244694379(1),求相关系数R=0.9321(2),自由度=n—2=10-2=8自由度8的显著水平5%和1%的相关系数分别为0.632和0.765。计算出来的相关系数0.9321大于这两个系数,因此,变量之间存在显著相关。13,斯皮尔曼秩相关系数斯皮尔曼秩相关系数考察的不是X和Y两组数据中的数值,而是顺序,借此来测算X和Y之间相关关系的强弱。定义如下;)1()(6122nnYXRS机会日本X美国Y德国Z1.大学教师的介绍1332.亲友的介绍3.招聘广告3425859.中介机构的介绍989(1),日本和美国的斯皮尔曼秩相关系数833.0sR两国的研究者和技术人员的就职方法非常相似。日本和德国的斯皮尔曼秩相关系数483.0sR(2),检验日本和美国的斯皮尔曼秩相关系数,在5%的显著水平上显著相关。日本和德国的斯皮尔曼秩相关系数,两者均不显著相关。14,概率分布(1),正态分布正态分布是一个连续的,形状为钟形的概率分布。正态分布可以由均值和方差完全描述出来,如果X服从正态分布,记为,密度函数为2),(~2NX222)(21)(xexf(2),分布统计理论证明,标准正态分布的平方服从自由度为1的χ2分布,2212~Z(3),t分布t分布于正态分布密切相关,可以从一个标准正态分布和一个分布得到。设Z服从标准正态分布,W服从自由为n的分布,并且两者相互独立,于是随机变量2nWZt/)2(ˆ222222~ˆ)ˆ(rˆvaˆ)(ˆ2/)2()(ˆ)2/(niitsxxsnsnxxnWZt(4),F分布如果两