统计学1统计学Statistics主讲:徐瑞统计学2第二章统计数据的描述第1节分布集中趋势的度量第2节分布离散程度的度量第3节分布形态与相对位置的度量第4节探索性数据分析第5节两变量间关系的度量教学时数:2统计学3第1节分布集中趋势的度量一、众数(Mode)1、众数:数据中出现次数最多或频率最高的数值。2、众数可以不存在,也可以有多个众数。Excel统计函数:MODE(x1,x2,…)例1:某篮球队队员身高(单位:米)分别为:1.85、1.85、1.86、1.88、1.94、1.96、1.96、1.97、1.98、1.98、2.02、2.02、2.05、2.08、2.23。众数有4个:1.85、1.96、1.98、2.02。这里众数太多,就没有特别的意义。统计学4二、中位数(Median)1、中位数:一组数据按大小排序后,处于正中位置的数据,也称为中值。Excel统计函数:MEDIAN(x1,x2,…)2、中位数位置=(n+1)/2当n为奇数时,中位数是正中间的数据;当n为偶数时,中位数是正中间两个数据的均值。3、中位数的优点是不易受极端值影响,因此常常用来考察收入分配情况。统计学5例2:10个人的月平均收入:1660、2500、1750、1780、2080、1850、1960、3000、2250、2630。排序:1660,1750,1780,1850,1960,2080,2250,2500,2630,3000中位数位置=(n+1)/2=(10+1)/2=5.5中位数=(1960+2080)÷2=2020假设收入最高的人月平均收入变为10000,则这10个人月平均收入的中位数和平均值各为多少?这10个人月平均收入的中位数仍为2020,但平均值却由2146上升为2846。统计学6三、分位数1、四分位数:将数据分为4部分,每个部分约包含1/4的数据。四分位数有3个,第2个四分位数是中位数。2、第1个和第3个四分位数的计算方法有多种,一种计算方法为:规则:如果结果是整数,则取相邻两个数据的均值;如果结果不是整数,则取最接近的整数。练习:计算例2中数据的第1和第3个四分位数。3、常用的分位数还有十分位数、百分位数等。个数据第4/)1(1+=nQ个数据(第4/)133+=nQ统计学7四、均值(MeanorAverage)1、均值:通常用、E(X)或μ表示,也称为算术平均数。均值是集中趋势的最主要测度值。Excel统计函数:AVERAGE(x1,x2,…)(1)简单算术平均数:(2)加权算术平均数:nxnxxxxExin//)()(∑=+++==21∑∑⋅=++++++≈)(212211iiikkkffxffffxfxfxxx统计学82、均值的数学性质:(1)各变量值与其均值的离差之和等于零:(2)各变量值与其均值的离差平方和最小:3、由于所有的数据都有参与计算,因此均值易受极端值(异常值)的影响。∑=−0)(xximin)(2=−∑xxi统计学9五、几何平均数(GeometricMean)1、几何平均数:n个比率连乘积的n次方根,主要用于计算比率或速度的平均值。Excel统计函数:GEOMEAN(x1,x2,…)计算公式:加权几何平均数:2、几何平均数的对数是各比率对数的算术平均数。ninnaaaaG∏=⋅⋅⋅=21∑∏=∑⋅⋅⋅=iiinffiffnffaaaaG2121∑=+++=nanaaaGin/)log(/)loglog(loglog21统计学10例3:一位投资者持有一种股票,该股票在2001、2002、2003和2004年的收益率分别为4.5%、2.1%、25.5%、1.9%。计算该股票在这四年内的平均收益率。44(10.045)(10.021)(10.255)(10.019)11.0451.0211.2551.01918.08%G=+×+×+×+−=×××−≈4.5%2.1%25.5%1.9%8.5%4x+++==这种算法对吗?说明理由。统计学11六、切尾均值(TrimmedMean)去掉大小两端若干数据后的剩余数据的均值,也称为修剪平均数,适用于有异常值的数据集。Excel统计函数:TRIMMEAN(array,percent)例4:某地举办体操比赛,由7位评委现场给运动员打分,7位评委给某运动员的评分如下:9.2、9.9、9.6、9.5、9.5、9.4、9.3,计算平均得分。均值为:去掉一个最高分和一个最低分,切尾均值为:486.97/4.66==x460.95/3.47==x统计学12众数、中位数和均值的关系左偏分布均值中位数众数对称分布均值=中位数=众数右偏分布众数中位数均值统计学13第2节分布离散程度的度量一、极差(Range)1、极差:最大值-最小值,也称为全距。数据离散程度的最简单测度值。2、极差易受极端值影响,且不能反映中间数据的离散状况,因此很少单独使用。3、对于分组数据,极差可以近似表示为:全距≈最高组上限-最低组下限统计函数:max(x1,x2,…)-min(x1,x2,…)统计学14二、四分位数间距(IQR)1、四分位数间距:也称为内距。IQR=第三个四分位数-第一个四分位数2、IQR可以理解为:从数据中剔除最大的和最小的各四分之一,然后计算全距。三、平均差(AverageDeviation)1、平均差:Excel统计函数:AVEDEV(x1,x2,…)2、相对于方差来说,平均差使用较少。nxxADi/∑−=统计学15四、方差和标准差1、方差(Variance)和标准差(StandardDeviation)是应用最多的数据离散程度测度值。Excel统计函数:样本方差:VAR(x1,x2,…)总体方差:VARP(x1,x2,…)2、总体的方差和标准差:未分组数据方差:分组数据的方差:Nxi/)(22∑−=µσ∑∑−≈iiiffx/])[(22µσ组中值统计学163、样本的方差和标准差:未分组数据方差:分组数据的方差:4、方差与标准差的区别:方差没有量纲,而标准差有量纲,与变量的计量单位相同,因而使用更广。5、标准差常常用来度量投资风险。22()/(1)isxxn=−−∑22[()]/(1)iiisxxff≈−−∑∑组中值除以n-1统计学17五、变异系数(CoefficientofVariation)1、变异系数:两组数据的标准差与其对应的均值的比值,通常表示为百分数。2、用于比较平均水平或计量单位不同的不同组数据的离散程度。或例5:与可比身高和体重单位不同,但与可比。/Vσµ=总体:50016.67%3000skgxkg=大象大象==0.520%2.5skgxkg=兔子兔子==sx身高身高sx体重体重/Vsx=样本:统计学18第3节分布形态与相对位置的度量一、偏度(Skewness)1、偏度:分布的偏斜方向及其程度。2、总体的偏度系数:样本的偏度系数:偏度系数为正,称为右偏(正偏);偏度系数为负,称为左偏(负偏)。Excel统计函数:SKEW(x1,x2,…)33/)(σµnxSKi∑−=3()(1)(2)ixxnSKnns−=−−∑统计学19二、峰度(Kurtosis)1、峰度:度量数据分布集中程度。2、总体的峰度系数:通常与标准正态分布比较:标准正态分布的峰度系数为3,如果k3,分布的形状比标准正态分布更窄更高,称为尖峰分布;如果k3,分布比标准正态分布更宽更矮,称为平峰分布。有些软件(如Excel)的计算公式在等号右边减3,则标准正态分布的峰度系数就变成了0,其他的分布与0做比较。Excel统计函数:KURT(x1,x2,…)44()/iKxnµσ=−∑正值统计学20三、z分数1、z分数:也称为标准化值。2、z分数是对数据相对位置的度量。3、经验法则:对于具有钟形分布的数据,约68%的数据与均值的距离在1个标准差之内,约95%的数据与均值的距离在2个标准差之内,约99.7%的数据与均值的距离在3个标准差之内。四、异常值的检测标准化值(z分数)可以用来确认异常值。z分数小于-3或大于3的数值都可以视为异常值,然后对其准确性进行检查。()/izxxs=−统计学21第4节探索性数据分析一、五数概括法1、五数概括法(Five-numberSummary):用最小值、第一个四分位数间距、中位数、第三个四分位数及最大值来概括数据的分布情况。2、构建五数概括法的最容易方式是先将数据按升序排列,然后确定最小值、三个四分位数和最大值。统计学22二、箱形图1、箱形图:基于五数概括法的数据图形汇总方法。构建箱形图的关键是计算三个四分位数。2、构建简单箱形图的步骤:(1)画一个方形的箱体,边界分别是第1和第3个四分位数。(2)在箱体上中位数的位置画一条垂线。(3)将最大值和最小值与箱体用实线或虚线连接起来。3、Excel没有绘制箱形图的功能,SPSS和Minitab等统计软件能够绘制。统计学23异常值统计学24第5节两变量间关系的度量一、协方差1、样本协方差:2、总体协方差:3、协方差的解释:如果x增大,y也增大,则协方差为正;如果x增大,而y减小,或者x减小,而y增大,则协方差为负。4、协方差的值依赖于变量x和y的单位。()()1iixyxxyysn−−=−∑()()ixiyxyxyNµµσ−−=∑统计学25二、相关系数1、样本相关系数:2、总体相关系数:3、相关系数的解释:相关系数度量的是两个变量之间的线性关联。线性关系只是变量之间关系的一种情况。4、相关系数不能说明变量之间的因果关系。两个变量之间的高度相关并不意味着一个变量的变动必然引起另一个变量的变动。/()xyxyxyρσσσ=/()xyxyxyrsss=统计学26Excel的数据分析1、描述统计:工具/数据分析/描述统计2、排位与百分比排位:工具/数据分析/排位与百分比排位统计学27本章重点1、分布集中趋势的常用测度指标。2、分布离散程度的常用测度指标。3、z分数和异常值的判别。作业:练习题4.2、4.5、4.11。