第四章数据的概括性度量数据分组、频数表原始数据搜集描述性分析单变量截面数据分布特征的描述:图示法、指标法四种基本分布特征集中趋势(位置)偏态和峰态(形状)离中趋势(分散程度)第一节集中趋势的度量描述截面数据的集中趋势或中心位置的数量指标,称集中趋势指标。具体有:平均数(mean)算术平均数(arithmeticmean)几何平均数(geometricmean)中位数(median)四分位数(quartile)众数(mode)算术平均数概念:标志总量与总体单位总数的比值(若分组数据,则用组中值代替)计算公式:nxnxxxxnini/121优点:简单易算,具有良好的统计性质缺点:易受极值的影响基金名回报率XAcornInternational31.50AimGlobalGrowth12.46BrinsonGlobalEquity9.77DreyfusPremierWorldwideGrowth22.47GidelityGlobalBalanced18.47FremontGlobalJ15.47JanusWorldwide38.16MerrillLynchGlobalValue20.72MFSGlobalTotalReturn13.80MorganStanleyDWEuropeangrowth21.49Phoenix-ZweigManagedAsset11.35ScudderGlobal17.48TweedyBrowneGlobalValue18.61VanKampenGlobalEquity18.3714只三年期低风险共同基金年回报率例:29.191437.1846.1250.31x分组数据算术平均数计算公式或简写成表示算术平均数表示频数单项式数列中表示变量值分组数据中表示组中值kiikiiikkkfxffffxfxfxfx11212211/ffxxxfx例:62人皮尔逊智商分数平均数计算表分数人数组中值x70~80275.0015080~90785.0059590~1001095.00950100~11016105.001680110~12014115.001610120~13010125.001250130~1403135.00405合计62145.0066406640107.1062x平均值ffx加权算术平均数概念:将各变量值分别乘以权数后求和,再除以权数之和计算公式:niiniiinnnwx其中为第个变量的权重(表示重要程度)iwi例:求集团的平均利润率公司净销售利润率(%)x销售额(亿元)wA7100B8100C9200合计400净利润(亿元)wx781833平均利润为:33/400=8.25%几何平均数概念:个变量值连乘积的次根计算公式:nn12nngngxxxxxx表几何平均数x表示变量值n表示变量数目求积符号例:考虑一项10万美元的投资,第一年该投资下降为5万美元,第二年该投资又回到了10万美元。分析:第一年的动态比例为0.5,第二年的动态比例为2。算术平均为:几何平均为:25.12/)25.0(x125.0gx中位数概念:将变量数列的各观察值按自小到大的顺序排列,处于中间位置的数值就是中位数计算方法:未分组数据若项数是奇数,中位数是排列在第项的位置观察值若项数为偶数,中位数是两个中间观测值的算术平均数12n例:计算14只低风险共同基金样本年回报率的中位数,数列排序后为9.7711.3512.4613.815.4717.4818.3718.4718.6120.7221.4922.4731.538.161234567891011121314中位数=(18.37+18.47)/2=18.42如果去掉回报率最高的基金只剩下13只基金9.7711.3512.4613.815.4717.4818.3718.4718.6120.7221.4922.4731.512345678910111213中位数=18.37单项式频数分布数列1(1)2f中位数的项为,它对应的标志值即是例:150名工人日产量累积频数分布如下日产量(件)频数f(人)累积频数(人)15101016203017407018501201930150合计150中位数项次=(150+1)/2=75.5,由频数分布表易知中位数位于第4组,组标志18为中位数组距数列ifFfLMmdmdmde12/确定中位数组按下列公式计算中位数表示中位数组下限;为各组频数之和;为中位数组的频数;表示中位数组前一组的累积频数mdLfmdf1mdF例:计算62人皮尔逊智商分数频数分列的中位数62人皮尔逊智商分数频数分布表分数频数f累积频数F70~802280~907990~1001019100~1101635110~1201449120~1301059130~140362合计62解:(62+1)/2=31.5,中位数组是第4组,频数为16,该组下限为100,前一组累积频数为19,利用公式得5.10710161931100eM分位数概念:与中位数相似,在数列中插入多个分位点将其进行等分。常见的是四分位数。计算方法:将一组数据分为4个相等部分的三个数值,分别称为第一分位数,第二分位数,第三分位数1Q2Q3Q1Q2Q3Q第一个1/4分位数第一个2/4分位数第一个3/4分位数1Q2Q3Q对于不分组数据,三个四分位数的项次分别是(n+1)/4,(n+1)/2,3(n+1)/4。对于单项数列和组距数列,则更复杂些例:计算下列数据的四分位数1061091141161211221251291122318,81109114:2.5,111.5,2111.54281116121:4.5,118.54118.5223(81)122125:6.75,123.56118.542nQQQQQQ解:有个值小于,有个值小于,有个值小于众数概念:是在数据中发生频数最高的数据值计算方法:未分组数据求众数的意义不大,有时可能没有例:14只低风险共同基金数据9.7711.3512.4613.8015.4717.4818.3718.4718.6120.7221.4922.4731.5038.16众数不存在单项式分组数据只需找出对应频数值最大的标志值例:150名工人日产量累积频数分布频数最大为第四组50,因此众数就是其所对应的标志值18日产量(件)频数(人)累积频数(人)15101016203017407018501201930150合计150f组距数列先找到频数最大的组---众数组按下列公式计算众数iffffffLMmomomomomomomoo)()(111为众数组下限;为众数组的频数;为众数组前一组的频数;为众数组后一组的频数;为组距moLmof1mof1mofi例:计算62人皮尔逊智商分数频数分列的众数62人皮尔逊智商分数频数分布表分数频数累积频数F70~802280~907990~1001019100~1101635110~1201449120~1301059130~140362合计62解:众数组是第4组,众数为5.10710)1416()1016(10161000Mf众数、中位数、平均数的特点和应用众数---不受极端值影响具有不惟一性数据分布偏斜程度较大时应用中位数---不受极端值影响数据分布偏斜程度较大时应用平均数---易受极端值影响数学性质优良数据对称分布或接近对称分布时应用众数、中位数、平均数的适用对象众数---分类数据顺序数据数值数据中位数---顺序数据数值数据平均数---数值数据众数、中位数、平均数的关系左偏分布均值中位数众数对称分布均值=中位数=众数右偏分布众数中位数均值第二节离散程度的度量标志变异指标是反映变量分布离散趋势、与平均指标相匹配的指标。具体有:异众比率(variationratio)四分位差(quartiledeviation)极差(range)离差(deviation)方差(variance)标准差(standarddeviation)变异系数(coefficientofvariation)标准分数(standardscore)异众比率计算公式:例:imimirfffffV1%6262.050191501950rV软饮料频数相对频数古典可乐1938.00%健怡可乐816.00%彭伯碳酸饮料510.00%百事可乐1326.00%雪碧510.00%总计50100.00%表1.2购买软饮料的频数分布表四分位差计算公式:13QQQd125.1115.123dQ例:计算下列数据的四分位差1061091141161211221251291122318,81109114:2.5,111.5,2111.54281116121:4.5,118.54118.5223(81)122125:6.75,123.56118.542nQQQQQQ解:有个值小于,有个值小于,有个值小于全距(极差)计算公式:离差计算公式:例:minmaxxxR甲地161819202122242523201815乙地-20-152029343530403229180甲乙两地的日平均气温数据(单位:摄氏度)xxi甲地气温离差-4-2-10124530-2-5乙地气温离差-39-34110151620211310-1-191933.19,2008.20乙甲XX方差不分组数据:分组数据:标准差不分组数据:分组数据:iiifxxf22nxxi22nxxi2iiifxxf2相对位置的度量xxzZ分数(标准分数)计算公式:例:家庭编号人均月收入(元)标准分数123456789150075078010808509602000125016300.695-1.042-0.973-0.278-0.811-0.5561.8530.1160.996经验法则:大约68%的数据处在z=-1.00和z=1.00之间大约95%的数据处在z=-2.00和z=2.00之间大约99.7%的数据处在z=-3.00和z=3.00之间2Z=222.5%2.5%Z=-2Z=095%相对离散程度:变异系数计算公式:例:求1.我国内地2001年职工的平均工资,中位数,标准差和变异系数2.分别计算东、西部职工年平均工资的中位数,标准差和变异系数xV地区均值中位数标准差变异系数东部9853.57981283441.9940.3493西部8863.6678441.52093.4490.2362我国内地9470.38783232992.5840.316结论:就均值而言,东部工资平均比西部高出近千元,然而东部的变异系数比西部大,主要是上海、广东比山西等工资差得很多,就中位数而言,2001年我国内地有代表性的工资是8323元-四川,东部的代表是湖南(8128元)异众比率、四分位差、方差的适用对象异众比率分类数据四分位数顺序数据方差、标准差数值数据变异系数不同样本的数据第三节偏态与峰态的度量偏态系数(skewness)对数据分布对称性测度的统计量,记作SK。未分组数据计算公式:分组数据计算公式:SK取值为零,则数据分布对称,大于零右偏,小于零左偏。|SK|大于1,高度偏态分布,|SK|在0.5~1之间,中等偏态分布。33)2)(1()(snnxxnSKi313)(nsfxMSKkiii例:62人皮尔逊智商分数分数70~80752-32.1-66152.380~90857-22.1-75557.690~1009510-12.1-177715.6100~11010516-2.1-148.2110~1201151