统计学课件4

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第四章1数据分布特征的测度数据分布的特征的测度2集中趋势(位置)离中趋势(分散程度)偏态和峰度(形状)数据的特征和测度分布的形状集中趋势离散程度3第一节集中趋势的测度某银行近一个月有10笔贷款,数额分别为:9万、60万、10万、10万、9万、11万、60万、10万、11万、10万。银行想要了解贷款的一般情况,集中趋势代表水平???45某城市居民关注广告类型的频数分布广告类型人数(人)比例频率(%)商品广告服务广告金融广告房地产广告招生招聘广告其他广告112519161020.5600.2550.0450.0800.0500.01056.025.54.58.05.01.0合计2001100解:这里的变量为“广告类型”,这是个分类变量,不同类型的广告就是变量值。我们看到,在所调查的200人当中,关注商品广告的人数最多,为112人,占总被调查人数的56%,因此众数为“商品广告”这一类别,即Mo=商品广告一、众数1.集中趋势的测度值之一2.出现次数最多的变量值6原始数据:105912687原始数据:698原始数据:56无众数一个众数多于一个众数5554488众数的特点1.可能没有众数或有几个众数2.不受极端值的影响3.主要用于分类数据,也可用于顺序数据和数值型数据89解:这里的数据为顺序数据。变量为“回答类别”。甲城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即Mo=不满意甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)百分比(%)非常不满意不满意一般满意非常满意24108934530836311510合计300100.0二、中位数1.集中趋势的测度值之一2.排序后处于中间位置上的值10Me50%50%3.不受极端值的影响4.主要用于顺序数据,也可用数值型数据,但不能用于分类数据123450137100顺序数据的中位数11解:中位数的位置为:300/2=150从累计频数看,中位数的在“一般”这一组别中。因此Me=一般甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数非常不满意不满意一般满意非常满意2410893453024132225270300合计300—中位数的计算12为偶数时当21为奇数时当12221NXXNXMNNNe顺序数据的计算方法Me=Xn/2数值型数据的计算方法数值型数据的中位数原始数据:2422212620排序:2021222426位置:1234513中位数22321521N位置3数值型数据的中位数原始数据:10591268排序:56891012位置:12345614位置N+126+123.5中位数8+928.534三、四分位数1.集中趋势的测度值之一2.排序后处于25%和75%位置上的值153.不受极端值的影响4.主要用于顺序数据,也可用于数值型数据,但不能用于分类数据QLQMQU25%25%25%25%顺序数据的四分位数16解:下四分位数(QL)的位置为QL位置=(300)/4=75上四分位数(QL)的位置QU位置=(3×300)/4=225从累计频数看,QL在“不满意”这一组别中;QU在“一般”这一组别中。因此QL=不满意QU=一般甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数非常不满意不满意一般满意非常满意2410893453024132225270300合计300—四分位数位置的计算17下四分位数(QL)位置=N+14上四分位数(QU)位置=3(N+1)4顺序数据的计算方法QL=n/4QU=3n/4数值型数据的计算方法数值型数据的四分位数原始数据:23213032282526排序:21232526283032位置:123456718QL=23N+17+1QL位置=4=4=2QU位置=3(N+1)43(7+1)4==6QU=3026数值型数据的四分位数原始数据:232130282526排序:212325262830位置:12345619QL=21+0.75(23-21)=22.5QL位置=N+14=6+14=1.75QU位置=3(N+1)43(6+1)4==5.25QU=28+0.25(30-28)=28.520某生产车间50名工人日加工零件数如下(单位:个)107112117119122123125127130134108113117120122123125127131135108114118120122124126128133137110115118121123124126128133139112117118122123124127129134139单批数据箱线图21最小值107最大值139中位数123下四分位数117.75上四分位数12810511011512012513013514050名工人日加工零件数的箱线图分布的形状与箱线图22对称分布左偏分布右偏分布不同分布的箱线图未分组数据—多批数据箱线图23从某大学经济管理专业二年级学生中随机抽取11人,对8门主要课程的考试成绩进行调查,所得结果如表3-8。试绘制各科考试成绩的批比较箱线图,并分析各科考试成绩的分布特征11名学生各科的考试成绩数据课程名称学生编号1234567891011英语经济数学西方经济学市场营销学财务管理基础会计学统计学计算机应用基础76659374687055859095818775739178975176857092688171748869846573957078669073788470936379806087816786918377769070828382928481706972787578918866948085718674687962818155787075687177248门课程考试成绩的箱线图Min-Max25%-75%Medianvalue455565758595105英语经济数学西方经济学市场营销学财务管理基础会计学统计学计算机应用基础2511名学生8门课程考试成绩的箱线图Min-Max25%-75%Medianvalue455565758595105学生1学生2学生3学生4学生5学生6学生7学生8学生9学生10学生11四、均值集中趋势的测度值之一最常用的测度值一组数据的均衡点所在易受极端值的影响用于数值型数据,不能用于分类数据和顺序数据2612334501337100均值271.设一组数据为:X1,X2,…,XN简单均值的计算公式为2.设分组后的数据组中值为:X1,X2,…,XK相应的频数为:F1,F2,…,FK相应的频率为:f1,f2,…,fK加权均值的计算公式为NXNXXXXNiiN121KiiKiiiNNNFFXFFFFXFXFXX11212211KiiifX1加权均值28某车间50名工人日加工零件均值计算表按零件数分组频数(Fi)频率(fi)105~110110~115115~120120~125125~130130~135135~1403581410640.060.100.160.280.200.120.08合计501.00根据第三章表中的数据,计算50名工人日加工零件数的均值)(2.12350616011个KiiKiiiFFXXXiFi322.5562.5940.01715.01275.0795.0550.06160.0组中值(Xi)107.5112.5117.5122.5127.5132.5137.5—)(98.1221个NXXNiiXifi6.4511.2518.834.325.515.911.0123.229X甲=700.2+910.3+940.3+720.283.9(分)X乙79.6(分)=910.2+700.3+720.3+940.2姓名统计学成绩数学成绩英语成绩经济学成绩甲70919472乙91707294权重0.20.30.30.275.811NXXNiifi均值1.各变量值与均值的离差之和等于零302.各变量值与均值的离差平方和最小-niiXX12min)(-niiXX10)(三只股票的年收益率分别股票名称第一年第二年第三年第四年A150%-50%150%-50%B90%10%90%10%C50%50%50%50%31%8.111)5.0(*5.2*)5.0(*5.24---MAG%6.4411.1*9.1*1.1*9.14-MBG%5015.1*5.1*5.1*5.14-MCG几何平均数1.集中趋势的测度值之一2.主要用于计算平均发展速度3.N个变量值乘积的N次方根4.计算公式为321)1(1)1()1()1(121--NNiiNNMXXXXG某公司2002年、2003年、2004年、2005年和2006年的销售额增长率为4.5%、2.0%、3.5%、5.4%、7.2%。计算该公司在这五年内的销售额平均增长率。33=4.51%1%51.10412.107%4.105%5.103%0.102%5.1045--1)1()1()1(21-NNMXXXG甲、乙两个企业生产三种产品的单位成本和总成本资料如下:34产量Fi甲乙140150502177550产品名称单位成本(元)总成本(元)甲乙ABC152030210030001500325515001500元)(41.193406600iiiiiMXFXFXH甲XiXiFi合计—66006255340342元)(29.81乙MH调和平均数1.集中趋势的测度值之一2.加权均值的另一种表现形式3.易受极端值的影响4.用于数值型数据5.不能用于分类数据和顺序数据6.计算公式为35原来只是计算时使用了不同的数据!iiiiiiiiMFFXXFXFXH某蔬菜批发市场三种蔬菜的日成交数据如下表所示:36蔬菜名称批发价格(元/公斤)成交额(元)青椒1.218000白菜0.512500茄子0.86400计算三种蔬菜该日的平均批发价格。成交量(公斤)1500025000800平均批发价格=成交额/成交量=36900/48000=0.796(元/公斤)37数据类型和所适用的集中趋势测度值数据类型分类数据顺序数据数值型数据适用的测度值※众数※中位数※均值—四分位数中位数—众数四分位数——众数众数、中位数和均值的关系38对称分布均值=中位数=众数左偏分布均值中位数众数右偏分布众数中位数均值39第二节离散程度的测度本节位置40数据的特征和测度分布的形状离散程度众数中位数均值集中趋势异众比率41某城市居民关注广告类型的频数分布广告类型人数(人)频率(%)商品广告服务广告金融广告房地产广告招生招聘广告其他广告1125191610256.025.54.58.05.01.0合计200100解:在所调查的200人当中,关注非商品广告的人数占44%,异众比率还是比较大。因此,用“商品广告”来反映城市居民对广告关注的一般趋势,其代表性不是很好。Vr=200-112200=1-112200=0.44=44%人数(人)频率(%)503030303030251515151515200100异众比率1.离散程度的测度值之一2.非众数组的频数占总频数的比率3.计算公式为424.用于衡量众数的代表性--imimirFFFFFV1四分位差1.离散程度的测度值之一2.也称为内距或四分间距3.上四分位数与下四分位数之差QD=QU-QL4.反映了中间50%数据的离散程度5.不受极端值的影响6.用于衡量中位数的代表性43数值型数据的四分位差原始数据:232130282526排序:212325262830位置:12345644QL=21+0.75(23-21)=22.5QU=28+0.25(30-28)=28.5QU–QL=28.5-22.5=6

1 / 44
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功