统计学课件-第2章-集中趋势与离散趋势

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第二节集中趋势测量法集中趋势是指一组数据向某一中心值靠拢的倾向,测度集中趋势就是寻找数据一般水平的代表值或中心值。一、平均值(Mean)平均值就是一组数据的平均值(averagevalue),用来测度中心位置(centrallocation)。1.简单算术平均数对样本:nxnxxxxniin121NXNXXXXniin121其中n为样本数对总体:其中N为总体单位数例1.(美国)一个关于大学生毕业后工作起薪的问卷调查数据Table1,MonthlyStartingSalariesforaSampleof12CollegeGraduatesGraduatesMonthlyGraduatesMonthlyGraduatesMonthlySalary($)Salary($)Salary($)12350522559244022450622101028523255072390112428423808263012238024401223802450235021nXXXXn加权算术平均往往适用于对分组后的数据求均值,这时Xi为各组变量代表值(往往取组中值),Fi为各组变量值出现的频数。组中值=(上限+下限)/2kiikiiikkkFFXFFFFXFXFXX112122112.加权算术平均数其中Fi为权数例2.某班级英语考试成绩分组情况见下表:成绩分组人数累计人数成绩分组人数累计人数(分)(分)50以下2270~80183550~605780~9094460~70101790以上6502.75506*955*552*45212211kkkFFFFXFXFXX▲注意:均值容易受到统计数据中个别极端数据的影响,从而使均值代表某组统计数据的“平均水平”时失去意义,这时往往用“剔除极端值”的方法加以修正。如例1中,如果将月薪2825的最高值用10000代替,则均值为3038算术平均数具有如下性质:(1)各变量值与其算术平均数的离差和为零:01NiiXX(2)各变量值与其算术平均数的离差平方和最小:min21NiiXX21NeXM12221NNeXXM二、中位数(Median)中位数是一组数据按大小排序后,处于中间位置上的变量值。1.对于未分组数据:(1)如果数据个数为奇数,则中位数恰为处于中间位置的数:(2)如果数据个数为偶数,则为中间位置两个数的平均数美国大学毕业生起薪例中:按升序排出的12个统计数为:2210225523502380238023902420244024502550263028252405224202390eM则中位数为由于均值容易受到统计数据中个别极端数据的影响,从而使均值代表某组统计数据的“平均水平”时失去意义,这时用中位数代替均值则更有意义。如,在大学生毕业工作起薪的例中,如果原统计数中最高薪金由2825换为10000,则得到平均薪金为3038的结论,显然与其他11位均在2000多的薪水水平不符,但这时若用中位数2405,显然更具代表意义。▲注意:首先需确定中位数所在的组,然后可根据下列公式计算中位数:下限公式:fSfSmmm11dfSfLMmme12dfSfUMmme122.对于分组后的数据:式中:m为中位数所在的组,d为该组组距,L、U分别为该组的下限值与上限值,fm为该组的频数,Sm-1为该组以下各组的频数总和,Sm+1为该组以上各组的频数总和,显然上限公式:例4.某班级英语考试成绩分组情况见下表:成绩分组人数累计人数成绩分组人数累计人数(分)(分)50以下2270~80183550~605780~9094460~70101790以上6504.7410181725070eM4.7410181525080eM从成绩由低往高排,中位数所在组应在第4组,即70~80的组,由于L=70,U=80,d=10,而Sm-1=2+5+10=17,Sm+1=9+6=15,fm=18,故或众数是一组数据中出现次数最多的变量值。•在大学毕业生工作起薪的例中,众数为2380。•在分组数据中,众数可按下式计算:下限公式:dffffffLMmmmmmmo)()(111dffffffUMmmmmmmo)()(111三、众数(Mode)式中:fm为某数值出现次数(频数)最多的组(第m组)的频数,fm-1与fm+1分别为第m-1组与m+1组的频数,L、U分别为第m组的下限与上限值,d为该组组距。上限公式:7.7410)918()1018(101870oM7.7410)918()1018(91880oM•在学生英语考试成绩例中,次数最多的组也在70~80组中,则有fm=18,fm-1=10,fm+1=9,或例如在前面购买五类不同品牌计算机的统计中,曾得到如右表所示的频数分布表。▲注意:1.如果某组统计数据中没有哪个数值出现较多的频率(次数),则可认为该组数无众数;如果有多个数据出现的次数(频率)较多,则认为有多个众数。在有多个众数的情况下,则对众数的关注度下降,因为多众数对描述数据位置无多大帮助。2.对描述品质数据的分布特征的“位置”测度只能用众数。CompanyFrequencyApple13Compaq12Gateway20005IBM9PackardBell11显然,众数,即个人购买最多的机算机品牌是Apple。在这类数据中,“均值”与“中位数”是没有任何意义的。“众数”提供了频数最高的个人电脑购买品牌。1.如果数据具有单一众数,且分布是对称的,则众数Mo、中位数Me与均值相等,即;XMMeooeMMXoeMMXX)(31XMXMOe四、中位数、众数与算术平均数的关系3.在偏斜度适度的情况下,不论是左偏还是右偏,中位数与算术平均数之差约等于众数与算术平均数之差的1/3,即有如下经验公式:当分布右偏时(说明存在极端大的值)2.对于非对称分布,当分布左偏时(说明存在极端小的值)•众数、中位数和均值都是对数据集中趋势的测度,1.均值由全部数据计算,包含了全部数据的信息,具有良好的数学性质,当数据接近对称分布时,具有较好的代表性;但对于偏态分布,其代表性较差。2.中位数是一组数据中间位置上的代表值,不受数据极端值的影响,对于偏态分布的数据,其代表性要比均值好。3.众数是一组数据分布的峰值,是一种位置的代表,当数据的分布具有明显的集中趋势时,尤其对于偏态分布,众数的代表性比均值好。4.对接近正态的分布数据,常用均值描述数据的集中趋势;对偏态分布,常用众数或中位数描述数据的集中趋势。5.均值只适用于定距或定比尺度的数据;定序尺度数据可用中位数或众数进行描述,而对定类尺度数据,只能用众数进行描述。众数、中位数和均值的应用场合变量类型与集中趋势测度值变量类型和所适用的集中趋势测度值变量类型定类变量定序变量定距变量定比变量适用的测度值众数中位数均值均值—众数众数众数——中位数中位数分布的形状与众数、中位数和均值的关系对称分布均值=中位数=众数左偏分布均值中位数众数右偏分布众数中位数均值高层次变量可以用低层次变量的测量方法但统计分析中,更多的是用均值。对于偏态的分布,应使用中位值作为集中趋势。只有单峰和基本对称的图形,用均值作为集中趋势才是合理的。第三节离散趋势测量法对数据分布特征的另一个测度指标是数据分布离散程度。它反映各数据远离其中心值的程度,因此,也称离中趋势。集中趋势反映的是各变量值向其中心值聚集的程度,离中趋势反映各变量值之间的差异状况。注意:集中趋势的测度值概括地反映了数据的一般水平,它对该组数据的代表程度,取决于该组数据的离散水平。数据的离散程度越大,集中趋势的测度值对该组数据的代表性就越差。例:如果你是一家制造业公司的供应部门经理,与两家原材料供应商联系供货,两家供应商均表示能在大约10个工作日内供齐所需原材料。几个月的运转之后,你发现尽管两家供货商供货的平均时间都是大约10天,但他们供货所需天数的分布情况却是不同的(图)。相对频数相对频数5A供货商B供货商43211111191011天789101112131415天问:两家供货商按时供货的可信度相同吗?考虑它们直方图的差异,你更愿意选择哪家供货商供货呢?A商店16001800175019001850平均工资1780B商店14501500150016502800平均工资1780极差是最简单的测度离中趋势(分散程度)的指标,也称全距,是一组数据最大值与最小值之差:R=最大值–最小值对于组距分组数据,极差可近似地表示为:R=最高组上限-最低组下限▲注意:1.极差易受极端值的影响;2.由于极差只利用了数据两端的信息,没有反映中间数据的分散状况,因而不能准确描述数据的分散程度。一、极差(Range)方差是各变量值与其均值离差(deviationaboutthemean)平方的平均数。(一)总体方差(PopulationVariance)总体方差用2表示二、方差(Variance)其中:Fi为第i组数据的频数Xi为第i个数(未分组)或第i组组中值(分组)(二)样本方差(SampleVariance)样本方差用S2表示其中:fi为第i组数据的频数xi为第i个数(未分组)或第i组组中值(分组)A商店平均工资1780极差300方差10600标准差102.96B商店平均工资1780极差1350方差264600标准差514.3964152561)(2nxxSi例:在上述5个班级平均人数的例中,若视5个班为样本,则2.515256)(2NXXi若视5个班为总体,则对于分组后的数据若视为总体:2.515256)(22iiiFFXX若视为样本:6442561)(22iiiffxxS标准差:方差的平方根(正)在五个班级规模的例中:若视5个班为总体,则标准差为7.15,若视5个班为样本,则标准差为8。总体标准差:2样本标准差:2SS三、标准差(StandardDeviation)均值▲注意:1.由于方差计算中使用了平方运算,因此方差的单位也是平方,如上述班级规模例中方差为64(学生)2,其具体意义不明确。因此方差只有在比较不同组数据的离散程度时才有数量大小上的意义。2.标准差是对方差的开方运算,因此,其单位与原始数据的单位一致,它与均值及其他用同一单位测度的数据相比较也容易一些。(标准差就是指数据“离散程度的测度值”距“均值”的距离)。•重复3次测量一种物体的长度,得到数据如下:•单位:m1.1,1.2,1.3;•平均长度1.2,标准差0.08165•单位:cm110,120,130;•平均长度120,标准差8.165离散系数:一组数据标准差与其均值的比,也称为标准差系数,是测度数据离散程度的相对指标:例:前例中,以m为单位,离散系数为:0.08165/1.2=0.068,以cm为单位,离散系数为:8.165/120=0.068四、离散系数(CoefficientofVariation)▲注意:1.对不同组数据,其离散程度既受其数据本身的水平的影响,也受数据计量单位的影响,因此对不同(性质)组别的数据,不好用离差或标准差来比较它们的离散程度;2.由于离散系数消除了来自这两方面的影响,因此可以用它进行不同数据组的比较。例5:某管理局抽查了其所属的8家企业,其产品销售额与销售利润数据如下表所示,试比较销售额与销售利润的离散程度。企业编号销售额销售利润企业编号销售额销售利润(万元)(万元)(万元)(万元)X1X2X1X211708.1548026.5222012.5665040.0339018.0795064.0443022.08100069.0)(25.5361万元X)(19.3091万元S577

1 / 33
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功