数据分析(方法与案例)作者贾俊平统计学3-2统计学STATISTICS(第四版)2020-2-22一些人使用统计就像喝醉酒的人使用街灯柱—支撑的功能多于照明。——AndrewLang统计名言第3章用统计量描述数据3.1水平的度量3.2差异的度量3.3分布形状的度量3-4统计学STATISTICS(第四版)2020-2-22学习目标度量水平的统计量度量差异的统计量度量分布形状的统计量各统计量的的特点及应用场合用Excel和SPSS计算描述统计量3-5统计学STATISTICS(第四版)2020-2-22哪名运动员的发挥更稳定?在奥运会女子10米气手枪比赛中,每个运动员首先进行每组10抢共4组的预赛,然后根据预赛总成绩确定进入决赛的8名运动员。决赛时8名运动员再进行10枪射击,再将预赛成绩加上决赛成绩确定最后的名次在2008年8月10日举行的第29届北京奥运会女子10米气手枪决赛中,进入决赛的8名运动员的预赛成绩和最后10枪的决赛成绩如下表3-6统计学STATISTICS(第四版)2020-2-22哪名运动员的发挥更稳定?最会的比赛结果是,中国运动员郭文珺凭借决赛的稳定发挥,以总成绩492.3环夺得金牌,预赛排在第1名的俄罗斯运动员纳塔利娅·帕杰林娜以总成绩498.1环获得银牌,预赛排在第4名的格鲁吉亚运动员妮诺·萨卢克瓦泽以总成绩487.4环的成绩获得铜牌,而预赛排在第3名的蒙古运动员卓格巴德拉赫·蒙赫珠勒仅以479.6环的成绩名列第8名由此可见,在射击比赛中,运动员能否取得好的成绩,发挥的稳定性至关重要。那么,怎样评价一名运动员的发挥是否稳定呢?通过本章内容的学习就能很容易回答这样的问题3.1水平的度量3.1.1平均数3.1.2中位数和分位数3.1.3用哪个值代表一组数据?第3章用统计量描述数据3.1.1平均数3.1水平的度量3-9统计学STATISTICS(第四版)2020-2-22xx平均数(mean)1.也称为均值,常用的统计量之一2.消除了观测值的随机波动3.易受极端值的影响4.根据总体数据计算的,称为平均数,记为;根据样本数据计算的,称为样本平均数,记为x3-10统计学STATISTICS(第四版)2020-2-22简单算数平均(Simplemean)设一组数据为:x1,x2,…,xn(总体数据xN)样本平均数nxnxxxxniin121NxNxxxNiiN121总体平均数统计函数—AVERAGE3-11统计学STATISTICS(第四版)2020-2-22加权平均数(Weightedmean)设各组的组中值为:M1,M2,…,Mk相应的频数为:f1,f2,…,fknfMffffMfMfMxkiiikkk1212211样本加权平均:总体加权平均:NfMffffMfMfMkiiikkk12122113-12统计学STATISTICS(第四版)2020-2-22185120222001nfMxkiii加权平均数(例题分析)某电脑公司销售额数据分组表按销售额分组组中值(Mi)频数(fi)Mifi140~150150~160160~170170~180180~190190~200200~210210~220220~230230~24014515516517518519520521522523549162720171084558013952640472537003315205017209001175合计—120222003-13统计学STATISTICS(第四版)2020-2-22加权平均数(权数对均值的影响)【例】甲乙两组各有10名学生,他们的考试成绩及其分布数据如下甲组:考试成绩(x):020100人数分布(f):118乙组:考试成绩(x):020100人数分布(f):811)(82108100120101分甲nxxnii)(12101100120801分乙nxxnii3.1.2中位数和分位数3.1水平的度量3-15统计学STATISTICS(第四版)2020-2-22中位数(median)1.排序后处于中间位置上的值。不受极端值影响Me50%50%2.位置确定21n中位数位置为偶数为奇数nxxnxMnnne12221213.数值确定3-16统计学STATISTICS(第四版)2020-2-22中位数的计算(数据个数为奇数)【例3-3】9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789中位数1080521921n位置3-17统计学STATISTICS(第四版)2020-2-22中位数的计算(数据个数为偶数)【例3-3】10个家庭的人均月收入数据排序:750780850960108012501500163020002800位置:123456789105.5211021n位置1165212501180中位数统计函数—MEDIAN3-18统计学STATISTICS(第四版)2020-2-22四分位数—用3个点等分数据(quartile)1.排序后处于25%和75%位置上的值2.不受极端值的影响QLQMQU25%25%25%25%3-19统计学STATISTICS(第四版)2020-2-22四分位数的计算(位置的确定)方法2:较准确算法(SPSS的算法)4)1(341ULnQnQ位置位置方法1:定义算法434ULnQnQ位置位置3-20统计学STATISTICS(第四版)2020-2-22四分位数的计算(位置的确定)方法3:其中[]表示中位数的位置取整。这样计算出的四分位数的位置,要么是整数,要么在两个数之间0.5的位置上方法4:Excel给出的四分位数位置的确定方法如果位置不是整数,则按比例分摊位置两侧数值的差值2121nQ位置43nQL位置413nQU位置3-21统计学STATISTICS(第四版)2020-2-22四分位数的计算(数据个数为奇数)【例3-4】9个家庭的人均月收入数据(4种方法计算)原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:12345678975.649325.249UL位置位置QQ5.79725.0)780850(780LQ5.143775.0)12501500(1250UQ方法1—定义公式3-22统计学STATISTICS(第四版)2020-2-22四分位数的计算(数据个数为奇数)【例3-4】9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:1234567895.74)19(35.2419UL位置位置QQ15652163015008152850780ULQQ方法2—SPSS公式3-23统计学STATISTICS(第四版)2020-2-22四分位数的计算(数据个数为奇数)【例3-4】9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789321219位置Q1500850ULQQ方法3—4分数公式3-24统计学STATISTICS(第四版)2020-2-22四分位数的计算(数据个数为奇数)【例3-4】9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789方法4—Excel公式741933439UL位置位置QQ850LQ1500UQ统计函数—QUARTILE3-25统计学STATISTICS(第四版)2020-2-22众数(mode)mo统计函数—MODE3-26统计学STATISTICS(第四版)2020-2-22众数(mode)1.一组数据中出现次数最多的变量值2.适合于数据量较多时使用3.不受极端值的影响4.一组数据可能没有众数或有几个众数5.主要用于分类数据,也可用于顺序数据和数值型数据3-27统计学STATISTICS(第四版)2020-2-22众数(不惟一性)无众数原始数据:10591268一个众数原始数据:659855多于一个众数原始数据:2528283642423-28统计学STATISTICS(第四版)2020-2-22分类数据的众数(例题分析)不同品牌饮料的频数分布饮料品牌频数比例百分比(%)可口可乐旭日升冰茶百事可乐汇源果汁露露15119690.300.220.180.120.183022181218合计501100解:这里的变量为“饮料品牌”,这是个分类变量,不同类型的饮料就是变量值所调查的50人中,购买可口可乐的人数最多,为15人,占总被调查人数的30%,因此众数为“可口可乐”这一品牌,即Mo=可口可乐3-29统计学STATISTICS(第四版)2020-2-22顺序数据的众数(例题分析)解:这里的数据为顺序数据。变量为“回答类别”甲城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即Mo=不满意甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)百分比(%)非常不满意不满意一般满意非常满意24108934530836311510合计300100.03.1.3用哪个值代表一组数据?3.1水平的度量3-31统计学STATISTICS(第四版)2020-2-22众数、中位数和平均数的关系左偏分布均值中位数众数对称分布均值=中位数=众数右偏分布众数中位数均值3-32统计学STATISTICS(第四版)2020-2-22众数、中位数、平均数的特点和应用1.平均数易受极端值影响数学性质优良,实际中最常用数据对称分布或接近对称分布时代表性较好2.中位数不受极端值影响数据分布偏斜程度较大时代表性接好3.众数不受极端值影响具有不惟一性数据分布偏斜程度较大且有明显峰值时代表性较好3.2差异的度量3.2.1极差和四分位差3.2.2方差和标准差3.2.3比较几组数据的离散程度:离散系数第3章用统计量描述数据3-34统计学STATISTICS(第四版)2020-2-22怎样评价水平代表值?1.假定有两个地区每人的平均收入数据,其中甲地区的平均收入为5000元,乙地区的平均收入为3000元。你如何评价两个地区的收入状况?2.如果平均收入的多少代表了该地区的生活水平,你能否认为甲地区的平均生活水平就高于乙地区呢?3.要回答这些问题,首先需要搞清楚这里的平均收入是否能代表大多数人的收入水平。如果甲地区有少数几个富翁,而大多数人的收入都很低,虽然平均收入很高,但多数人生活水平仍然很低。相反,乙地区多数人的收入水平都在3000元左右,虽然平均收入看上去不如甲地区,但多数人的生活水平却比甲地区高,原因是甲地区的收入差距大于乙地区3-35统计学STATISTICS(第四版)2020-2-22怎样评价水平代表值?仅仅知道数据的水平是远远不够的,还必须考虑数据之间的差距有多大。数据之间的差距用统计语言来说就是数据的离散程度。数据的离散程度越大,各描述统计量对该组数据的代表性就越差,离散程度越小,其代表性就越甲乙3.2.1极差和四分位差3.2差异的度量3-37统计学STATISTIC