贾俊平-统计学-第3章-用统计量描述数据

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

数据分析(方法与案例)作者贾俊平统计学3-2统计学STATISTICS(第四版)2020-2-22一些人使用统计就像喝醉酒的人使用街灯柱—支撑的功能多于照明。——AndrewLang统计名言第3章用统计量描述数据3.1水平的度量3.2差异的度量3.3分布形状的度量3-4统计学STATISTICS(第四版)2020-2-22学习目标度量水平的统计量度量差异的统计量度量分布形状的统计量各统计量的的特点及应用场合用Excel和SPSS计算描述统计量3-5统计学STATISTICS(第四版)2020-2-22哪名运动员的发挥更稳定?在奥运会女子10米气手枪比赛中,每个运动员首先进行每组10抢共4组的预赛,然后根据预赛总成绩确定进入决赛的8名运动员。决赛时8名运动员再进行10枪射击,再将预赛成绩加上决赛成绩确定最后的名次在2008年8月10日举行的第29届北京奥运会女子10米气手枪决赛中,进入决赛的8名运动员的预赛成绩和最后10枪的决赛成绩如下表3-6统计学STATISTICS(第四版)2020-2-22哪名运动员的发挥更稳定?最会的比赛结果是,中国运动员郭文珺凭借决赛的稳定发挥,以总成绩492.3环夺得金牌,预赛排在第1名的俄罗斯运动员纳塔利娅·帕杰林娜以总成绩498.1环获得银牌,预赛排在第4名的格鲁吉亚运动员妮诺·萨卢克瓦泽以总成绩487.4环的成绩获得铜牌,而预赛排在第3名的蒙古运动员卓格巴德拉赫·蒙赫珠勒仅以479.6环的成绩名列第8名由此可见,在射击比赛中,运动员能否取得好的成绩,发挥的稳定性至关重要。那么,怎样评价一名运动员的发挥是否稳定呢?通过本章内容的学习就能很容易回答这样的问题3.1水平的度量3.1.1平均数3.1.2中位数和分位数3.1.3用哪个值代表一组数据?第3章用统计量描述数据3.1.1平均数3.1水平的度量3-9统计学STATISTICS(第四版)2020-2-22xx平均数(mean)1.也称为均值,常用的统计量之一2.消除了观测值的随机波动3.易受极端值的影响4.根据总体数据计算的,称为平均数,记为;根据样本数据计算的,称为样本平均数,记为x3-10统计学STATISTICS(第四版)2020-2-22简单算数平均(Simplemean)设一组数据为:x1,x2,…,xn(总体数据xN)样本平均数nxnxxxxniin121NxNxxxNiiN121总体平均数统计函数—AVERAGE3-11统计学STATISTICS(第四版)2020-2-22加权平均数(Weightedmean)设各组的组中值为:M1,M2,…,Mk相应的频数为:f1,f2,…,fknfMffffMfMfMxkiiikkk1212211样本加权平均:总体加权平均:NfMffffMfMfMkiiikkk12122113-12统计学STATISTICS(第四版)2020-2-22185120222001nfMxkiii加权平均数(例题分析)某电脑公司销售额数据分组表按销售额分组组中值(Mi)频数(fi)Mifi140~150150~160160~170170~180180~190190~200200~210210~220220~230230~24014515516517518519520521522523549162720171084558013952640472537003315205017209001175合计—120222003-13统计学STATISTICS(第四版)2020-2-22加权平均数(权数对均值的影响)【例】甲乙两组各有10名学生,他们的考试成绩及其分布数据如下甲组:考试成绩(x):020100人数分布(f):118乙组:考试成绩(x):020100人数分布(f):811)(82108100120101分甲nxxnii)(12101100120801分乙nxxnii3.1.2中位数和分位数3.1水平的度量3-15统计学STATISTICS(第四版)2020-2-22中位数(median)1.排序后处于中间位置上的值。不受极端值影响Me50%50%2.位置确定21n中位数位置为偶数为奇数nxxnxMnnne12221213.数值确定3-16统计学STATISTICS(第四版)2020-2-22中位数的计算(数据个数为奇数)【例3-3】9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789中位数1080521921n位置3-17统计学STATISTICS(第四版)2020-2-22中位数的计算(数据个数为偶数)【例3-3】10个家庭的人均月收入数据排序:750780850960108012501500163020002800位置:123456789105.5211021n位置1165212501180中位数统计函数—MEDIAN3-18统计学STATISTICS(第四版)2020-2-22四分位数—用3个点等分数据(quartile)1.排序后处于25%和75%位置上的值2.不受极端值的影响QLQMQU25%25%25%25%3-19统计学STATISTICS(第四版)2020-2-22四分位数的计算(位置的确定)方法2:较准确算法(SPSS的算法)4)1(341ULnQnQ位置位置方法1:定义算法434ULnQnQ位置位置3-20统计学STATISTICS(第四版)2020-2-22四分位数的计算(位置的确定)方法3:其中[]表示中位数的位置取整。这样计算出的四分位数的位置,要么是整数,要么在两个数之间0.5的位置上方法4:Excel给出的四分位数位置的确定方法如果位置不是整数,则按比例分摊位置两侧数值的差值2121nQ位置43nQL位置413nQU位置3-21统计学STATISTICS(第四版)2020-2-22四分位数的计算(数据个数为奇数)【例3-4】9个家庭的人均月收入数据(4种方法计算)原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:12345678975.649325.249UL位置位置QQ5.79725.0)780850(780LQ5.143775.0)12501500(1250UQ方法1—定义公式3-22统计学STATISTICS(第四版)2020-2-22四分位数的计算(数据个数为奇数)【例3-4】9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:1234567895.74)19(35.2419UL位置位置QQ15652163015008152850780ULQQ方法2—SPSS公式3-23统计学STATISTICS(第四版)2020-2-22四分位数的计算(数据个数为奇数)【例3-4】9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789321219位置Q1500850ULQQ方法3—4分数公式3-24统计学STATISTICS(第四版)2020-2-22四分位数的计算(数据个数为奇数)【例3-4】9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789方法4—Excel公式741933439UL位置位置QQ850LQ1500UQ统计函数—QUARTILE3-25统计学STATISTICS(第四版)2020-2-22众数(mode)mo统计函数—MODE3-26统计学STATISTICS(第四版)2020-2-22众数(mode)1.一组数据中出现次数最多的变量值2.适合于数据量较多时使用3.不受极端值的影响4.一组数据可能没有众数或有几个众数5.主要用于分类数据,也可用于顺序数据和数值型数据3-27统计学STATISTICS(第四版)2020-2-22众数(不惟一性)无众数原始数据:10591268一个众数原始数据:659855多于一个众数原始数据:2528283642423-28统计学STATISTICS(第四版)2020-2-22分类数据的众数(例题分析)不同品牌饮料的频数分布饮料品牌频数比例百分比(%)可口可乐旭日升冰茶百事可乐汇源果汁露露15119690.300.220.180.120.183022181218合计501100解:这里的变量为“饮料品牌”,这是个分类变量,不同类型的饮料就是变量值所调查的50人中,购买可口可乐的人数最多,为15人,占总被调查人数的30%,因此众数为“可口可乐”这一品牌,即Mo=可口可乐3-29统计学STATISTICS(第四版)2020-2-22顺序数据的众数(例题分析)解:这里的数据为顺序数据。变量为“回答类别”甲城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即Mo=不满意甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)百分比(%)非常不满意不满意一般满意非常满意24108934530836311510合计300100.03.1.3用哪个值代表一组数据?3.1水平的度量3-31统计学STATISTICS(第四版)2020-2-22众数、中位数和平均数的关系左偏分布均值中位数众数对称分布均值=中位数=众数右偏分布众数中位数均值3-32统计学STATISTICS(第四版)2020-2-22众数、中位数、平均数的特点和应用1.平均数易受极端值影响数学性质优良,实际中最常用数据对称分布或接近对称分布时代表性较好2.中位数不受极端值影响数据分布偏斜程度较大时代表性接好3.众数不受极端值影响具有不惟一性数据分布偏斜程度较大且有明显峰值时代表性较好3.2差异的度量3.2.1极差和四分位差3.2.2方差和标准差3.2.3比较几组数据的离散程度:离散系数第3章用统计量描述数据3-34统计学STATISTICS(第四版)2020-2-22怎样评价水平代表值?1.假定有两个地区每人的平均收入数据,其中甲地区的平均收入为5000元,乙地区的平均收入为3000元。你如何评价两个地区的收入状况?2.如果平均收入的多少代表了该地区的生活水平,你能否认为甲地区的平均生活水平就高于乙地区呢?3.要回答这些问题,首先需要搞清楚这里的平均收入是否能代表大多数人的收入水平。如果甲地区有少数几个富翁,而大多数人的收入都很低,虽然平均收入很高,但多数人生活水平仍然很低。相反,乙地区多数人的收入水平都在3000元左右,虽然平均收入看上去不如甲地区,但多数人的生活水平却比甲地区高,原因是甲地区的收入差距大于乙地区3-35统计学STATISTICS(第四版)2020-2-22怎样评价水平代表值?仅仅知道数据的水平是远远不够的,还必须考虑数据之间的差距有多大。数据之间的差距用统计语言来说就是数据的离散程度。数据的离散程度越大,各描述统计量对该组数据的代表性就越差,离散程度越小,其代表性就越甲乙3.2.1极差和四分位差3.2差异的度量3-37统计学STATISTIC

1 / 66
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功