第二章统计数据的描述

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

华南理工大学精品课程统计学统计数据的描述第二章华南理工大学精品课程第二章统计数据的描述录取中有无歧视?某高校只有两个系,财经系和工程系。该校报考及录取的总体情况如下:男生女生录取350200未录取450400报考人数800600引例:华南理工大学精品课程第二章统计数据的描述如果我们只看该校男女生录取的比率,即男生350/800=44%,女生200/600=33%。这时我们不免会问,是男同学的成绩比女同学好,还是在录取中存在着性别的歧视?学过统计学的同学不会简单地做出结论,而是继续搜集数据并得到两个系各自录取的男女生数据:引例:华南理工大学精品课程第二章统计数据的描述工程系财经系男生女生男生女生录取30010050100未录取300100150300报考人数600200200400引例:华南理工大学精品课程第二章统计数据的描述有了分系的录取数据,不难看到工程系录取的人数比较多,男女生录取的比率都是50%。而财经系招生名额较少,男女生录取的比率都是25%。由于女生报财经系的人多,男生报工科的人多,因而导致男生整个录取率偏高,而女生偏低。这个例子告诉我们对数据一是要从不同角度进行分析,二是要注意权数的影响,这就是本章要讨论的问题。引例:华南理工大学精品课程6引例提问录取中有无歧视?Q1Q2Q3统计学怎样对数据进行有效分析?怎样理解权数对均值的影响?华南理工大学精品课程7本章学习内容1.学习如何用数据对客观事物进行计量,如何获取数据以及对数据质量的评价2.如何对获取的数据进行整理3.数据分布的集中趋势和离散程度4.非正态总体的分布偏态和峰度5.茎叶图和箱线图的特点和优势6.统计表及统计图华南理工大学精品课程8本章学习目标了解数据的计量尺度了解统计数据的来源和数据的质量要求掌握数值型数据的整理方法掌握数据集中趋势和离散程度的测度方法掌握茎叶图和箱线图的制作方法掌握分布偏态与峰度的测度方法掌握统计表和统计图的使用华南理工大学精品课程9第一节数据的计量尺度2.12.22.32.42.5第二章具体章节结构第二节统计数据的来源第三节统计数据的质量第四节统计数据的整理第五节分布集中趋势的测度华南理工大学精品课程10第六节分布离散程度的测度2.62.72.82.9第七节分布偏态与峰度的测度第八节茎叶图与箱线图第九节统计表与统计图第二章具体章节结构华南理工大学精品课程第一节数据的计量尺度按照计量学的一般分类方法,对数据分为四种计量尺度,即:一、列名尺度二、顺序尺度三、间隔尺度四、比率尺度华南理工大学精品课程12列名尺度(Nominalscale)1.也称名义尺度或分类尺度2.计量层次最低3.对事物进行平行的分类4.各类别可以指定数字代码表示5.使用时必须符合类别穷尽和互斥的要求6.数据表现为“类别”7.具有=或的数学特性华南理工大学精品课程13顺序尺度(Ordinalscale)1.也称定序尺度2.对事物分类的同时给出各类别的顺序3.比定类尺度精确4.未测量出类别之间的准确差值5.数据表现为“类别”,但有序6.具有或的数学特性华南理工大学精品课程14间隔尺度(Intervalscale)1.也称间隔尺度2.对事物的准确测度3.比定序尺度精确4.数据表现为“数值”5.没有绝对零点6.具有+或-的数学特性华南理工大学精品课程15比率尺度(Ratioscale)1.也称比率尺度2.对事物的准确测度3.与定距尺度处于同一层次4.数据表现为“数值”5.有绝对零点6.具有或的数学特性华南理工大学精品课程16四种计量尺度的比较定类尺度定序尺度定距尺度定比尺度分类(=,≠)排序(,)间距(+,-)比值(×,÷)√√√√√√√√√√“√”表示该尺度所具有的特性表2-1四种计量尺度的比较华南理工大学精品课程17本节提问数据的计量尺度分为哪几种?Q1Q2Q3不同计量尺度各有什么特点?间隔尺度和比例尺度有何区别?华南理工大学精品课程第二节统计数据的来源统计数据来源于直接组织的调查、观察和科学试验,我们称之为第一手数据或直接的数据;或者来源于已有的数据,我们称之为第二手数据或间接的数据。一、间接获取的数据二、直接获取的数据华南理工大学精品课程19间接取得的数据1.统计部门和政府部门公布的有关资料,如各类统计年鉴2.各类经济信息中心、信息咨询机构、专业调查机构等提供的数据3.各类专业期刊、报纸、书籍所提供的资料4.各种会议,如博览会、展销会、交易会及专业性、学术性研讨会上交流的有关资料5.从互联网或图书馆查阅到的相关资料中国人口统计年鉴中国市场统计年鉴华南理工大学精品课程20提供统计数据的部分政府网站中国政府及相关机构网址数据内容国家统计局统计年鉴、统计月报等国务院发展研究中心信息网宏观经济、财经、货币金融等中国经济信息网国家统计局授权的数据中心中国决策信息网三农信息、论坛及相关网站表2-2提供统计数据的部分政府网站华南理工大学精品课程21提供统计数据的部分政府网站美国政府机构网址数据内容人口普查局货币供应、信誉、汇率等预算编制办公室财政收入、支出、债券等商务部商业、工业等表2-2提供统计数据的部分政府网站(续表)华南理工大学精品课程22普查(census)1.为特定目的专门组织的非经常性全面调查2.通常是一次性或周期性的3.一般需要规定统一的标准调查时间4.数据的规范化程度较高5.应用范围比较狭窄总体华南理工大学精品课程23抽样调查(samplingsurvey)1.从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体特征的数据收集方法2.具有经济性、时效性强、适应面广、准确性高等特点总体随机样本华南理工大学精品课程24本节提问简要说明统计数据的来源?Q1Q2获取直接统计数据的渠道主要有哪些?华南理工大学精品课程第三节统计数据的质量统计数据的误差:一、抽样误差二、非抽样误差华南理工大学精品课程26统计数据的误差抽样误差抽样框误差回答误差无回答误差调查员误差非抽样误差数据的误差华南理工大学精品课程27抽样误差(samplingerror)1.由于抽样的随机性所带来的误差2.所有样本可能的结果与总体真值之间的平均性差异3.影响抽样误差大小的因素–样本量的大小–总体的变异性华南理工大学精品课程28非抽样误差(non-samplingerror)1.相对于抽样误差而言2.除抽样误差之外的,由于其他原因造成的样本观察结果与总体真值之间的差异3.存在于所有的调查之中–概率抽样,非概率抽样,全面性调查4.有抽样框误差、回答误差、无回答误差、调查员误差、测量误差华南理工大学精品课程29误差的控制1.抽样误差可计算和控制2.非抽样误差的控制◇调查员的挑选◇调查员的培训◇督导员的调查专业水平◇调查过程控制◆调查结果进行检验、评估◆现场调查人员进行奖惩的制度华南理工大学精品课程30本节提问简要说明抽样误差和非抽样误差?Q1Q2非抽样误差的控制有哪些途径?华南理工大学精品课程第四节统计数据的整理一、统计数据的分组二、次数分配三、次数分配直方图四、洛伦茨曲线华南理工大学精品课程32统计数据的分组统计分组是统计整理的第一步,它是按照统计研究的目的,将数据分别分入不同的组内。在本章第一节中,我们将数据分成四种计量尺度,即列名尺度、顺序尺度、间隔尺度和比例尺度。其中列名尺度和顺序尺度的数据是按照事物的性质和属性划分的,因而又称为按品质标志分组;间隔尺度和比例尺度是按照事物的数量标准划分的,又称为数量标志分组。华南理工大学精品课程33组距分组(要点)1.将变量值的一个区间作为一组2.适合于连续变量3.适合于变量值较多的情况4.需要遵循“不重不漏”的原则5.可采用等距分组,也可采用不等距分组华南理工大学精品课程34组距分组(步骤)1.确定组数:组数的确定应以能够显示数据的分布特征和规律为目的2.确定组距:组距(classwidth)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即组距=(最大值-最小值)÷组数3.统计出各组的频数并整理成频数分布表华南理工大学精品课程35组距分组(几个概念)1.下限(lowlimit):一个组的最小值2.上限(upperlimit):一个组的最大值3.组距(classwidth):上限与下限之差4.组中值(classmidpoint):下限与上限之间的中点值下限值+上限值2组中值=华南理工大学精品课程36案例分析次数分配表的编制【例】某车间30名工人每周加工某种零件件数如右表试对数据进行分组。工人编号周加工零件数工人编号周加工零件数工人编号周加工零件数12345678910106841109110991111107121105111213141516171819209994119881189720310695106212223242526272829308510610110596105107128111101表2-3某车间30名工人周加工零件数(单位:件)华南理工大学精品课程37案例分析次数分配表表2-4某车间30名工人周加工零件数的频数分布按周加工零件数分组次数80~9090~100100~110110~120120~130371352合计30华南理工大学精品课程38使用Excel频数函数(FREQUENCY)□Excel的“直方图”工具的缺陷是:频数分布和直方图没有与数据联系起来,这样,如果你改变任何一个数据,频数分布表和直方图不会跟着改变□使用Excel中的统计函数“FREQUENCY”来创建频数分布表和直方图,可解决这一问题。华南理工大学精品课程39使用Excel频数函数(FREQUENCY)创建频数分布表的步骤是:▼选择与接受区域相临近的单元格区域,作为频数分布表输出的区域▼选择统计函数中的“FREQUENCY”函数在对话框Date-array后输入数据区域,在Bins-array后输入接受区域▼同时按下ctrl-shift-Enter组合键,即得到频数分布统计函数—FREQUENCY华南理工大学精品课程40分组数据的图示(直方图的绘制)809010011012013004812我一眼就看出来了,周加工零件在100~110之间的人数最多!图2-1某车间工人周加工零件直方图华南理工大学精品课程41分组数据的图示(折线图的绘制)809010011012013004812折线图与直方图下的面积相等!图2-2某车间工人周加工零件折线图华南理工大学精品课程42次数分配的类型对称分布右偏分布左偏分布正J型分布反J型分布U型分布图2-3几种常见的频数分布华南理工大学精品课程43洛伦茨曲线1.20世纪初美国经济学家、统计学家洛伦茨(M.E.Lorentz)根据意大利经济学家巴雷特(V.Pareto)提出的收入分配公式绘制而成2.描述收入和财富分配性质的曲线分析该国家或地区分配的平均程度AB累积的人口百分比绝对公平线累积的收入百分比华南理工大学精品课程44基尼系数1.20世纪初意大利经济学家基尼(G.Gini)根据洛伦茨曲线给出了衡收入分配平均程度的指标2.A表示实际收入曲线与绝对平均线之间的面积3.B表示实际收入曲线与绝对不平均线之间的面积4.如果A=0,则基尼系数=0,表示收入绝对平均=AAB基尼系数华南理工大学精品课程45基尼系数5.如果B=0,则基尼系数=1,表示收入绝对不平均6.基尼系数在0和1之间取值7.一般认为:基尼系数

1 / 126
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功