第三讲数据审核

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

3.1.1数据审核数据审核—原始数据(rawdata)1.完整性审核应调查的单位或个体是否有遗漏所有的调查项目或变量是否填写齐全2.准确性审核数据是否真实反映实际情况,内容是否符合实际数据是否有错误,计算是否正确等数据的审核—二手数据(secondhanddata)1.适用性审核弄清楚数据的来源、数据的口径以及有关的背景材料确定数据是否符合自己分析研究的需要2.时效性审核尽可能使用最新的数据3.确认是否有必要做进一步的加工整理3.1.2数据筛选与排序数据筛选(datafilter)1.当数据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,需要对数据进行筛选2.数据筛选的内容1.将某些不符合要求的数据或有明显错误的数据予以剔除2.将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔除数据排序(datarank)1.按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索2.排序有助于对数据检查纠错,以及为重新归类或分组等提供依据3.在某些场合,排序本身就是分析的目的之一4.排序可借助于计算机完成数据排序(方法)1.分类数据的排序字母型数据,排序有升序降序之分,但习惯上用升序汉字型数据,可按汉字的首位拼音字母排列,也可按笔画排序,其中也有笔画多少的升序降序之分2.数值型数据的排序递增排序:设一组数据为x1,x2,…,xn,递增排序后可表示为:x(1)x(2)…x(n)递减排序:可表示为:x(1)x(2)…x(n)3.1.3数据透视表数据透视表(pivottable)1.可以从复杂的数据中提取有用的信息2.可以对数据表的重要信息按使用者的习惯或分析要求进行汇总和作图3.形成一个符合需要的交叉表(列联表)4.在利用数据透视表时,数据源表中的首行必须有列标题数据透视表(用Excel创建数据透视表)第1步:在Excel工作表中建立数据清单第2步:选中数据清单中的任意单元格,并选择【数据】菜单中的【数据透视表和数据透视图】第3步:确定数据源区域第4步:在【向导—3步骤之3】中选择数据透视表的输出位置。然后选择【布局】第5步:在【向导—布局】对话框中,依次将”分类变量“拖至左边的“行”区域,上边的“列”区域,将需要汇总的“变量”拖至“数据区域”第6步:然后单击【确定】,自动返回【向导—3步骤之3】对话框。然后单击【完成】,即可输出数据透视表3.2统计频数分布1、编制频数分布的意义通过编制统计频数分布,可以使统计资料得到大幅度的压缩,使数据资料中蕴涵的统计信息能够得到集中的显现,有助于我们研究和分析统计总体的内部构成,可以为统计计算分析准备合适的资料形式。2、频数分布的含义在统计分组的基础上形成的总体单位在各个组间的分配。3、频数分布的种类频数分布有许多种类,主要包括:品质分布与数量分布、单值分布与组距分布、重叠分布与不重叠分布、等距分布与异距分布、开口分布与闭口分布等。具体情况参看教科书。要求:请仔细归纳各种分布适用的条件。4、频数分布的编制问题第一步,对资料进行排序,找到其中的最大值和最小值。第二步,计算极差。计算公式为:极差=最大值-最小值第三步,确定分组的组数。第四步,确定每一组的组限。第五步,确定每一组中观察值出现的频数。第六步,制作频数分布表。5、频数分布中的几个概念频数分布中涉及到的概念主要有:频数与频率、累积频数与累积频率。问题:(1)编制统计频数分布重点需要注意哪些事项。(2)累积频数与累积频率的含义及其应用。6.频数分布的类型常见的频数分布的类型有:1、正态分布曲线要点:含义、特点、适应的描述对象。2、偏态分布曲线要点:含义、特点、适应的描述对象。3、J型分布曲线要点:含义、特点、适应的描述对象。4、U型分布曲线要点:含义、特点、适应的描述对象。7.统计资料的图形表示(1)直方图、折线图与曲线图学习的内容:含义、制作方法、注意事项。(2)累积折线图与累计曲线图学习的内容:含义、制作方法、注意事项。(2)计算机在绘制统计资料图形中的应用思考题:a如何在EXCEL中绘制复合型直方图、复合型折线图、累积频数与累积频率图。b比较各种图示方法的优势和不足的地方。8.探索性数据分析(1)探索性数据分析产生的原因探索性数据分析的重要目的之一在于,既要使统计资料得到一定程度的精简和压缩,同时又要最大限度地保留原始资料中的有用信息。(2)茎叶图学习要点:基本茎叶图、扩展与压缩茎叶图、混合茎叶图的制作方法。3.3品质数据的整理与展示3.3.1分类数据的整理与图示3.3.2顺序数据的整理与图示数据的整理与显示(基本问题)1.要弄清所面对的数据类型不同类型的数据,采取不同的处理方式和方法2.对分类数据和顺序数据主要是作分类整理3.对数值型数据则主要是作分组整理4.适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据分类数据的整理(基本过程)1.列出各类别2.计算各类别的频数3.制作频数分布表4.用图形显示数据分类数据的整理(可计算的统计量)1.频数(frequency):落在各类别中的数据个数2.比例(proportion):某一类别数据个数占全部数据个数的比值3.百分比(percentage):将对比的基数作为100而计算的比值4.比率(ratio):不同类别数值个数的比值分类数据的图示—条形图(barChart)1.用宽度相同的条形的高度或长短来表示各类别数据的图形2.有单式条形图、复式条形图等形式3.主要用于反映分类数据的频数分布4.绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图(columnchart)分类数据的图示—对比条形图(side-by-sidebarchart)1.分类变量在不同时间或不同空间上有多个取值2.对比分类变量的取值在不同时间或不同空间上的差异或变化趋势分类数据的图示—帕累托图(paretochart)1.按各类别数据出现的频数多少排序后绘制的柱形图2.主要用于展示分类数据的分布分类数据的图示—饼图(pieChart)1.也称圆形图,是用圆形及圆内扇形的角度来表示数值大小的图形2.主要用于表示样本或总体中各组成部分所占的比例,用于研究结构性问题3.绘制圆形图时,样本或总体中各部分所占的百分比用圆内的各个扇形角度表示,这些扇形的中心角度,按各部分数据百分比乘以3600确定3.3.2顺序数据的整理与图示顺序数据的整理(可计算的统计量)1.累积频数(cumulativefrequencies):各类别频数的逐级累加2.累积频率(cumulativepercentages):各类别频率(百分比)的逐级累加环形图(doughnutchart)1.环形图中间有一个“空洞”,样本或总体中的每一部分数据用环中的一段表示2.与饼图类似,但又有区别饼图只能显示一个总体各部分所占的比例环形图则可以同时绘制多个样本或总体的数据系列,每一个样本或总体的数据系列为一个环3.用于结构比较研究4.用于展示分类和顺序数据3.4数值型数据的整理与展示3.4.1数据分组3.4.2数值型数据的图示3.4.1数据分组组距分组(要点)1.将变量值的一个区间作为一组2.适合于连续变量3.适合于变量值较多的情况4.需要遵循“不重不漏”的原则5.可采用等距分组,也可采用不等距分组组距分组(步骤)1.确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,组数一般为5K152.确定组距:组距(ClassWidth)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即3.组距=(最大值-最小值)÷组数4.统计出各组的频数并整理成频数分布表组距分组(几个概念)1.下限(lowerlimit):一个组的最小值2.上限(upperlimit):一个组的最大值3.组距(classwidth):上限与下限之差4.组中值(classmidpoint):下限与上限之间的中点值组中值=(下限值+上限值)/2数值型数据的图示分组数据—直方图和折线图分组数据—直方图(histogram)1.用于展示分组数据分布的一种图形2.用矩形的宽度和高度来表示频数分布本质上是用矩形的面积来表示频数分布3.在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图分组数据—直方图(直方图与条形图的区别)1.条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的2.直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义3.直方图的各矩形通常是连续排列,条形图则是分开排列4.条形图主要用于展示分类数据,直方图则主要用于展示数值型数据未分组数据—茎叶图和箱线图未分组数据—茎叶图(stem-and-leafdisplay)1.用于显示未分组的原始数据的分布2.由“茎”和“叶”两部分构成,其图形是由数字组成的3.以该组数据的高位数值作树茎,低位数字作树叶4.树叶上只保留最后一位数字5.茎叶图类似于横置的直方图,但又有区别直方图可观察一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息直方图适用于大批量数据,茎叶图适用于小批量数据未分组数据—箱线图(boxplot)1.用于显示未分组的原始数据的分布2.由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成3.绘制方法首先找出一组数据的5个特征值,即最大值、最小值、中位数Me和两个四分位数(下四分位数QL和上四分位数QU)连接两个四分位数画出箱子,再将两个极值点与箱子相连接该箱线图也称为Median/Quart./Range箱线图未分组数据—单批数据箱线图(箱线图的构成)时间序列数据—线图时间序列数据—线图(lineplot)1.表示时间序列数据趋势的图形2.时间一般绘在横轴,数据绘在纵轴3.图形的长宽比例大致为10:73.一般情况下,纵轴数据下端应从“0”开始,以便于比较。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断多变量数据的图示两个变量间的关系—二维散点图(2DScatterplots)1.展示两个变量之间的关系2.用横轴代表变量x,纵轴代表变量y,每组数据(xi,yi)在坐标系中用一个点表示,n组数据在坐标系中形成的n个点称为散点,由坐标及其散点形成的二维数据图三个变量间的关系—气泡图(bubblechart)1.显示三个变量之间的关系2.图中数据点的大小依赖于第三个变量多变量数据—雷达图(radarchart)1.也称为蜘蛛图(spiderchart)2.显示多个变量的图示方法3.在显示或对比各变量的数值总和时十分有用3.假定各变量的取值具有相同的正负号,总的绝对值与图形所围成的区域成正比4.可用于研究多个样本之间的相似程度多变量数据—雷达图(雷达图的制作)设有n组样本S1,S2,…,Sn,每个样本测得P个变量X1,X2,…,XP,要绘制这P个变量的雷达图,其具体做法是:1.先做一个圆,然后将圆P等分,得到P个点,令这P个点分别对应P个变量,在将这P个点与圆心连线,得到P个幅射状的半径,这P个半径分别作为P个变量的坐标轴,每个变量值的大小由半径上的点到圆心的距离表示2.将同一样本的值在P个坐标上的点连线。这样,n个样本形成的n个多边形就是一个雷达图3.5合理使用图表鉴别图表优劣的准则1.一张好的图表应包括以下基本特征显示数据让读者把注意力集中在图表的内容上,而不是制作图表的程序上避免歪曲强调数据之间的比较服务于一个明确的目的有对图表的统计描述和文字说明2.5种鉴别图表优劣的准则:一张好的图表应当精心设计、有助于洞察问题的实质使复杂的观点得到简明、确切、高效的阐述能在最短的时间内以最少的笔墨给读者提供最大量的信息是多维的表述数据的真实情况统计表的设计1.合理安排统计表的结构2.总标题内容应满足3W要求3.数据计量单位相同时,可放在表的右上角标明,不同时应放

1 / 7
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功