1第二章数据描述【大纲要求】一、用图表展示定性数据1.生成频数分布表2.定性数据的图形表示二、用图表展示定量数据1.生成频数分布表2.定量数据的图形表示三、用统计表来表示数据四、用数字来概括数据1.定性数据的数字特征2.定量数据的数字特征第一节用图表展示定性数据定性数据包括分类数据和顺序数据,它们的图表展示方法基本相同。通常可以用频数分布表和图形来描述。一、生成频数分布表定性数据本身就是对事物的一种分类,因此,只要先把所有的类别都列出来,然后统计出每一类别的频数,就是一张频数分布表。频数:频数分布表中落在某一特定类别的数据个数。通过频数分布可以观察不同类型数据的分布情况。【例题2.1】频数分布表中落在某一特定类别的数据个数称为()。A.频率B.频数C.众数D.中位数【答案】B二、定性数据的图形表示1.饼图饼图又称圆饼图、圆形图等,它是利用圆形及圆内扇形面积来表示数值大小的图形。饼图主要用于总体中各组成部分所占比重的研究。【例题2.2】饼图的主要用途是()。A.用于总体中各组成部分所占比重的研究B.比较多个总体的构成C.反映一组数据的分布D.比较多个样本的相似性【答案】A【例题2.3】某公司共有员工160人,其构成的饼图如图2-1所示,则中级管理人员数为()人。图2-1公司结构构成图A.8B.16C.28D.108【答案】B【解析】职工总数为160人,中级管理人员占10%,其人数为160×10%=16(人)。22.条形图(如图2-2所示)条形图是用宽度相同的条形的高度或长度来表述数据多少的图形,用于观察不同类别数据的多少或分布情况。绘制时,各类别可以放在纵轴,也可以放在横轴。图2-2条形图图2-3环形图3.环形图(如图2-3所示)饼图只能显示一个变量(如年龄变量)各部分所占的比重。如果要比较不同变量之间的结构差异,就可以通过画环形图来实现。【例题2.4】下列各项中,适合于比较研究不同变量之间的结构差异问题的是()。A.环形图B.饼图C.直方图D.散点图【答案】A第二节用图表展示定量数据一、生成频数分布表生成定量数据的频数分布表时,首先是将数据进行分组,然后再统计出各组别的数据频数即可。1.对数据分组数据分组的组数与数据本身的特点及数据的多少有关。由于分组的目的是观察数据分布特征,因此组数的多少应以能够适当观察数据的分布特征为准。一般的分组个数在5~15之间。【例题2.5】某管理局对其所属的企业的生产计划完成百分比采用如下分组,其中最能反映事物本质差异的分组是()。[2007年中级真题]A.80~89%,90~99%,100~109%,110%以上B.80%以下,80~100%,100%以上C.80%以下,80~90%,90~100%,100%~110%,110%以上D.85%以下,85~95%,95~105%,105%以上【答案】C2.确定组距组距:指每个组变量值中的最大值与最小值之差。若将最大值称为上限,最小值称为下限,则组距等于上限与下限之差,即组距=上限-下限第一组的下限应小于最小值,最后一组的上限应高于最大值。在确定组距时,一般应当掌握以下原则:(1)要考虑各组的划分是否能区分总体内部各个组成部分的性质差别如果不能正确反映各部分质的差异,必须重新分组。例如,按学生百分制成绩分组,必须要有60分的组限,否则不能反映是否及格的本质区别。(2)要能准确地清晰地反映总体单位的分布特征在确定组距时,在研究的现象变动比较均匀的情况下,可以采用等距分组;而当研究的现象变动很02468101214161820优良中及格不及格成绩人数甲班乙班8%15%44%23%10%15%37%23%20%5%优良中及格不及格3不均匀时,则一般采用不等距分组。3.统计出各组的频数及频数分布表在统计各组频数时,恰好等于某一组的组限时,则采取上限不在内的原则,即将该频数计算在与下限相同的组内。【例题2.6】某地区农民家庭年人均纯收入最高为2600元,最低为1000元,据此分为八组形成闭口式等距数列,各组的组距为()。[2006年初级真题]A.300B.200C.1600D.100【答案】B【解析】每组上限、下限之间的距离叫组距,即:组距=上限-下限。某地区农民家庭年人均纯收入最高为2600元,最低为1000元,若分为八组形成闭口式等距数列,则各组的组距=(2600-1000)/8=200。组距=全距/组数【例题2.7】某连续变量分为5组:第一组为40~50,第二组为50~60,第三组为60~70,第四组为70~80,第五组为80以上。依习惯上规定()。[2009年初级真题]A.50在第一组,70在第四组B.60在第二组,80在第五组C.70在第四组,80在第五组D.50在第二组,80在第四组【答案】C【解析】在统计各组频数时,恰好等于某一组的组限时,则采取上限不在内的原则,即将该频数计算在与下限相同的组内。70为第三组的上限,所以应在第四组;80为第四组的上限,所以应在第五组。二、定量数据的图形表示常用来表述定量数据的统计图形有:直方图、折线图和散点图。此外还有茎叶图、箱线图等。1.直方图直方图的横坐标代表变量分组,纵坐标代表各变量值出现的频数,这样,各组与相应的频数就形成了一个矩形,即直方图。2.折线图折线图是利用线段的升降来说明现象变动的一种统计图,它主要用于表示现象的分配情况、现象在时间上的变化和两个现象之间的依存关系等。图2-4高一某班语文成绩分布的折线图3.散点图散点图是用二维坐标展示两个变量之间关系的一种图形,它是用坐标轴代表变量x,纵坐标代表变4量y,每组数据(xi,yi)在坐标系中用一个点表示,n组数据在坐标系中形成的n个点称为散点,由坐标及散点形成的二维数据图称为散点图。【例题2.8】为描述身高与体重之间是否有某种关系,适合采用的图形是()。A.直方图B.条形图C.散点图D.环形图【答案】C【解析】散点图来反映两个变量的关系。题中只有两个变量,即身高和体重,因此可用散点图来描述。【例题2.9】下列各项中,即适用于定性数据,又适用于定量数据的图形表示方法有()。A.饼图B.直方图C.条形图D.环形图E.散点图【答案】ACD【解析】定性数据常用的图示方法有饼图、条形图和环形图。适用于定性数据图示表示方法,也都适用于定量数据。但定量数据还有一些特定的图示方法,它们并不适用于定性数据,如直方图、折线图和散点图。第三节用统计表来表示数据统计表是一种用密集的形式归纳数据的方法。它主要是利用行和列中的数据来表述现象特征。1.利用统计表的目的①在文章中使用它以支持自己的观点;②利用它组织数据。2.统计表的组成部分①表头:应该放在表的上方,它说明的是表的主要内容;②行标题、列标题:一般放在表的第一列和第一行,它表示的是所研究问题类别的名称和指标名称;③数字资料:表的其余部分是具体的数字资料;④表外附加:通常放在统计表的下方,用来说明资料来源、指标注释和必要的说明等内容。通常情况下,统计表的左右两边不能封口。第四节用数字来概括数据统计数据加工整理后,可利用统计图形和统计表来展示它的分布特征。若要找出它的分布规律及本质特征,可以从两方面来考察:①集中趋势:数据向其中心值的靠拢程度;②离散程度:反映各个数据远离中心值的趋势和程度。5一、定性数据的数字特征(同样适用于定量数据)对定性数据的集中趋势常用的方法就是计算比例、百分比、中位数和众数。中位数:是数据按照大小排列之后位于中间的那个数(如果样本量为奇数),或者中间两个数目的平均(如果样本量为偶数)。——不能用于分类数据众数:就是数据中出现次数或出现频率最多的数值。在定性数据中,由于记录的是频数,因此众数用得多些。被调查者的最高学历由上表可以看出:众数是:初、高中文化程度;从累计频率看,处于50%的位数在大专文化程度中,故中位数是大专文化程度。二、定量数据的数字特征反映数据集中趋势的水平度量:平均数、中位数、众数和分位数等反映数据离散程度的差异度量:极差、四分位差、标准差和方差1.水平的度量(1)平均数(也称为均值)是把某一组数据进行算术平均,用以表述某一事物的平均水平。其计算方法有:①简单平均数是把一个变量的所有观测值相加再除以观测值的数目。其计算公式为:②加权平均数如果原始数据为分组数据,则采用加权平均数公式计算,其中的权数f为各组的频数。其计算公式为:【例题2.10】加权算术平均数的大小()。[2007年初级真题]A.主要受各组标志值大小的影响,而与各组次数的多少无关B.主要受各组次数多少的影响,而与各组标志值的大小无关C.既受各组标志值大小的影响,又受各组次数多少的影响D.既与各组标志值大小无关,又与各组次数多少无关【答案】C【解析】加权算术平均数计算公式为:最高学历频数频率累计频率小学及以下452.82.8初、高中51832.2335.03大专44827.8862.91大本50731.5594.46硕士754.6799.13博士140.87100总计1607100—1niixxn11niiiniixfxfxffxxff6决定加权算术平均数大小的因素有两个:其一是各组标志值的大小;其二是权数的影响。权数对算术平均数的影响,不决定于权数本身数值的大小,而是取决于作为权数的各组次数占总体次数的比重的大小。各组次数占总体次数的比重是计算加权算术平均数的实质权数。【例题2.11】某工厂新工人月工资400元,工人人数500人;老工人月工资800元,工人人数100人,则该工厂工人平均工资为()。[2008年初级真题]A.600元B.533.33元C.466.67元D.500元【答案】C【解析】根据分组资料,应采用加权平均数计算平均数。由题得,该工厂工人平均工资为:(2)中位数中位数:它是数据按照大小排列之后位于中间的那个数(如果样本量为奇数),或者中间两个数目的平均(如果样本量为偶数)。(3)众数众数:就是数据中出现次数或出现频率最多的数值。(4)用哪个值代表一组数据平均数的主要缺点是更容易受少数极端数值的影响,对于严重偏态分布的数据,平均数的代表性较差。中位数和众数的优点是不受极端值的影响,具有统计上的稳健性,当数据为偏态分布,特别是偏斜程度较大时,可以考虑选择中位数和众数,这时它们的代表性要比平均数好。【例题2.12】在各种平均指标中,不受极端值影响的平均指标有()。[2009年中级真题]A.算数平均数B.调和平均数C.中位数D.几何平均数E.众数【答案】CE【例题2.13】在某城市中随机抽取8个家庭.调查得到每个家庭的人均月收入数据如下(单位:元):20801750208020801850196022502630则中位数和众数分别为()。A.4.5;4B.2080;2080C.1960;2080D.2080;2250【答案】B【解析】将这8个数据从小到大排序得:1750、1850、1960、2080、2080、2080、2250、2630。则中位数为:(2080+2080)/2=2080(元);由于2080出现的次数最多为3次,因此众数应为2080元。2.差异的度量(1)极差极差又称全距,是最简单的离散指标,它是一组数据中的最大值和最小值之差。计算公式为:R=xmax-xmin优点:计算极差非常简单,含义也很直观。缺点:仅仅受最大值和最小值的影响,不能反映一组数据变量分布的情况,而且它非常容易受极端值的影响。因此,它不能准确地描述数据的分散程度。【例题2.14】在反映各变量值离散趋势的变异指标中,只与变量极端标志值有关的指标是()。[2006年中级真题]A.全距B.平均差C.标准差D.方差400500800100466.67500100(元)xfxf7【答案】A【例题2.15】下列关于数据2,5,5,7,9,5,9的说法,正确的是()。A.平均数为5B.中位数为5C.众数为5D.极差为7E.平均数为6【答案】BCDE【解析】将7个数从小到大排序为:2,5,5,5,7,9,9,可知平均数为:(2+5+5+7+9+5+9)/7=6;中位数为x(n+1)