第二章统计数据的描述描述统计描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法一、数据的计量尺度定类尺度定序尺度定距尺度定比尺度二、数据的类型数据的类型变量及类型第一节数据的计量和类型一、数据的计量尺度1.定类尺度:又称为类别尺度或列名尺度,它是按照事物的某种属性对其进行平行的分类。定类尺度是最粗略、计算层次最低的计量尺度。数据的计量和类型性别种族运动项目定类尺度只能按照事物及其现象的某种属性对其进行平行的分类或分组。例如车牌号、学生的学号、运动员号码、身份证号码、人员性别、企业类别等等。特征:(1)只能区分事物的类别,无法比较类别间大小,定类尺度只具有“=”和“≠”运算,“=”具有传递性。(2)对事物的区分必须符合穷尽和互斥的要求。(3)对定类尺度数据进行分析的统计量主要是频数或者频率,或是众数和进行列联分析。一、数据的计量尺度2.定序尺度:又称为顺序尺度或有序水平,是对事物之间等级差或顺序差别的一种测度。由其构成的量表一般称为顺序量表。数据的计量和类型定序尺度不仅可以将事物分成不同的类别,还可以确定这些类别的优劣或顺序,例如军阶、职称、工资级别、产品质量等级、受教育水平等。>>大学生中学生小学生特征:(1)不仅能区分事物的类型,而且能够比较各类型间的优劣和顺序,不仅可运算“=”、“≠”,而且可以运算“>”或“<”。但不能测量出类别之间的准确差距,不能进行加减乘除的运算。。(2)对事物的区分同样要求穷尽和互斥。(3)对定序尺度数据进行分析的统计量主要是频数和累积频数,或者频率和累积频率。-≠-一、数据的计量尺度3.定距尺度:又称为间隔尺度或间隔水平,是对事物类别或者次序之间间距进行的一种测度,由其构成的量表一般称为间隔量表或间距量表。数据的计量和类型常见的用定距尺度来测度的有考试成绩、各种心理测试的得分、某个地区的温度等。天气预报:南京:最高温度3℃苏州:最高温度6℃特征:(1)不仅能区分事物的类别、进行排序、比较大小,而且还可以精确地计算大小的差异,可以进行加减运算,但不可以进行乘除运算。(2)没有绝对零点,即可以以任何一个0为起点,“0”不表示“没有”或“不存在”。两地最高温度相差3℃南京最高温度较苏州最高温度低3℃苏州最高温度是南京最高温度的2倍一、数据的计量尺度4.定比尺度:又称为比例尺度或是比较水平,是对事物之间比值的一种测度,它是最高层次的测量,可用于参数和非参数统计推断。它是与定距尺度属于同一层次的一种计量尺度,但其功能比定距尺度更强一些。数据的计量和类型在日常生活中,大多数情况下使用的都是定比尺度。例如,年龄、收入、某地区每年的失业人数、罪犯人数等。3000元工资1500元工资甲乙二人工资之差:3000-1500=1500元特征:(1)除了能够区分类别、排序、比较大小、求出大小差异外,还可以计算两个测度值之间的比值,不仅可以进行定距尺度所能够进行的所有运算,而且在此基础上还增加了乘、除的数学运算功能。(2)具有绝对零点,“0”表示“没有”或“不存在”。二人工资之比:3000÷1500=2(倍)四种计量尺度的比较:在统计分析中,一般要求测量的层次越高越好。二、数据的类型1.数据的类型和分析方法统计数据是采用某种计量尺度对数据进行计量的结果,采用不同的计量尺度会得到不同类型的统计数据。根据以上四种计量尺度的结果可以将统计数据分成三种类型:定类数据、定序数据、数值型数据前两者可以统称为定性数据或品质数据;后者成为定量数据或数量数据。数据的计量和类型提问:以男女代号分别为0、1,那么这样的数据到底是什么数据?数据的计量和类型区别的法则是能不能做加减法二、数据的类型2.变量及其类型变量:是说明现象某种特征的概念。变量最基本的特点是在同一总体的不同单位上可取不同的数值,以及同一总体相同单位在不同时间上可取不同的数值,即变量的变异性,或差异性特征。变量的类型:定类变量、定序变量、数值型变量(离散变量、连续变量)数据的计量和类型一、品质数据的描述二、数据的类型品质数据的图示三、品质数据的分布特征描述第二节品质数据的描述一、品质数据的描述1.频数:是落在某一特定类别(或组)中的数据的个数。把各个类别及其相应的频数全部列出来则形成频数分布。频率:把各组的频数与全部频数之和求得的比值,称之为频率。品质数据的描述一、品质数据的描述2.比例:是一个总体(或样本)中各个部分的数据与全部数据之比,通常用于反映总体(或样本)的构成。品质数据的描述一、品质数据的描述3.百分比或百分数:是将比例乘以100%得到的数值。是将对比的技术划为100而计算得到的,它表示每100个分母中拥有多少个分子。品质数据的描述一、品质数据的描述4.比率:是总体中不同类别数值之间的比值。它可以是一个总体(或样本)中个不同部分的数量对比。可以以1作为基数,也可以以100为基数。品质数据的描述一、品质数据的描述5.累计频数:是将各类别的频数逐级累加得到的频数。有向上累积和向下累积两种方式。品质数据的描述品质数据的描述家庭人口频数频率向上累积向下累积频数频率频数频率172.75%72.75%255100%23814.90%4517.65%24897.25%310541.18%15058.83%21082.3545421.18%20480.00%10541.17%53112.16%23592.16%5120%6207.84%255100%207.84%合计255100%—100%—二、品质数据的图示1.条形图:是用宽度相同的条形的高度或长短来表示数据变动的图形,横置的称为带形图,纵置的称为柱形图(直方图)。品质数据的描述020406080100120123456柱形图(直方图)二、品质数据的图示2.饼图:又称圆图,是以圆的整体面积代表被研究现象的总体,按各构成部分占总体比重的大小把面积分割成若干扇形,用以表示现象的部分对总体的比例关系统计图,主要表示结构性问题。品质数据的描述饼图女性47.90%男性52.10%女性47.90%男性52.10%二、品质数据的图示3.折线图:折线图是用直线段将各数据点连接起来而组成的图形,以折线方式显示数据的变化趋势。折线图可以显示随时间(根据常用比例设置)而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势。品质数据的描述折线图品质数据的描述020406080100120123456020406080100120品质数据的描述三、品质数据的分布特征描述1.集中趋势值①众数:该变量出现次数最多的取值,记为Mo。例:对报名参加全国奥林匹克数学竞赛的47名学生的出生省份进行调查,调查结果见下表:出生省份人数辽宁1北京7湖北10江苏8浙江5安徽2上海8广东6合计47②中位数:是一组数据排序后处于中间位置上的变量值,记为Me。Me50%50%中位数n为奇数12nx22(1)2nnxxn为偶数例2.2在某城市中随机抽取9个家庭,调查得到每个家庭的人均月收入数据如下(单位:元)。要求计算人均月收入的中位数。15007507801080850960200012501630解:将上面的数据按从小到大排列,如下:75078085096010801250150016302000③四分位数:是一组数据排序后处于25%和75%位置上的变量值,记为QL和QU。QLQMQU25%25%25%25%下四分位数(QL)位置=N+14上四分位数(QU)位置=3(N+1)4(7个数据的算例)原始数据:23213032282526排序:21232526283032位置:1234567N+1QL=237+1QL位置=4=4=2QU位置=3(N+1)43(7+1)4==6QU=30(6个数据的算例)原始数据:232130282526排序:212325262830位置:123456QL=21+0.75(23-21)=22.5QL位置=N+14=6+14=1.75QU位置=3(N+1)43(6+1)4==5.25QU=28+0.25(30-28)=28.5三、品质数据的分布特征描述2.离散程度测度值①异众比率:非众数组的频数占总频数的比例,计算公式为:1immriifffVff其中,表示第i组的频数,表示众数组的频数ifmf例2.1对报名参加全国奥林匹克数学竞赛的47名学生的出生省份进行调查,调查结果见下表:出生省份人数辽宁1北京7湖北10江苏8浙江5安徽2上海8广东6合计47异众比率为:103714747三、品质数据的分布特征描述2.离散程度测度值②极差,是变量观测值中最大值与最小值只差,计算公式为:③四分位差:也称为内距或四分间距,是上四分位数与下四分位数的差值计算公式为:max()min()iiRxxdULQQQ一、数值数据的分组二、数值数据的图示三、数值数据的分布特征第三节数值数据的描述一、数值数据的分组数值数据的描述为什么要进行数据的分组?品质数据的描述107108108110112112113114115117117117118118118119120120121122122122122123123123123124124124125125126126126127127128128129130131133133134134135139139139某电脑公司50名销售代表某季度电脑销售量按从小到大排序如下表:数据过多,掩盖数据特征,进行单变量分组得到下表:50名销售代表的某季度电脑销售量分组表销售量频数销售量频数销售量频数107111911282108212021291110112111301112212241311113112341332114112431342115112521351117312621371118312731392在数据较多的情况下,单变量分组会使数据较多,仍旧不利于观察数据的特征和规律。因此我们采用组距分组一、数值数据的分组组距分组:是将全部变量依次划分为若干小区间,并将这一区间的变量值作为一组的分组方法。在组距分组中,一个组的最小值成为下限,最大值成为上限数值数据的描述数值数据的描述按电脑销售量分组(个)频数(人)频率(%)105~11036110~115510115~120816120~1251428125~1301020130~135612135~14048合计5010050名销售代表的某季度电脑销售量分组表一、数值数据的分组组距分组的步骤:第一步:确定组数组数不宜太多也不宜太少,一般5≤K≤15Sturges提出的经验公式确定组数:如:K=1+lg50/lg2=7数值数据的描述lg1lg2nK一、数值数据的分组第二步:确定各组的组距组距:是一个组的上限和下限差,可根据全部数据的最大值和最小值确定。组距=(最大值-最小值)÷组数如:(139-107)÷7=4.6因此组距可以取到5数值数据的描述一、数值数据的分组第三步:根据分组整理成频数分布表数值数据的描述按电脑销售量分组(个)频数(人)频率(%)105~11036110~115510115~120816120~1251428125~1301020130~135612135~14048合计5010050名销售代表的某季度电脑销售量分组表①全距与组距②等距与异距③组限与组中值④开口组与闭口组⑤连续组距分组和不连续组距分组重叠组限“上限不在内”原则关于组距式分组的几个问题例:学生按成绩分组(分)(1)50—6060—7070—8080—9090—100(2)60以下60—6970—7980—8990以上组距=80-70=10上限:80下限:70开口组闭口组组中值组中值75270805.552960组中值5.942990重叠组限值70归于70—80组不连续组距式分组连续组距式分组50—6060—8080—9090—100异距分组最典型的例子:对人口年龄分组0~6岁婴幼儿组7~17岁少年儿童组18~59岁中青年组60岁