第二章统计数据的收集、整理与展示•统计资料的收集•统计数据的整理•统计表与统计图•品质数据的图形展示•数量数据的图形展示§2.1统计数据的收集•统计数据的来源•统计资料的收集方法•统计资料收集的技术工具•统计调查的组织方式•统计调查方案设计2-3•(1)直接来源•直接的调查和科学试验,称为第一手资料和原始资料(rawdata)•①专门组织的调查•②科学试验•(2)间接来源•他人调查或试验的数据,称为第二手资料和次级资料(secondarydata)•公开出版和公开报道的数据•引用时一定要注明数据的来源一、统计数据的来源2-4•(1)原始资料•①直接观察法•②报告法•③登记法•④访问法•⑤实验法•(2)次级资料•①直接引用法•②参考文献查找法•③检索工具查找法二、统计资料的收集方法2-5•(1)调查表•根据统计调查目的所确定的调查项目按照一定的顺序排列而成的表格形式。•调查表一般是由表头、表体和表外附加三部分组成的。•(2)问卷•调查者根据调查的目的和要求,预先设计的有详细问题及备选答案的调查测试和记录清单。•问卷一般由标题、引言和注释、问题和答案、统计编码、被调查者的基本情况和结束语等部分组成。三、统计资料收集的技术工具2-6•(1)统计报表(statisticalreportforms)•(2)专门调查•①普查(census)•②重点调查(keypointsurvey)•③典型调查(modelsurvey)•④抽样调查(samplingsurvey)•⑤网上调查(internetsurvey)四、统计调查的组织方式2-7•(1)确定调查的目的和内容•(2)确定调查对象、调查单位•和填报单位•(3)确定调查项目,拟定调查表和问卷•(4)确定调查的方式和方法•(5)确定调查的时间和期限•(6)制定调查的组织实施计划五、统计调查的方案设计§2.2统计数据的整理•统计数据的审核•统计分组•频数分布•累积频数分布2-9•数据审核,保证统计数据的质量。•从不同渠道取得的统计数据,在审核内容和方法上都有所不同。一、统计数据的审核2-10简单分组分组体系平行分组体系复合分组体系品质标志分组数量标志分组分组标志的多少分组标志的性质单变量值分组变量值组距分组统计分组:现象的内在特点和统计研究的要求,将搜集到的数据资料按照一定的标志划分为若干组的一种统计方法。组内的“同质性”组间的“差异性”二、统计分组(StatisticalClassification)2-11数量标志统计分组(1)单变量值分组一个变量值作为一组,形成单项式变量数列。一般适用于离散型变量,且变量变动范围不大的场合。(2)变量值组距分组(等距和不等距)将变量依次划分为几个区段,把一个区段内的所有变量值归为一组,形成组距式变量数列。一般适用于连续型变量,或变量变动范围较大的离散型变量。2-12变量值组距分组①考察数据集,确定最大值和最小值;②确定分组数;③计算组距;④决定分组界限。样本个数n分组数k<505~750~1006~10100~2507~12>10010~20nlog.k331分组的目的是找出数据分布的规律性。2-13•频数分布:在统计分组的基础上,将总体(或样本)中每个单位按组进行归类排列,形成总体(或样本)各个单位在各组间的分布。三、频数分布(FrequencyDistribution)2-14(1)频数分布(品质变量分布数列)•例:某公司开发了一种新型香水,为了测试目标消费群对该香水的接受程度,设计了5种香型的香水,随机选取200名消费者进行测试,其中的一个问题是“五种香水中你最喜欢哪一种?•(1)A;(2)B;(3)C;(4)D;(5)E香水类型青年中年老年总人数比例A64402012462.0%B92584221.0%C23163.0%D482147.0%E851147.0%合计878132200100.0%消费者对不同香型香水偏好的频数分布表2-15(2)频数分布(单项式变量分布数列)例:某企业生产某种型号的三极管,以100个为一批进行质量检验,记录每批产品中的不合格品数,其可能的取值为0,1,2,…,100,共检查了500批。批不合格品数柱形图批不合格品数分布表不合格数频数(批数)频率07114.2%113927.8%213026.0%39018.0%4459.0%5183.6%661.2%700.0%810.2%合计500100.0%71139130904518601020406080100120140160012345678不合格品数批数2-16(3)频数分布(组距式变量分布数列)50只灯泡的耐用时数数据如下:(单位:小时)1120798322610322325361050max,minRmaxmink~Rh~k~h8869289999469508641050927949852102792897881610009181040854110090086690595489010069269009998861120893900800938864919853981916818946926895967920978821924798850组号组限区间组中值频数频率(1)(2)(3)(4)(5)1[750,800)77512.0%2[800,850)82548.0%3[850,900)8751224.0%4[900,950)9251836.0%5[950,1000)975816.0%6[1000,1050)102548.0%7[1050,1100)107512.0%8[1100,1150]112524.0%合计——50100.0%2-17•(1)品质变量累积频数(频率)分布回答类别人数(人)比率向上累积比率向下累积比率(1)(2)(3)(4)(5)非常不信任217.00%7.00%100.00%不信任6421.33%28.33%93.00%一般7826.00%54.33%71.67%信任9933.00%87.33%45.67%非常信任3812.67%100.00%12.67%合计300100.00%——某品牌洗发水信任度调查结果统计表顺序数据四、累积频数分(CumulativeFrequencyDistribution)2-18组号组限区间频数向上累积频数向下累积频数频率向上累积频率向下累积频率(1)(2)(3)(4)(5)(6)(7)(8)1[750,800)11502.0%2.00%100.00%2[800,850)45498.0%10.00%98.00%3[850,900)12174524.0%34.00%90.00%4[900,950)18353336.0%70.00%66.00%5[950,1000)8431516.0%86.00%30.00%6[1000,1050)44778.0%94.40%14.00%7[1050,1100)14832.0%98.40%6.00%8[1100,1150]25024.0%100.00%4.00%50——100.0%——合计(2)数量变量累积频数(频率)分布§2.3统计表与统计图•统计表•统计图2-20横行标题纵行标题表2-82004~2005年我国税收收入基本情况表(单位:亿元)表头数字资料主词栏宾词栏本表按当年价格计算资料来源:《2006年中国统计年鉴》.中国统计出版社,2006附注117.812581.5110682.58合计99.9172.22172.41集体企业所得税129.5827.41639.00国有企业所得税109.9465.31423.50农业税133.5750.48526.23关税116.710366.098885.44工商税增长速度(%)2005年2004年税收按税种分组117.812581.5110682.58合计99.9172.22172.41集体企业所得税129.5827.41639.00国有企业所得税109.9465.31423.50农业税133.5750.48526.23关税116.710366.098885.44工商税增长速度(%)2005年2004年税收按税种分组一、统计表(StatisticalTable)2-21•⒈几何图•⒉象形图•⒊统计地图二、统计图(StatisticalChart)§2.4品质数据的图形展示•条形图•饼图•累积频数(频率)分布图2-231244261414020406080100120140ABCDE香水类型人数(人)010203040506070ABCDE香水类型人数(人)老年中年青年复式条形图单式条形图香水类型青年中年老年人数比例A64402012462.0%B92584221.0%C23163.0%D482147.0%E851147.0%合计878132200100.0%一、条形图(BarGraph)2-2462%21%3%7%7%ABCDE消费者对不同香型香水偏好分布饼图二、饼图(PieChart)2-257.00%28.33%54.33%87.33%100.00%0%20%40%60%80%100%120%非常不信任不信任一般信任非常信任信任度分类值累积比率100.00%93.00%71.67%45.67%12.67%0%20%40%60%80%100%120%非常不信任不信任一般信任非常信任信任度分类值累积比率向上累积分布图向下累积分布图消费者对某品牌洗发水信任度评价累积分布图绘制折线图—分类数据三、累积频数(频率)分布图§2.5数量数据的图形展示•直方图•折线图•累积折线图•茎叶图•频数(频率)分布曲线2-27直方图的解释:落在某一特定区间内的观察值总数在全部观察值中所占的百分比,与绘制在此区间上的矩形的面积成比例。2.0%8.0%24.0%36.0%16.0%8.0%2.0%4.0%0%5%10%15%20%25%30%35%40%750-800800-850850-900900-950950-10001000-10501050-11001100-1150耐用时数组限(小时)比率组号组限区间组中值频数频率(1)(2)(3)(4)(5)1750-80077512.0%2800-85082548.0%3850-9008751224.0%4900-9509251836.0%5950-1000975816.0%61000-1050102548.0%71050-1100107512.0%81100-1150112524.0%合计——50100.0%一、直方图(Histogram)2-28折线图:在直方图的基础上,用线段顺次连接各直方形顶边的中点,并延伸到直方图左右两侧的位于横轴上的假想组中点,使线段与横轴相交所形成的图形。0481216207257758258759259751025107511251175耐用时数组中值(小时)频数50个灯泡的耐用时数频数直方图与折线图二、折线图(Polygon)2-29向上累积频率分布折线图坐标点组限(x)向上累积频率(y)17970.0%28002.0%385010.0%490034.0%595070.0%6100086.0%7105094.4%8110098.4%91120100.0%10.0%34.0%70.0%86.0%0.0%2.0%94.4%98.4%100.0%0%20%40%60%80%100%120%7508008509009501000105011001150耐用时数(小时)累积频率绘制散点图—数量数据三、累积折线图2-30向下累积频率分布折线图坐标点组限(x)向下累积频率(y)1798100.0%280098.0%385090.0%490066.0%595030.0%6100014.0%710506.0%811004.0%911210.0%90.0%66.0%30.0%14.0%6.0%0.0%98.0%100.0%4.0%0%20%40%60%80%100%120%7508008509009501000105011001150耐用