第二章统计数据的搜集与整理★第一节数据的计量与类型第二节统计数据的搜集第三节统计数据的整理第一节统计测量尺度一、数据的计量与类型二、统计数据计量尺度的作用三、计量层次与计量尺度的正确应用★计量:用仪器确定空间、时间、温度、速度、功能等的有关数值。统计计量:运用某种方法使自然或社会经济现象量化。计量结果:形成变量或指标分类、标识自然或社会经济现象变量或指标某个人口总体人口总数及分类数、性别结构、比例等按性别不同分类男性女性按收入不同分类1000元以下1000元~2000元……居民总收入、人均收入、收入差异等分类、标识即统计测量过程按数量不同分类按性质不同分类统计计量尺度的种类定比尺度定类尺度定序尺度定距尺度定类尺度按现象性质差异进行的辨别与区分。测量结果形成定类变量或定类指标。定类变量或指标确切的值是以文字表述的,可以用数值标识,但仅起标签作用。定类变量或指标的各类别间是平等的,没有高低、大小、优劣之分。性别、种族、运动项目等等例如:定序尺度按现象顺序差异进行的辨别与区分。测量结果形成定序变量或定序指标。定序变量或指标确切的值是以文字表述的,也可以用数值标识,也仅起标签作用。定序变量或指标各类别间有高低优劣之分,不能随意排列。定距尺度按现象绝对数量差异进行的辨别与区分。测量结果形成定距变量或定距指标。定距变量或指标的值以数字表述,有计量单位,可以进行加减运算。定距变量或指标各类别间自然有大小之分,但没有绝对的零点,不能乘除计算。天气预报:福州:最高温度39℃,最低33℃厦门:最高温度36℃,最低30℃两地最高温度相差3℃厦门最高温度较福州最高温度低3℃福州最低温度是厦门最低温度的1.1倍温度1975年出生30岁1990年出生15岁甲乙二人年龄之差:1990-1975=15岁或30-15=15岁二人年龄之比:30÷15=2(倍)1990÷1975=1.0076(倍)定比尺度按现象绝对差异与相对差异进行的辨别与区分。测量结果形成定比变量或定比指标。定比变量或指标确切的值也以数字表述,有计量单位,可以进行加减运算。定比变量或指标有绝对意义上的零点,既可以加减运算,也可以乘除运算。零高度零重量零体积零面积零人口零产量零资产真正的零:一无所有第一节统计测量尺度一、数据的计量与类型二、统计数据计量尺度的作用三、计量层次与计量尺度的正确应用★★第一,决定数据的整理、显示方法第二,决定数据的分析方法第三,决定计算机的处理方法统计计量尺度的作用:定类变量定序变量品质变量条形图圆形图0102030405060708090定距变量定比变量茎叶图直方图频数表条形图出生1.4.4.472.72.73.12610.210.213.311946.546.559.87930.930.990.6218.28.298.831.21.2100.0256100.0100.01975197619771978197919801981TotalValidFrequencyPercentValidPercentCumulativePercent出生1981.01980.01979.01978.01977.01976.01975.0140120100806040200圆形图在自然或社会经济领域里,单纯的定距变量是很少的,绝大多数定距变量同时也是定比变量。定距计量与定比计量的区别只在理论上有意义,在实际工作中常将二者归为一类。注意:第二章统计数据的搜集与整理★第一节数据的计量与类型第二节统计数据的搜集第三节统计数据的整理★第二节统计数据的搜集一、统计调查概述二、统计调查方案三、问卷设计★指直接从各调查单位搜集的用来反映个体特征的数据资料统计调查是整个统计认识活动的基础,决定着统计认识过程及其结果的成败搜集原始数据资料的统计活动过程统计调查要求:准确、及时、全面、系统按调查单位的范围大小分为全面调查非全面调查一次性调查经常性调查统计报表专门调查统计调查的种类按调查时间是否连续分为按调查的组织方式不同分为普查抽样调查典型调查重点调查指国家为详尽了解某项重要的国情国力而专门组织的一次性全面调查作用局限可以为抽样调查提供抽样框可以搜集统计报表所不能提供的反映重大国情国力的基本统计信息由于需要大量的人力、物力和财力,不宜经常进行普查统计调查的组织方式按照随机原则从调查对象中抽取一部分样本单位进行调查,再用样本资料推断把握总体的数量特征的一种非全面调查组织方式抽样调查指样本单位的抽取不受主观因素及其他系统性因素的影响,每个总体单位都有均等的被抽中机会特点优点按随机原则抽取样本单位目的是推断总体的数量特征抽样误差可以事先计算并控制能用较少的人力、物力和时间达到全面调查的目的调查资料的准确性较高、受人为干扰的可能性较小统计调查的组织方式总体单位调查单位统计调查的组织方式总体单位调查单位普查统计调查的组织方式对全部单位进行调查总体单位调查单位抽样调查按随机原则选择调查单位,各单位被选中的机会相同。统计调查的组织方式第二节原始数据的搜集方法一、统计调查概述二、统计调查方案三、问卷设计★★统计调查方案用来指导整个调查工作的纲领性文件,是统计设计在统计调查阶段的具体化基本内容:⒈调查目的;⒉调查对象与调查单位;⒊调查项目与调查表;⒋调查时间;⒌制定调查工作的组织实施计划。(为什么调查)(向谁调查)(调查什么)第二节原始数据的搜集方法一、统计调查概述二、统计调查方案三、问卷设计★★★问卷调查指非政府性统计机构或个人所从事的对人的主观意见的调查工作,也称作民意调查或民意测验调查问卷的基本格式:表头表体表脚说明词:解释调查意义、表达感激之情等主题问句:被调查者基本情况、调查项目作业记录:时间、操作者等问卷设计的基本要求:问题的提出要紧扣主题问句和标准答案要易于理解和回答先易后难、先封闭后开放、先基本问题后派生问题以不超过20分钟为宜主题明确提问科学逻辑性强容量适度⒈您是否吸烟(如果选②,则跳过⒉、⒊题)①吸烟②不吸⒉您每天大约吸多少支烟①5支以下②5-10支③10-15支④15-20⑤20-25支⑥25支以上⒊您的吸烟历史大约有多长①1年以下②1-5年③5-10年④10年以上⒋您是否认为吸烟有害健康(请写出理由)调查单位中吸烟人所占比例吸烟人群日吸烟数量情况吸烟人群吸烟历史情况调查对象对吸烟的看法第三节二手资料的搜集二手资料指已经被收集、加工整理成型的数据信息二手资料的主要收集渠道:⒈查阅公开出版物;⒉向政府统计机构咨询;⒊向其他机构咨询;⒋网上查询。第二章统计数据的搜集与整理★第一节数据的计量与类型第二节统计数据的搜集第三节统计数据的整理★★第三节统计数据的整理★一统计整理与统计分组二分布数列的编制第一节统计整理与统计分组1、统计整理的意义和步骤2、统计整理的基本方法——统计分组★统计整理将统计调查得到的原始资料进行科学的分组和汇总形成综合统计资料的工作过程是统计调查的继续,统计分析的前提和基础地位统计数据的处理:统计资料的分组、汇总及制表统计数据的管理:数据的传输、贮存、更新及输出内容制定统计整理方案对原始资料进行审核数据处理制作统计表或统计图统计整理的步骤一统计整理与统计分组1、统计整理的意义和步骤2、统计整理的基本方法——统计分组★★将总体中所有单位按一定的标志分为性质不同但又有联系的若干部分的过程统计分组统计分组的作用:总体经过分组,能够突出组与组之间的差异而抽象掉组内各单位之间的差异,使数据变得条理化,便于进一步分析研究。划分社会经济现象的类型反映社会经济现象的内部结构和比例关系揭示社会经济现象之间的相互依存关系选择分组标志确定分组体系总体单位归类科学性:组间差异大,组内差异小。完备性和互斥性:每个单位均能且只能归到某个组中。统计分组的程序与原则平行分组体系对教师的分类按性别分类男性女性按职称分类按年龄分类高级中级初级青年中年共计7组2+3+2交叉分组体系按性别分类按职称分类按年龄分类男女高级中级初级青年中年共计12组2×3×2对教师的分类第三节统计数据的整理★一统计整理与统计分组二分布数列的编制★二分布数列的编制1、分布数列的定义及种类2、变量数列的编制3、累计次数与累计频率★变量数列品质数列将总体各单位按某个标志分成若干组,列出各组的总体单位数或各组在总体中所占的比重而形成的数列分布数列分类分组标志的具体表现各组的次数或频率构成要素异距数列等距数列组距数列单值数列二分布数列的编制1、分布数列的定义及种类2、变量数列的编制3、累计次数与累计频率★★单值数列指每个组值只用一个具体的变量值表现的数列同时具备变量数列的编制变量是离散变量变量的不同取值个数较少编制条件:【例】己知某车间有24名工人,他们的日产量(件)分别是:20,23,20,24,23,21,22,25,26,20,21,21,22,22,23,22,22,24,25,21,22,21,24,23.要求根据以上资料编制变量数列。日产量(件)X工人数(人)f202122232425263564321合计24编制结果如下:组距数列指每个组的变量值用一个区间来表现的变量数列变量数列的编制变量是连续变量;或:总体单位数较多变量不同取值个数也较多的离散变量。编制条件:变量值变动区间的长度相等变量值变动区间的长度不完全相等等距数列异距数列相关概念指每组两端表示各组界限的变量值,各组的最小值为下限,最大值为上限组限每组变量值变动区间的长度,为上下限之差组距每组变量取值范围的中点数值组中值2下限上限组中值=某地区100个百货商店月销售额与流通费用情况销售额(万元)商店数(个)每百元商品销售额中支付的流通费(元)50以下50~100100~200200~300300以上102030251514.211.410.19.28.5上组限U下组限L如:组距d=U-L=100-50=50(万元)如:组中值x=(U+L)/2=(100+200)/2=150(万元)编制等距数列适用于总体单位的标志值变动比较均匀的情况实例己知某生产车间50个工人日加工零件数的资料如下(单位:个):117122124129139107117130122125108131125117122133126122118108110118123126133134127123118112112134127123119113120123127135137114120128124115139128124121要求编制组距数列。编制步骤:⒈求变异全距个))(32107139minmaxXXR⒉确定组距及组数确定组距的原则:要能区分各组的性质差异要能反映总体资料的分布特征为方便计算,尽可能为5或10的整数倍R≤组距(d)×组数(m)编制等距数列分组数(组数不宜过多,也不宜太少)注意:上述公式仅是经验公式N=50时K=7即分7个组编制等距数列21010loglog1NK斯特格斯公式⒊确定组限对于离散变量,相邻组组限可以间断,也可重叠;对于连续变量,相邻组组限必须重叠;符合“上组限不计入”原则;首末两组可使用“××以下”及“××以上”的开口组。组限的表示方法编制等距数列按零件数分组频数频率(﹪)105~110110~115115~120120~125125~130130~135135~140358141064610162820128合计50100fff根据以上资料可得如下分组表第二节分布数列的编制一、分布数列的定义及种类二、变量数列的编制三、累计次数与累计频率★★★频率各组单位数占总体单位总数的比重累计次数(频率)从变量值低的组开始,将各组次数(频率)逐次向变量值高的组累计,说明某一组上限以下各组的累计次数(频率)。向上累计向下累计从变量值高的组开始,将各组次数(频率)逐次向变量值低的组累计,说明某一组下限以上各组的累计次数(频率)。按零件数分组频数频率(﹪)累计频数累计频率(﹪)向上累计向下累计向上累计向下累计105~110110~115115~120120~125125~130130~135135~14035814106461016282