《统计学》第二章 统计数据的搜集、整理

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第二章统计数据的搜集、整理和显示第一节统计数据的搜集第二节数据整理第三节频数分布第四节数据显示第一节统计数据的搜集一、统计数据搜集的基本理论(一)定义1.根据统计研究预定的目的要求和任务,运用相应的科学的调查方法与手段,有计划、有组织地向客观实际搜集数字(原始)资料。2.搜集数据的途径:调查与实验(二)调查数据与实验数据1.调查数据2.实验数据,自然科学(三)统计调查的方案设计PLAN1.确定调查目的.2.确定调查对象和调查单位(P22)调查对象:要调查的现象总体,该总体是由许多性质相同的调查单位组成的。调查单位:所要调查的具体单位,是进行调查登记的标志的承担者报告单位/填报单位:负责向上报告调查内容,提交统计资料的单位3.确定调查项目:标志。4.调查表格和问卷的设计。5.确定调查时间(时期,时点)和调查期限.6.统计调查的组织实施计划例:1,要对某企业的生产设备的实际生产能力进行调查,则该企业的生产设备是()A调查对象B调查单位C调查项目D报告单位2,调查某市工业企业资产负债的分布状况,则工业企业是()A调查对象和报告单位B调查单位和报告单位C报告单位和填报单位D填报单位和调查对象二、统计调查的组织形式(一)全面调查与非全面调查1.全面调查是对调查对象的所有单位一一进行调查。1)普查census普查是专门组织的一种全面调查,它主要是用以调查某些不能或不宜用定期的全面报表搜集的统计资料。普查的主要特点:第一,它是一次性(非连续性)的调查,一般间隔较长时间。第二,它是一种全面调查,可获得大量详细、全面的资料。例如,人口普查,经济普查2)全面统计报表制度statisticalyearbookA)定义:自上而下…自下而上…B)统计报表的主要特点:第一,资料来源于各个基层单位的原始记录。第二,逐级上报和汇总的。第三,属于经常性(连续性)调查,调查项目相对稳定,有利于积累资料,并进行动态对比分析。2.非全面调查:对调查对象其中的一部分单位进行调查。1)抽样调查sampling,是从调查对象中抽取一部分单位作为样本进行观察,然后根据所获得的样本数据,对调查对象总体特征作出具有一定可靠程度的推算或对总体进行了解。A)特点:第一,按随机原则抽取样本。第二,根据部分调查的实际资料对调查对象总体的数量特征作出估计(统计推断)。第三,抽样误差可以事先计算并加以控制。B)适用范围:第一,不可能或不必要进行全面调查的社会现象。例如,破坏性的产品质量检查第二,对普查资料进行必要的修正。2)重点调查重点调查:是指在调查对象中,只选择一部分重点单位进行的非全面调查。3)典型调查典型调查是一种专门组织的非全面调查。根据调查的目的,在对所研究的对象进行初步分析的基础上,有意识地选取若干具有代表性的单位进行调查和研究,借以认识事物发展变化的规律。(二)连续性调查与非连续性调查统计调查按时间标志可分为连续性(经常性)和不连续性(一次性)调查两大类。1.连续性(经常性)调查:是指随着研究现象的变化,连续不断地进行调查登记。2.不连续性(一次性)调查:是指间隔一段较长的时间对事物的变化进行一次性调查。(三)定期报表形式与专门调查1.定期报表制度是按国家统一规定的表式和内容,定期地向各级领导机构报送统计资料的一种调查形式。2.专门调查是为某一专题研究而组织的专项调查。三、统计调查体系建立以必要的周期性的普查为基础,经常性的抽样调查为主体,同时辅之以重点调查、科学推算和少量的全面报表综合运用的统计调查方法体系。四、统计调查误差error第二节数据整理一、数据整理的内容与程序1.统计数据整理的内容:统计分组和统计指标是统计整理的中心工作。2.数据整理的程序。二、统计分组(一)统计分组的概念与种类1.统计分组的概念组内一致性,组间差异性2.统计分组的原则穷尽原则:不漏互斥原则:不重3.统计分组的种类1)按分组标志的多少,可分为简单分组和复合分组。2)按分组的标志的性质不同,分为品质分组(或称属性分组)和数量分组(或称变量分组)。3)按分组的作用和任务不同,分为类型分组、结构分组和分析分组。(二)统计分组的方法1.品质分组的方法2.数量分组的方法1)应注意的问题:A)分组时各组数量界限的确定必须能反映事物质的差别。B)应根据被研究的现象总体的数量特征,采用适当的分组形式,确定相宜的组距、组限。2)单项式分组与组距式分组A)单项式分组B)组距式分组:连续型变量或者变动范围较大的离散型变量,适宜采用组距式分组。3)间断组距式分组和连续组距式分组主要概念:下限和上限、组距、组限间断组距式分组:组限不相连的组距式分组连续组距式分组:组限相连(或称相重叠的),即以同一数值作为相邻两组的共同界限的组距式分组。“上限在不内”原则:在连续组距式分组中,以同一个数值作为相邻两组共同的界限,我国统计制度规定,凡是总体某一个单位的变量值是相邻两组的界限值,这一个单位归入作为下限值的那一组内。(六十分万岁!)4)等距分组与异距分组等距分组:标志值在各组保持相等的组距,即各组的标志值变动都限于相同的范围。异距分组:各组的组距不相等。5)组距与组中值的计算连续式分组的组距计算公式:distance组距=本组上限–本组下限间断式分组的组距计算公式:组距=本组上限–本组下限+1开口组的组距:以相邻组的组距为本组的组距。组中值=2上限下限6)组数的计算:组数=全距/组距斯特杰斯Sturges经验公式(P31):组数=1+3.3LgN由此推出,组距=(最大变量值-最小变量值)/(1+3.3LgN)三、统计指标Index,Indicator(一)指标的定义描述总体的数量特征。标志是描述个体的。(二)指标的分类1.数量指标:GDP2.质量指标:CPI,Engelcoefficient系数(三)指标体系(四)国民经济活动的主要统计指标多选题1,学龄前儿童按年龄分组为:未满1岁,1-2岁,3-6岁。这里()A年龄是分组标志B年龄是离散型变量C儿童是分组标志D第一组的组中值是0.5岁E第二组的组中值是1.5岁2,以下哪些是相对指标()A生猪出栏率B恩格尔系数C企业劳动生产率D股票平均价格E人口增长率3,在第五次全国人口普查中,()A国籍是可变标志B全国人口数是统计指标C每个中国公民是调查对象D人口年龄是变量E全国女性人数是品质标志第三节频数分布一、频数分布的基本概念1.频数分布frequencydistribution2.分布数列的两个要素1)总体按某标志x所分的组。2)各组所出现的单位数,即频数f,亦称次数。二、变量数列的编制1.编制方法(P36,例2-1)。2.频率的性质1)频率是界于0和1之间的一个分数,2)各组频率之和等于1。3.(异距分组)频数密度:频数密度=频数/组距频率密度=频率/组距三、cumulative累计频数与累计频率1.向上累计频数(或频率)分布:先列出各组的上限,然后由标志值低的组向标志值高的组依次累计。2.向下累计频数(或频率)分布:先列出各组的下限,然后由标志值高的组向标志值低的组依次累计。例题2-2,P373.累计频数分布特点4.累计频数(频率)分布图P47,2-6累计频数(频率)分布图分为向上累计频数(频率)分布图和向下累计频数(频率)分布图。以分组变量为横轴,以累计频数(频率)为纵轴。四、频数分布的类型1.钟型分布:bell-shapeddistribution钟型分布示意图(Ⅰ)对称(Ⅱ)正偏,右(Ⅲ)负偏,左如图(Ⅰ)所示,其分布特征是以变量的平均数为对称轴,左右两侧对称,两侧变量值分布的次数随着与其平均值距离的增大而渐次减少。在统计学中,称这种分布为正态分布。其中的(Ⅱ)(Ⅲ)为非对称分布,它们各有不同方向的偏态。图(Ⅱ)曲线是正偏(右偏)分配,图(Ⅲ)曲线是负偏(左偏)分配。正态分布NormalDistributionGaussiandistribution在高斯Gauss的一切科学贡献中,其对人类文明影响最大者,就是这一项。正态分布有极其广泛的实际背景,生产与科学实验中很多随机变量的概率分布都可以近似地用正态分布来描述。例如,在生产条件不变的情况下,产品的强力、抗压强度、口径、长度等指标;同一种生物体的身长、体重等指标;同一种种子的重量;测量同一物体的误差;弹着点沿某一方向的偏差;某个地区的年降水量;以及理想气体分子的速度分量,等等。一般来说,如果一个量是由许多微小的独立随机因素影响的结果,那么就可以认为这个量具有正态分布(中心极限定理)。从理论上看,正态分布具有很多良好的性质,许多概率分布可以用它来近似;还有一些常用的概率分布是由它直接导出的,例如对数正态分布、t分布、F分布等。2、U型分布图2-4U型分布示意图102030405060708050403020100死亡率(‰)年龄某地区人口死亡率3、J型分布J型分布示意图正J型图反J型图第四节数据显示统计表和统计图一、统计表(一)统计表的定义和结构1.统计表的定义作用:清楚地、有条理地显示统计资料,直观地Intuitionally,Intuitively反映统计分布特征,是统计分析的一种重要工具。2.统计表的结构(P41,表2-5)1)从表式上看,表格包括总标题、横行标题、纵栏标题和指标数值四个部分。2)从内容上看,统计表由主词栏和宾词栏两个部分组成。(二)统计表的分类1.按主词的结构分类1)简单表list2)分组表3)复合表2.按宾词设计分类1)宾词简单排列表2)宾词分组平行排列表。(三)统计表的设计统计表的设计应注意如下事项:1.线条的绘制,粗,细,开口。2.合计栏的设置。3.标题设计。以简练而又准确的文字表述统计资料的内容、资料所属的空间和时间范围。4.指标数值的填写。5.计量单位。6.note注解或资料来源。在统计表下,应注明资料来源。二、统计图1、直方图histogram:用直方形的宽度和高度来表示次数分布的图形。绘制直方图时,横轴表示各组组限,纵轴表示次数(一般标在左方)和比率(或频率,一般标在右方)。2、折线图linechart:折线图可以在直方图的基础上,用折线将各组次数高度的坐标连接而成,也可以用组中值与次数求坐标点连接而成。3、曲线图:用平滑曲线连接各组次数坐标点即得分布曲线。4.洛伦茨曲线Lorenzcurve绘制方法如下:1)将分配的对象和接受分配者的数量均化成结构相对数并进行向上累计;2)纵轴和横轴均为百分比尺度,纵轴自下而上,用以测定分配的对象,横轴由左向右用以测定接受分配者。3)根据计算所得的分配对象和接受分配者的累计百分数,在图中标出相应的绘示点,连接各点并使其smoothing平滑化,所得曲线即所要求的洛伦茨曲线。利用洛伦茨曲线对收入分配状况分析根据实际收入分配线与绝对平等线或绝对不平等线进行比较,衡量不平等程度。离绝对平等线越远分配越不平等;反之,越靠近绝对平等线分配越平等。基尼系数Ginicoefficient:实际收入分配曲线与绝对平等线围成的面积对比总面积。基尼系数系数越大说明分配越不公平。洛伦茨曲线示意图10080604020020406080100人口(%)收入(%)绝对不平等曲线GiniCoefficient基尼系数按照联合国UN有关组织规定:若低于0.2表示收入绝对平均;0.2-0.3表示比较平均;0.3-0.4表示相对合理;0.4-0.5表示收入差距较大;0.5以上表示收入差距悬殊。通常把0.4作为收入分配差距的“警戒线”,根据黄金分割律,其准确值应为0.382。一般发达国家的基尼指数在0.24到0.36之间,美国偏高,为0.4。中国大陆基尼系数2010年超过0.5,贫富差距较大。总人口中20%的最低收入人口占收入的份额仅为4.7%,而总人口中20%的最高收入人口占总收入的份额高达50%。世界银行发表了一份数据,最高收入的20%人口的平均收入和最低收入20%人口的平均收入,这两个数字的比在中国是10.7倍,而美国是8.4倍,俄罗斯是4.5倍,印度是4.9倍,最低的是日本,只有3.4倍。课后作业题思考题5,8,9,15,16计算题22

1 / 51
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功