第一章1.1.1统计工作:是对所研究现象的数据资料进行搜集、整理、描述和分析的过程,目的是研究数据内在的数量规律性,进而认识所研究现象的本质。过程:统计设计、统计调查、统计整理和统计分析。统计资料:也称统计信息,是反映一定社会经济现象总体或自然现象总体的特征或规律的数字资料、文字资料、图表资料及其他相关资料的总称。形式:统计表、统计图、统计年鉴、统计公报、统计报告和其他有关统计信息的载体。1.1.2统计学:统计学是研究如何搜集资料、整理资料和分析资料的方法论科学。统计学研究对象具有数量性、总体性、具体性的特点。数量性:是统计学研究对象的基本特点总体性:是指统计学所研究的是总体的数量规律性,而不是个体的数量规律性。统计对总体的研究是从个体着手的。具体性:是指统计学所研究的是具体现象的数量规律性,是说明在一定时间、地点条件下的数量,是与一定的质相联系的数量,不是抽象的数量规律。1.3.1总体:具有某种相同性质的许多个别单位构成的集合称作统计总体,简称总体。构成总体的个别单位叫做总体单位。若干个单位所有的某种相同性质称为总体的“同质性”,这是形成统计总体的必要条件。总体:有限总体与无限总体。一个总体中包括的总体单位数是有限的,称为有限总体。若总体是由无穷多个总体单位构成的,称为无限总体。总体和总体单位为是可以互相转化的。样本:是从总体中抽取的部分单位所构成的集合,其中的每一个单位称作样本单位。样本具有这样几个特点:样本单位必须抽自总体内部,总体以外的单位不能参加样本的抽取;从一个总体中可以抽取多个样本;样本必须具有代表性;样本必须具有客观性。分类:方便样本、判断样本和随机样本。随机样本是按照随机原则从总体中抽取的样本,总体中每个单位都有同等的机会被抽中。三种不同的样本都可以作为总体的代表,但其中只有随机样本的抽样误差可以用概率的理论来描述,所以只有随机样本可以用于推断统计。1.3.2统计是研究总体的,但要从总体单位入手。统计研究就要从这些属性和特征入手。标志:总体单位的属性或特征称为标志,或者说标志是总体单位的名称,按性质不同可分为品质标志与数量标志。品质标志:是表明总体单位属性的特征,是不能用数量来衡量的。数量标志:是表明总体单位量的特征的,是可以用数量来衡量的。标志:在各单位的具体表现称为标志表现,简称标志值。又可分为可变标志和不可变标志。不可变标志就是所有总体单位同一标志的标志表现是相同的;可变标志是个总体单位同一标志的标志表现各不相同。总体单位的不可变标志正是构成总体的必要条件,即“同质性”。指标:统计指标是表明总体数量特征的,简称指标。任何一个统计指标都是由指标名称、所属时间、所属空间、指标数值、计量单位和计算方法等要素构成的。所有统计指标按其所反映的总体内容不同,可分为数量指标和质量指标。数量指标:是说明总体规模大小、数量多少的统计指标,是用绝对数形式来表现的。质量指标:是说明总体内部数量对比关系和总体单位水平的统计量指标,大多数是用相对数和平均数表现的。标志和指标既有区别又有联系。两者的联系主要表现在两方面:一是数值的汇总关系,即统计指标由总体单位的数量标志的标志值汇总而来;二是二者之间的转化关系,即统计指标与数量标志之间可以相互转化,这种转化与总体和总体单位之间的转化是联系在一起的。1.3.3参数:是用来描述总体特征的概括性数字度量,它是研究想要了解总体的某种特征值。通常有总体平均数、总体标准差、总体比例等。在统计中,总体参数通常用希腊字母表示。统计量:是用来描述样本特征的概括性数字度量。由样本数据计算得到,是样本的函数。主要有样本平均数、样本标准差、样本比例等。样本统计量通常用英文字母来表示。1.3.4变量:是说明现象某种特征的概念,其特点是从一次观察到下一次观察结果会呈现出差别或变化,统计数据就是统计变量的某些取值。变量可分为连续变量和离散变量。连续变量的数值是连续不断的,相邻两个值之间可以无限分割,可取无数个值。离散变量的数值都是可以用整数位断开的。1.4.1统计数据的类型:分类数据:是只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,是用文字来表述的。顺序数据:是只能归于某一有序类别的非数字型数据。顺序数据虽然也是类别,但这些类别是有序的。数值型数据:是按数字尺度测量的观察值。分类数据和顺序数据:说明的是事物的品质特征,通常是用文字来表述的,其结果均表现为类别,因而也可统称为定性数据或品质数据(QualitativeData);数值型数据说明的是现象的数量特征,通常是用数值来表现的,因此也可称为定量数据或数量数据(QuantitativeData)。1.4.2按收集数据的方法分类:可以分为观测数据和实验数据观测数据是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件下得到的,有关社会经济现象的统计数据几乎都是观测数据。实验数据则是在实验中控制实验对象而收集到的数据,主要集中在自然科学领域。1.4.3按数据反映的时间状况分类:可以分为截面数据和时间序列数据。截面数据是在相同或近似相同的时间点上收集的数据。时间序列数据是在不同时间上收集到的数据。------------------------------------------------------------------------------------------第三章1.统计数据整理:就是根据统计研究的目的,将统计调查搜集到的原始数据进行科学分类、汇总,使其条理化、系统化,从而得到综合说明所研究总体数量特征的统计资料的工作过程。2.统计数据整理的步骤:1)设计统计整理方案。关键是要明确如何对统计调查搜集的资料进行分组以及采用哪些汇总指标。2)审核原始数据。主要审核数据的完整性和准确性。完整性审核主要是检查填报单位是否有不报和漏报现象,调查表中所有项目是否填写齐全。准确性审核主要是检查原始数据是否真实可靠,数据计算是否正确。3)数据的分组和汇总。根据研究的目的确定进行哪些分组,并在此基础上汇总计算出各组及总体的有关指标数值。(先分组后汇总)4)绘制统计表和图。结果用表格和统计图形式呈现出来或绘制更直观。3.统计分组的作用:1)将零散的、不系统的资料条理化、系统化。2)划分社会经济现象的类型。3)说明总体的内部结构以及整个结构的类型和特征。4)分析现象的依存关系。4.分组标志就是分组的依据,统计分组的关键是分组标志的选择。6.按分组标志多少可分为简单分组和复合分组。1)简单分组:是指对研究总体按一个标志进行的分组,只能从一个角度说明现象的分布状况和内部构成。2)复合分组:是指对研究总体按两个及两个以上标志进行层叠分组,即先按一个标志分组,然后再按另一个标志在此基础上接着进行分组。在复合分组中,各分组标志之间不是平等的关系,前面的分组标志对后面的分组标志有限制作用。7.按分组标志性质不同,分为品质分组和数量分组。1)品质分组:就是按反映事物属性或质的特征的品质标志进行分组。2)数量分组:就是按反映事物数量特征的数量标志进行的分组。8.分配数列:将总体按某一标志分组,计算出总体单位在各组的分配次数或称频数,就形成了分配数列也叫频数分布或次数分布。分配数列由两部分组成:一部分是分组,一部分是分配次数。9.分配数列根据分组标志的性质不同分为品质分配数列和数量分配数列。数量分配数列也叫变量数列。10.变量数列又可分为两种:单项式变量数列和组距式变量数列。单项式变量数列:是指数列中的每个组只用一个变量值表示。组距式变量数列:是指数列中的每个组用两个变量值组成的一段区间表示。11.若变量是离散型,而且变动的范围不大,变量个数不多,可编制单项式变量数列;若变量是连续型,或者离散型变量的变动范围比较大,变量值个数较多,一般编制组距式数列。12.组距式数列的编制大致可分三步:首先确定组数和组距,其次确定组限,最后计算各组分配次数(也叫频数)或比重(也叫频率)。13.编制组距式数列时,先将原始数据按大小顺序排列,观察其分布状况,并计算全距,即最大变量值与最小变量值之差,从而确定组数和组距。组距是每组变量的最大值与最小值之差,它等于全距除以组数。确定组数和组距的经验公式,称为斯特杰斯经验公式。14.等距分组与不等距分组:等距分组:组距式数列的各组组距都相等;不等距分组:各组组距不都相等。在具体分组时,采用哪一种形式要看能否满足统计分组的基本原则。一般在变量值变动比较均匀的情况下,采用等距分组。在变量值变化不均匀时,采用等距分组通常不能满足统计分组的基本原则,这时应采用不等距分组。在变量分布比较密集的区间,采用较短的组距;在变量分布比较稀少的区间,采用较长的组距。在不等距分组中,需要消除组距不等的影响的方法:是用各组组距去除相应的分配次数,即用次数密度或称频数密度反映现象的分布状况。15.组限是指各组两端的数值。(注:xx以上或以下通常是指不包含该项)16.组中值是各组数据变动范围的中间值。17.对于组限采用重叠式的分组,组距和组中值的计算公式为:对于组限采用不重叠式的分组,组距和组中值的计算公式为:对于开口组,其组距假设和邻组组距相同,然后再按上述方法计算组中值。对于开口组距数列,其首组假定下限和末组假定上限分为首组假定下限=首组上限-相邻组组距末组假定上限=首组下限-相邻组组距首组中值=(首组假定下限+首组上限)/2末组中值=(末组假定上限+末组下限)/218.由变量值小的向变量值大的方向累积为向上累积,由变量值大的向变量值小的方向累积为向下累积。19.统计表按照主词是否分组和分组的程度进行的划分分为:简单表、分组表和复合表。简单表是指主词不经过任何分组的统计表。简单表的主词是总体单位名称或时间名称的罗列。分组表是指主词按一个标志进行分组的统计表,也叫简单分组表。复合表是指主词按两个或两个以上的标志进行分组的统计表,也叫复合分组表。20.统计表按宾词的设计方式不同进行的划分分为:简单设计和复合设计。宾词简单设计:是指平行设置宾词的各项指标;宾词复合设计:是指层叠设置宾词的各项指标。21.统计表的编制规则:1)统计表的各种标题,特别是总标题的表达应该简明扼要、确切反映出表的基本内容、所属地区和时间。2)表中主词各行和宾词各栏的次序排列,一般多是合计或总计栏在各部分栏之后,但如果各部分栏不需要全部列出时,可以把合计或总计栏排在最前面。3)如果统计表的栏数较多,通常要加以编号。在主词和计量单位等栏,用甲、乙、丙、丁等文字标明;宾词指标各栏,用(1)、(2)、(3)、(4)等数字编号。4)统计表中上下数字的位置要对齐,如有相同数字应该全部重写,不能写“同上”、“同左”、“同右”等字样。当数字为零时用符号“—”表示。22.根据统计图描述统计变量的个数,统计图可以分为单变量统计图、双变量统计图和多变量统计图;根据统计图描述统计变量的性质和外形特征,统计图又可分为条形图、饼图、环形图、累积分布图、直方图、折线图、曲线图、茎叶图、箱线图、散点图、雷达图等。制作统计图有两个主要目的:一是帮助研究者从数据中提取信息;二是把枯燥的统计数据转化为生动形象的图形信息。23.定性变量的图示:条形图、饼图、环形图、累积分布图24.定量变量的图示:直方图、折线图、曲线图、茎叶图、箱线图、散点图、雷达图25.条形图可用于显示分类变量和顺序变量取值的频数或频率分布。条形图可以横置或纵置,纵置时也称为柱形图。26.饼图可用于显示分类变量和顺序变量取值所对应的频数或频率分布,用面积来表示数值的大小。用饼图表示分类变量的取值特别适宜,可用于表示分类变量中各组频数所占的比例,即相对大小。27.环形图:总体或样本中的每一部分数据用环中的一段表示。饼图只能显示一个总体和样本各部分所占的比例,而环形图则可以同时绘制多个总体或样本的数据系列。28.累积分布图包括累积频数分布图和累积频率分布图。29.直方图:是根据定量变量的取值范围来显示观测频数的图,常用于显示连续变量在取值区间内的频数分布。在平面直角坐标系中,用横轴表示数据分组区间,用纵轴表示频数或频率。30.折线图:也