此为整本书的复习资料,若应对期末考试,则不再考试范围内的请自动忽略。第一章:总论统计含义:统计数据、统计活动、统计学统计学:关于如何搜集、整理和分析统计数据的科学。古典统计学时期国势学派——德国政治算术学派——英国统计学发展历程近代统计学时期社会统计学派——德国数理统计学派——比利时现代统计学时期:推断统计统计学研究对象:现象的数量方面—统计数据定性数据定类数据计量尺度定序数据定量数据定距数据统计数据定比数据表现形式:绝对数、相对数、平均数来源:观测数据、实验数据加工程度:原始数据、次级数据时空状态:时序数据、截面数据总体:统计研究的客观对象全体,也称母体。特征:大量性、同质性、差异性个体数量:有限/无限总体存在形态:具体/形象总体总体分类:个体计数:可计数/不可计数总体人为判定个体:自然/人为总体个体:组成总体的个别事物,也称总体单位。总体与个体关系:1.总体随个体数量可变大变小;2.研究目的不同,总体中个体可改变;3.研究范围不同,总体和个体角色可变换。样本:从总体中抽取一部分个体所组成的集合,也称字样。其不具唯一性,除非其实总体本身。样本数:总体中最多可抽取的不同样本数量。样本与总体关系:1.总体是研究对象,样本是观测对象,样本是总体的代表和缩影;2.样本用来推断总体:观测样本的目的是对总体数量特征作出判断。3.总体和样本角色可改变标志:描述或体现个体特征的名称,标志在每个不同个体的结果为标志变形表示方式品质标志:表明个体属性特征数量标志:表明个体数量特征表现结果是否相同不变标志:每个个体上表现完全相同分类可变标志:每个个体上表现不同表现个体直接程度直接标志(第一标志):直接表明个体属性或数量特征间接标志(第二标志):两个或两个以上标志计算后(通常对比)变量:狭义:可变的数量标志;变量是可变数量标志的抽象化;变量的具体数值—变量值(标志值)。广义:可变标志(可变数量/品质标志)。定性变量定类变量定序变量定量变量定距变量变量分类定比变量所受影响因素确定性变量随机性变量是否连续离散型变量(只能取整)连续性变量(随意取)统计指标:简称指标,是反映现象总体数量特征的概念及其数值。组成:统计指标由指标名称和指标数值两个基本部分组成。指标名称反映所研究现象的实际内容,是对现象本质特征的一种概括;指标数值时所研究现象实际内容的数量表现,是对总体本质特征的量的规定性,是对个体特征综合和计算的结果。统计指标和标志的联系和区别:区别:1.说明对象不同:指标说明总体的特征;标志说明个体的特征;2.表现形式不同:指标用数值体现;标志既有文字又有数值。联系:1.标志是计算统计指标的依据,即统计指标数值是根据个体的标志表现综合而来的;2.由于总体和个体的确定是相对的,可以换位,因而指标和标志的确定也是相对的。计算范围总体指标样本指标反应现象不同总体标志总量数量指标总体容量指标反映现象内容不同反应时间状况时期指标时点指标质量指标相对指标平均指标反映现象时间状态静态指标动态指标第二章:统计数据的收集、整理与显示统计数据收集:按照统计研究目的和任务,运用各种科学有效的方式和方法,有针对地收集反映客观现实的统计数据的活动过程,是整个统计活动的基础阶段,通常也称统计调查阶段。基本要求:准确性(核心)、及时性(信息价值体现)、完整性(分析需要)统计数据收集方式:普查、抽样调查、重点调查及间接的统计调查—统计推算普查:根据特定的统计目的而专门组织的一次性的全面调查,用以手机所研究现象总体的全面资料(总体中所有个体都是观测单位)分类:1.专门建立普查机构,配备人员,如我国人口普查;2.利用观测的原始记录是记录和核算资料,发表,由观测单位填报。如物资库存普查。特点:一般全国范围,涉及面广、工作量大、需要大量物力人力和财力。抽样调查:一种非全面调查,从总体中抽取样本,以样本推断总体。根据抽取样本方式的不同,分为概率抽样和非概率抽样。特点:经济节省、时效性高、准确度高、灵活方便概率抽样从抽样方法上看分为重复抽样和不重复抽样;从抽样组织形式上看,分为简单随机抽样、分层抽样、等距抽样、整群抽样和多阶段抽样非概率抽样分为任意抽样、典型抽样、定额抽样、和流动总体抽样几种。数据收集误差:观测性误差和代表性误差。观测性误差:也叫登记性误差或调查性误差,事调查工作的各个环节因工作粗心或被观测者不愿很好配合而造成的所收集数据与实际情况不符的去查,包括计量错误、记录错误、计算错误、抄写错误、汇总错误、计算机输入误差等各种人为因素干扰的误差。在全面调查和非全面调查中都会产生,调查范围越广、观测个体越多,产生误差可能性越大。是一种非一致性误差。代表性误差:是在抽样调查中,由于样本不能完全代表总体而产生的估计结果与总体真实数量特征不符的误差。分为系统代表性误差和偶然性代表性误差。系统代表性误差:由于抽样框(用于抽取样本的名录)不完善、抽样时违反随机原则、被调查者误会等因素引起的误差,等距抽样也会有这种误差。是难以计算和控制的。偶然性代表性误差:也叫抽样误差或偶然性误差,是由于抽样的随机性引起的样本机构与总体结构不完全相符,从而产生的估计结果与总体真值不一致的误差,这种误差在随机抽样不可避免,但可以计算和控制。统计分组:根据据统计研究的目的和事物本身的特点。选择一定的标志(一个或多个),将研究现象总体划分为若干性质不同的组或类的一种攻击研究方法。性质:1.兼有分与合的双重功能,是分与合的对立统一;2必须遵循“穷尽原则”和“互斥原则”,即现象总体中的任何一个个体都必须而且只能归属于某一个组,不能出现遗漏或重复出选的情况;3其目的是在同质性的基础上研究总体的内在差异性,即尽量体现出分组标志的组间差异而缩小其组内差异;4其在体现分组标志的组间差异的同时,可能掩盖了其他标志的组间差异,任何统计分组的意义都有一定的限定性。分类:分组标志多少:简单分组:只按一个标志分组复合分组:按两个或两个以上标志进行层叠式分组,先按第一个标志分组,再按第二个…两个标志进行复合分组时,还可以用交叉式,形成交叉分组表。分组标志性质:品质分组,即属性分组,总体按一个或多个品质标志分组,分组标志一经确定,各组名称、界限和组数也就随之确定。数量分组,即变量分组,总体按一个或多个数量标志分组。是反映总体内部数量差异的重要方法;难点是合理确定组间数量界限和分组数,其结果形成变量数列。分布数列:在统计分组的基础上,将总体中的所有个体按组归类排列,并计算出各组的个体数,就形成频数分布。分配在各组的个体数,称为频数或次数,各组频数或次数之和称为总频数或总次数,各组频数于总频数之比称为频率。将各组的频数或频率按分组的一定顺序加以排列,就形成分布数列。分布数列有两个构成要素:统计分组所形成的各个组和各组的聘书或频率。分类:按分组标志的性质不同,分为品质标志的品质分布数列和按数量标志分组的变量分布数列。变量数列又分为单项式数列(一个变量值表示一个组)和组距式数列(一个变量区间表示一个组的变量数列)。频数密度是频数与组距之比,频率密度是频率与组距之比,各组的频数密度或频率密度可以进行比较。注意:1.最小组的下限应略低于总体的最小变量值,最大组的上限应略大于总体的最大变量值;2.连续型变量的各组组限必须重叠,采用“上限不在内”原则;3。开口组:最小组只有上限,最大组只有下限;开口组一般按相邻组的组距加以确定,进而确定上下限。4.组中值,代表各组变量值的一般水平的数值,是各组上限与下限的简单算术平均数。第三章:变量分布特征的描述变量分布特征的描述:1.变量分布的集中趋势,反映变量分布中各变量值向中心值靠拢或聚集的程度;2.变量分布的离中趋势,反映变量分布中变量值远离中心值的程度;3.变量分布的形状,反映变量分布的偏斜程度和尖陡程度。平均指标:将变量的各变量值差异抽象化,以反映变量值一般水平或平均水平的指标,即反映变量分布中心值或代表值的指标。平均指标的拘役表现为平均数,平均数因计算方法不同分为数值平均数和位置平均数。作用:1.反映变量分布的一般水平,帮助人们对研究现象的一般数量特征有一个可观的认识;2.利用平均指标可以对不同空间的发展水平进行比较,消除因总体规模不同而不能直接比较的因素,以反映他们之间总体水平上能够存在的差距,进而分析产生差距的原因。3.利用平均指标可以对某一现象总体在不同时间上的发展水平进行比较,以说明这种现象发展变化的趋势或规律性。4.利用平均指标可以分析现象之间的依存关系或进行数量上的推算5.平均指标可以作为研究和评价事物的一种数量标准或参考。算术平均数:也称均值,是变量的所有取值的总和除以变量值个数的结果。简单算术平均数:根据未分组数据计算的,直接将变量的每一个变量值相加,除以变量值的个数。(可简记为)加权算术平均数:根据变量数列,即以各组变量值(或组中值)乘以相应的频数求出各组标志总量,加总各组标志总量得出总体标志总量,再用总体标志总量除以总频数。(可简记为)算术平均数的数学性质:1.各变量值与算术平均数的离差之和等于零,即(对于简单算术平均数)或(对于加权算术平均数);2.各变量值与算术平均数的离差平方和为最小值,即或,只有当时,等号成立。算术平均数优缺点:优:1.可以利用算术平均数来推算总体标志总量,算术平均数与变量值之乘积等于总体标志总量(变量值总和);2.由算术平均数的数学性质知,算术平均数在数理上具有无偏性与有效性(方差最小性);3.其具有良好的代数运算功能局限性:1.算术平均数易受特殊值(特大或特小值)影响;2.根据组距数列计算算术平均数时,由于组中值具有假定性而使得计算结果只是一个近似值,尤其是当组距数列存在开口组时,算术平均数的准确性会更差。调和平均数:是平均数的一种,是变量值的倒数的算术平均数。分为简单调和平均数和加权调和平均数。简单调和平均数:当各组的标志总量相等时,所计算的调和平均数称为简单调和平均数;设总体分为k组,每个组的标志总量都为km。H=(可简记为H=)加权调和平均数:当各组标志总量不相等时,所计算的调和平均数要以各组的标志总量为权数,其结果为加权调和平均数。H=(可简记为H=)简单和加权调和平均数的联系和区别:区别在于计算过程中应用的数据条件的不同前者以各组频数为权数,后者以各组标志总量为权数,但它们都符合总体标志总量与总体总频数的对比关系,事实上,两者是可以相互变通的。对于同一现象,无论用加权或是简单调和平均数,计算结果是相等的,无非是因数据条件不同采用了不同的计算形式。由相对数或平均数计算平均数不论是用加权算术平均数公式还是加权调和平均数,都要从相对数或平均数指标本身的经济含义出发来计算,这是一个很重要的原则。几何平均数:是计算平均比率或平均速度常用的一种方法。分为简单几何平均数和加权几何平均数。简单几何平均数:就是变量的n个变量值连乘积的n次方根。G=(可简记为G=)加权调和平均数:当计算几何平均数的各种变量值出现的次数不等,即数据经过了统计分组时,则应采用加权几何平均数。G=(可简记为G=)算术、调和、几何平均数的数学关系:单从数学意义上说三者大小关系为:H=G=位置平均数中位数:变量的所有变量值按定徐尺度排序后,处于中间位置的变量值,由于处于中间位置,可以用来代表变量值的一般水平,可以预测定量变量的集中趋势,也可测定定序变量的集中趋势,但不适用于定类变量。中位数确定:1.根据未经分组的原始数据来确定,n为奇数=,n为偶数2.根据变量分布数列来确定按组距数列来计算中位数,首先要计算各组的累计频数,然后找出中位数所在的位置,即累计次数大于或等于的组,(严格上讲是,简化起见取)。下限公式:(L为中位数所在组的下限,为中位数所在组的频数,为向上累计至中位数所在组下一组止的累计频数,d为中位数所在组的组距。)上限公式:U位中位数所在组的上限,为向下累计之中位数所在组上一组的累计频数。中位数优缺点:优:1.作为一种位置平均数,概念比较清晰;2.不受变量数列中特殊值的影响;3.组距数出现开口组时,对中位数无影响4.当某些变量不能表现为数值但可以定序时,不能计算数值平均数而可以