第1页共15页《调查统计中的统计分析方法》考点整理第一章绪言1、Pascal和Fermat提出了“概率”这一概念,用来描述某一事件发生的可能性。2、Pearson提出了“频度分布”、“频度分布函数”、“回归”、“相关”“拟合度”等概念。3、Gorsset苦心钻研统计理论,终于想出了一种小样本的检验方法——T检验,由此诞生了小样本检验理论。他的伟大功绩在于从统计的意义上明确了推断、检验的含义及其与数学的关系,创立了估计理论和检验理论等统计的理论体系,开拓了统计学的新领域,也就是创立了与过去的描述性统计学所不同的推断性统计学。4、所谓社会调查,曾被认为是要对全部对象(总体)进行全面调查,从而为将来制定计划和决策准备基础资料。但是,全面调查从时间和经济上都是十分困难的,可以进行部分调查及抽样调查,这样在从时间上和经济上都是合算的。根据抽样调查的结果,可以对总体的状况进行估计和推断。实际上各国在经济统计、国势调查、社会调查、收视率调查、民意测验上等,采用的几乎都是抽样统计。5、现代统计学有以下几个特点:(1)随着实际应用的需要,对数理统计理论和方法提出了越来越高的要求,从线性到非线性、从低维到高维、从显在到潜在、从连续到离散等;(2)计算机及其相应的统计软件已经成为统计工作者不可缺少的工具,如SPSS、SAS、DATA-TEST、STATA等(3)现代统计学正逐步成为一门通用的研究、如何合理的有效的获取、整理和分析数据的交叉性学科。第一部分基础统计学第一章统计学的性质1、统计学是一门方法论的学科,是如何从不确定性中做出明智决定的一门(使人聪明的)技术。统计学是关于通过取自某总体的样本来描述和推断该总体的方法,为了避免偏差,样本必须是随机抽取的。于是必须构造一个置信区间,它包括一个表示抽样不确定性的误差范围。2、在大样本中,用样本比例P来估计总体比例π就可靠得多。对于简单随机抽样,置信度为95%的置信区间是π=P±1.96nPP)1(其中π和P分别表示总体和样本的比例,n为样本量(大样本公式)。对于π的估计并不是确确实实给出的,只有95%正确,有5%的可能性会抽到一个很偏的样本;但随着样本量的增大,误差范围缩小了。总之,通过随机抽样,我们可以对未知的总体做一个“无偏的”估计,这是一个包含有不确定性的置信空间。3、双盲试验,随机的将试验对象分为两个组,即试验组和对照组,但试验者和试验对象都不知道分组情况。4、确定一个处理是否有效的试验中,怎样避免误差?必须采用随机抽样的方法来决定让谁来接受处理以及让谁留下作为对照着。而且对于任何有可能对结果产生偏见的人,都应该避免使他了解是谁接受了处理而谁没有。第二章描述性统计1、描述性统计是对调查样本中所包含的大量数据资料进行整理、概括和计算,它是推断性统计的基础。第2页共15页2、测量可以分为四个等级:名称级、顺序级、间隔级和比例级。名称级用于测量“定类变量”的“值”,这是最低级别的测量等级;顺序级用于测量“定序变量”的值;间隔级用于测量“定距变量”的值;比例级用于测量“定比率变量”,这是最高的测量级别。如果测量的零点有确定的实际意义,那么测量就达到了比例级。3、以上四类中,名称级的级别最低,比例级的最高。不同级别的变量在进行统计分析时要注意使用相应的统计方法。一般情况下,测量级别高的变量可以当作测量级别低的变量来分析,但反过来一般是不可以的。不过在社会科学的研究中,由于定序变量可以赋予一定的得分值,习惯上也常常把它当作定距变量来处理。因此定类变量是属于定性型的(或非数值型的);定距和定比变量是属于定量型的(或数值型的),而定序变量则根据具体情况,既可以看成定性型的也可以看成是定量型的。4、统计量是一个不包含任何未知参数的样本函数。5、频数表和直方图是最常用的定量而直观的整理和描述数据的手段之一,它们在表示相对频率上是很有用的。6、众数(mode)表示流行、时兴之意,有众多的意思。因此一个分布的众数就定义为出现次数最多的变量值。它特别适用于定类和定序变量。7、中位数(median)就是第50百分位数点上的值。将样本的n个观测值重新由小到大排序,中间位置上的那个值就叫中位数。由于中位数的定义依赖于数据的大小顺序,因此它不适合于定类变量。对于定序和定距变量,特别是对于分布很不规则的情况,中位数是比较理想的统计量之一。8、均值、中位数和众数的比较:如果x的分布是单峰的对称分布时三者是一致的;对于一个偏斜的分布,相对于众数,中位数朝长尾巴方向偏离了一些,而均值则偏离得更远。当分布比较有规则即不存在极端值时,用均值代表分布的中心比较好;而在有极端值时,则用中位数更合适。众数虽然稳定性最差,但在有些情况下却十分方便。均值中位数众数适用于定距或定比变量主要适用于定序变量主要适用于定类变量最稳定较均值的稳定性差最不稳定计算时要用到全部数据只需中间的数据可最快速求出受极值的影响对极端值不敏感有时对个别值的变动也很敏感分组变化时影响不大分组变化时有些影响分组变化时影响最大9、描述分布形状的五种最常用的:极差、四分位数间距、均方差、方差和标准差。(1)极差(也叫全距)就是最大值与最小值之间的距离:极差R=最大观测值—最小观测值(2)四分位数间距也叫四分位数偏差或四分位差。通常将数据按从小到大的顺序排列后,用三个四分位数点Q1、Q2、Q3将其分为四部分。Q1是第25百分位数点或叫低四分位数点;Q2是第50百分位数点即中位数;Q3是第75百分位数点或叫高四分位数点。四分位数间距IQR规定为Q1和Q3之间的距第3页共15页离。若IQR比较小,则说明数据比较集中在中位数附近;反之则比较分散。IQR经常和中位数一起用来描述一个定距特别是定序测量数据的分布。四分位差IQR=Q3—Q1(3)均方差又叫平均平方偏差,它是对分布的变化性较全面的一个度量。均方差)(21XXnMSD(4)方差和标准差方差2211XXnS方差和均方差的差别仅在于除数是1n,而不是n,但当n无穷大时,两者相同。标准差方差S通过取平方根,标准差的单位和原始数据的单位就一致了。(5)四者的比较标准差四分位数差级差适用于定距或定比变量主要适用于定序变量适用于定距或定比变量最稳定较标准差的稳定性弱最不稳定计算时要用到全部数据只需要其中两段的数据只需要两个值,可快速估算受极端值的影响较大对极端值不敏感只对极端值的变化敏感一般说来,样本均值X是对分布中心最普遍的度量,而样本标准差S是对分布形状最常用的度量。有时我们称X和S2为样本的一阶矩和二阶矩。10、习惯上,称信息的个数为自由度。一个自由度被均值使用,余下的(n-1)个自由度留给了方差,这就是为什么方差的除数为(n-1)。11、利用相对频率进行计算:)(nfXX也就是说,X是所有组中值X的加权之和,加权系数就是对应组的相对频率nf。类似地可以得到利用相对频率计算均方差的公式))((nfXXMSDMSDnnS)1(212、描述分布形状的另外两个统计量为斜度和峰度。斜度(Skewness)和峰度(Kurtosis)用于描述数据的分布于正态分布之间的差异程度。正态分布可以用一条呈铃状的对称曲线来表示。斜度表示分布与正态曲线相比的不对称程度和方向。如果分布是对称的,则斜度为零;如果偏向左边,斜度为正;如果偏向右边,则斜度为负;不对称的程度越厉害则斜度的绝对值也就越大。峰度表示分布于正态曲线相比的冒尖程度或扁平程度。如果分布与正态曲线的形状相当,则峰度为零;如果比正态曲线瘦高则为正,反之为负。冒尖或扁平的程度越厉害,峰度的绝对值也就越大。第4页共15页13、原始数据可以用频数分析表的形式来整理概括,并用直方图来表示。均值和标准差也可以用相对频率分布来计算。14、分布中心最常用的统计量是均值。描述分布形状最常用的统计量为标准差。第三章概率分布补:随机变量可以定义为是一个随机试验或观察的数量结果,习惯上是用一个大写字母来表示。1、推断性统计即通过样本的信息对未知总体进行推断。2、概率=相对频率(在统计意义下)的极限。(概率是随着样本量n越来越大时相对频率在统计意义下的极限)。相对频率之和必须等于1,同样,所有概率之和也应等于1。3、我们称P(X)为X的概率分布;我们称μ为“概率分布的均值”或“总体均值”,也叫做“随机变量X的均值”,因为它是基于整个总体的。X的均值也叫“平均数”或“期望值”。在任何一种单个的试验中,均值μ并不是可以得到的值,而是重复多次试验后所能期望得到的平均意义上的值。在数学上,均值μ的意义也是很明确的,它等于X的值乘以它们的概率P(X)的加权和,即定义XXP。我们称X为样本均值。2和2S分别表示总体方差和样本方差。补:极限情况下的标准差称之为“概率分布的标准差”或“总体的标准差”,用希腊字母表示。XPXMSD2。总体的均值与方差也叫做总体的“一阶矩”和“二阶矩”。4、二项变量:我们将问题叙述如下:每次试验的结果只会是两种可能之一,我们一般称之为“成功”和“失败”。而且每次成功和失败的概率不变,我们分别用π和(1-π)来表示每次试验成功和失败的概率。那么在n次重复试验中成功的总次数X就称为二项变量。X的概率分布就叫做二项分布。成功的总次数等于的概率可以用如下的简单公式表示:knkknrCkXP1(k=0,1,2,……n),其中n=重复试验的次数,k=成功的总次数,π=成功的概率,Ckn=二项系数。这个公式成立有一个重要的假设:n次试验是彼此相互独立的(或称为统计意义上相互独立的)。我们称n个试验是相互独立的,其含义是:每一个试验的概率并不会因为其他试验的结果而受到影响,即每次试验出现某种结果的概率是彼此不受影响的。当试验由具有同样成功机会的相互独立的试验所构成时,成功的总次数X叫做二项分布变量。5、组距相对频率相对频率密度随着样本的增大,随机因素的影响减少,相对频率趋向于概率。同时,样本量的增大也使更精细的分组有了可能。在面积固定为1同时,相对频率密度近似的变成一条曲线,我们称之为概率密度函数,简称概率分布X。对于连续型随机变量,其概率由一条连续的分布曲线(概率密度曲线)下面的面积给出。6、对于许多连续型随机变量来说,其概率分布是一种呈钟形的对称曲线,叫做正态曲线或高斯曲线。7、正态分布中最简单的是标准正态分布,也简称Z分布。它是均值1,0标准差的正态分布。第5页共15页8、例3-10,P689、任何正态变量都可以转化成标准正态变量。XZ10、在任何正态分布中,68-95-99.7的规则都近似成立。即大约有68%的数据,落在距平均值一个标准差的范围内;大约有95%的数据,落在距平均值两个标准差的范围内;大约有99.7的数据落在距平均值三个标准差的范围内。第四章抽样1、所谓简单随机抽样,是当我们每抽取一个观察时,总体中所有个体被抽取的可能性都是相同的。通常的方法有如下两种:用抽签的方法和随机数字。2、如果我们进行的是有放回的抽样,那么样本中的n个观察将是相互独立的。对于很大的总体,即使进行的是无回放的抽样,在实践中也和有放回没什么差别,仍然具有独立性。我们称这种样本为“非常简单的随机样本”(VSRS).补:对于一个非常简单的随机样本,总体中的所有个体都是同等可能地被观察的,而且n个观察也是相互独立地被抽取的。3、从总体中模拟的抽取一个随机样本,比较适用的方法是利用随机数字表和随机正态数表(X=μ+δZ)。4、只要我们一次又一次地重复做模拟抽样,每次都计算一个新的样本均值,就有可能推断出总体的均值,这种重复抽样的方法就叫做蒙特卡罗方法。5、为了区分X的标准差和X标准差,X的标准差通常称为X的标准误差,或简称为SE。即SE=X的标准误差=X的标准差。我们称X为的无偏估计量,即X的期望值不是太高也不是太低,而是正好等于其估计目标。6、X的抽样分布是近似铃状的或正态的。样本均值X的分布有一个显著的特征:尽管总体的分布很偏斜,但X的抽样分布几乎是一条对称的正态曲线。也就是说,不管总体自身是否服从