第一节总体与样本第二节样本分布与统计量第三节总体分布的理论分析第四节统计量的分布数理统计学是随机数学中一个重要的应用分支,它研究的是如何运用概率论的基本知识及理论,对所研究的随机现象进行多次观察或试验,合理地获取数据资料,建立有效的数学模型,并对所关心的问题作出科学的参数估计,未知总体分布的非参数估计,假设检验、线性推断及回归分析,方差分析等。本章中所介绍的总体、个体、样本、样本分布函数、统计量、抽样分布等等均是数理统计与多元统计理论中的基本概念,也是以后各章内容的理论基础。基本内容4二抽样方法一总体个体与样本5一总体个体与样本1总体与样本定义1.1.1研究对象的全体元素的集合称为总体,组成总体的每一个元素称为个体。例如:考察某地区全体居民的情况总体个体6又如:考察一批灯泡的质量情况总体个体实际上,我们考察的是总体的某项指标,如:考察某地区全体居民的身高情况或体重情况考察一批灯泡的寿命情况7因此,一般来说,实际上我们只关心总体的某项数量指标,而这个数量指标的取值通常为一个随机变量,例如:某人的身高数据,其测量值在某个值附近波动;某个灯泡的寿命值总在0到无穷之间,在实验之后才能知道其确切取值;所以可把这些总体的数量指标视为随机变量,称之为总体X,而相应的个体,即研究对象的每一个个体的数量指标也视为随机变量X1,X2,…8例1.1.1考察某地区全体居民的身高情况,则该地区的所有人的身高便构成一个总体X,而每一个人的身高就是一个个体X1,X2,…。例1.1.2考察一批灯泡的寿命情况,则该一批所有灯泡的寿命全体便构成一个总体X,而每一个灯泡的寿命便构成一个个体X1,X2,…。注意:若研究的数量指标不止一个时,则对应分为几个总体进行研究。9为研究总体的数量指标的统计特性,我们需要从总体中抽出若干个体来进行统计分析,这种方法叫做抽样,抽出的部分个体称为样本,组成样本的个体总数为样本容量。2抽样数理统计方法的一个显著特点就是由部分个体(样本)的概率特征信息去推断总体的概率特性。因此这样抽样考虑下列两个问题:1)为什么要进行抽样,全部抽样行不行?2)抽样满足的基本要求是什么?1212,,,,,,,:nnXXXXnXXX设为取自总体的个个体如果满足定义1.1.2;,,,)1(21相互独立nXXX具有相同的分布。与XXXXn,,,)2(21简称子样或样本。的简单随机样本为总体则称,,,,21XXXXn11称为样本值。数值作一次观察所得实对样本注),,,(),,,(22121nnxxxXXX称为小样本。小时较称样本为大样本较大时样本容量注,,,1nn二抽样方法使用抽样采集数据的方式分为两类:(1)概率抽样(2)非概率抽样概率抽样也称随机抽样,即指遵循随机原则进行的抽样,总体中每一个体有一定的机会被选入样本,它具有以下几个特点:1)抽样是按一定的概率以随机的原则抽取样本,即抽样时排除主观抽取,使每一个个体都有一定的机会被选中;2)每一个个体被抽中的概率是已知的,或是可以计算出来的;3)当用样本对总体进行估计时,要考虑每个样本被抽中的概率,即估计量不仅与样本的观测值有关,也与其入样的概率有关。注意概率抽样与等概率抽样是两个概念,即概率抽样又分为等概率抽样与不等概率抽样。实际中经常采用的概率抽样方式为:1简单随机抽样简单随机抽样也称为单纯随机抽样、纯随机抽样、SRS抽样,是指从总体N个单位中任意抽取n个单位作为样本,使每个可能的样本被抽中的概率相等的一种抽样方式。一般地,设一个总体含有N个个体,如果通过逐个抽取的方法从中抽取一个样本,且每次抽取时各个个体被抽到的概率相等,则这样的抽样方法叫做简单随机抽样。简单随机抽样的特点是:每个样本单位被抽中的概率相等,样本的每个单位完全独立,彼此间无一定的关联性和排斥性。1)简单随机抽样要求被抽取的样本的总体个数N是有限的2)简单随机样本数n小于等于样本总体的个数N3)简单随机样本是从总体中逐个抽取的4)简单随机抽样常用不放回的抽样5)抽样的每个个体入样的可能性均为n/N简单随机抽样的具体作法有:直接抽选法;抽签法;随机数表法简单随机抽样最基本的抽样方法分为重复抽样和不重复抽样。在重复抽样中,每次抽中的单位仍放回总体,样本中的单位可能不止一次被抽中。不重复抽样中,抽中的单位不再放回总体,样本中的单位只能抽中一次。社会调查采用不重复抽样。2分层抽样将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立,随机地抽取样本。方法特点是:1)保证了样本中包含各种特征的抽样单位,样本结构与总体结构比较接近,从而可以有效提高估计的精度;2)便于在一定条件下组织实施调查;3)此法既可对总体参数作出估计,也可对分层目标量进行估计。3整群抽样将总体中若干个体合并为组,这样的组称为群。抽样时从多个群中直接取一群,然后对中选群中所有个体全部实施调查的抽样方法。特点是1)可大幅度减少工作量;2)减少费用,方便调查实施;3)样本量相同条件下,抽样误差较大4系统抽样将总体中所有个体按一定顺序排列,在规定的范围内随机地抽取一个个体作为初始单位,然后按事先规定好的规则确定其他样本单位。典型系统抽样是先从数字1,2,…,k之间的随机抽一个数字r作为初始单位,以后依次取r+k,r+2k,…。所以可以把系统抽样看成是总体中的个体按顺序分成k群,用概率的方法取出一群的方法。特点是1)操作实施方便;2)若有辅助信息,对总体内个体进行有组织排列,可以有效提高估计精度;3)此法对估计量的方差的估计比较困难5多阶段抽样采用类似整群抽样方法,首先取群,在中选群中再随机抽取若干个体实施调查。这里群是初级抽样单位,群里随机抽取的单位是最终抽取单位,即为二阶段抽样,将这种方法推广,抽样段数增多,就称为多阶段抽样。特点是1)样本相对集中,节约费用;2)适合大范围抽样调查概率抽样的主要优点是,可以依据调查结果,计算估计量的误差,从而得到对总体目标量进行推断的可靠程度。另一方面讲,也可以按照要求的精确度,计算必要的样本容量。非概率抽样方法包括方便抽样法,判断抽样法等,可参见统计学专业书籍。因此,统计分析的样本主要是概率抽样所得的概率样本。在有限总体下,虽然在实践中保持抽样的随机性并非易事,但原则上是可行的。而无限总体下,则无法给出随机抽样的确切含义,也无一般的实施方法。只能在抽样中尽力避免各种可能出现的系统偏差。注: