教育与心理统计课件 第七章 抽样与抽样分布

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

现代心理与教育统计学南昌大学教育学院心理李力抽样与抽样分布1、抽样及抽样方法2、三种不同性质的分布一、抽样及抽样方法(一)抽样的意义和原则1、抽样调查研究的特点和作用(1)节省人力及费用(2)节省时间,提高调查研究的时效性(3)保证研究结果的准确性2、抽样的原则——随机化原则(保证总体中的个体被抽取的可能性相等)**被抽取的样本应具有代表性和可靠性(二)抽样方法简单随机抽样分层抽样整群抽样系统抽样多阶段抽样概率抽样方便抽样判断抽样自愿样本滚雪球抽样配额抽样非概率抽样抽样方式概率抽样(probabilitysampling)1.根据一个已知的概率来抽取样本单位,也称随机抽样2.特点按一定的概率以随机原则抽取样本抽取样本时使每个单位都有一定的机会被抽中每个单位被抽中的概率是已知的,或是可以计算出来的当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率简单随机抽样(simplerandomsampling)概念:从总体N个单位中随机地抽取n个单位作为样本,使得每一个容量为样本都有相同的机会(概率)被抽中。抽取元素的具体方法a、抽签法b、随机数字法步骤:给总体元素编号确定使用起始号码登录入样号码特点简单、直观,在抽样框完整时,可直接从中抽取样本;机会均等、相互独立局限性当N很大时,不易构造抽样框抽出的单位很分散,给实施调查增加了困难没有利用其他辅助信息以提高估计的效率等距抽样——将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位。方法:——将总体元素连续编号——确定样本间的间距(N/n=K)——随机确定一个起点A(1AK)后,每隔K个单位抽取一个。分层抽样(stratifiedsampling)将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本原则:层间差异大于层内差异(层内样本差异要小;层与曾间的差异尽可能大)方法:——按各层比例分配样本元素个数——各个层次按简单随机抽样的方法抽样,产生自己的样本,最后合成整个整体例:抽样了解某年参加高考考生的语文考试成绩(科目、地区、学校类型、学校规模等要求)优点:保证样本的结构与总体的结构比较相近,从而提高估计的精度组织实施调查方便既可以对总体参数进行估计,也可以对各层的目标量进行估计整群抽样(clustersampling)1.将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查2.特点抽样时只需群的抽样框,可简化工作量调查的地点相对集中,节省调查费用,方便调查的实施缺点是估计的精度较差多阶段抽样(multi-stagesampling)1.先抽取群,但并不是调查群内的所有单位,而是再进行一步抽样,从选中的群中抽取出若干个单位进行调查群是初级抽样单位,第二阶段抽取的是最终抽样单位。将该方法推广,使抽样的段数增多,就称为多阶段抽样2.具有整群抽样的优点,保证样本相对集中,节约调查费用3.需要包含所有低阶段抽样单位的抽样框;同时由于实行了再抽样,使调查单位在更广泛的范围内展开4.在大规模的抽样调查中,经常被采用的方法5.例:从500所小学抽100名学生。先抽取50所小学,然后从每所小学抽2名学生。非概率抽样(non-probabilitysampling)1.相对于概率抽样而言2.抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查3.有方便抽样、判断抽样、自愿样本、滚雪球抽样、配额抽样等方式方便抽样1.调查过程中由调查员依据方便的原则,自行确定入抽样本的单位调查员在街头、公园、商店等公共场所进行拦截调查厂家在出售产品柜台前对路过顾客进行的调查2.优点:容易实施,调查的成本低3.缺点:样本单位的确定带有随意性,样本无法代表有明确定义的总体,调查结果不宜推断总体判断抽样1.研究人员根据经验、判断和对研究对象的了解,有目的选择一些单位作为样本有重点抽样,典型抽样,代表抽样等方式2.判断抽样是主观的,样本选择的好坏取决于调研者的判断、经验、专业程度和创造性3.抽样成本比较低,容易操作4.样本是人为确定的,没有依据随机的原则,调查结果不能用于对推断总体自愿样本1.被调查者自愿参加,成为样本中的一分子,向调查人员提供有关信息例如:参与报刊上和互联网上刊登的调查问卷活动,向某类节目拨打热线电话等,都属于自愿样本2.自愿样本与抽样的随机性无关样本是有偏的不能依据样本的信息推断总体滚雪球抽样1.先选择一组调查单位,对其实施调查之后,再请他们提供另外一些属于研究总体的调查对象,调查人员根据所提供的线索,进行此后的调查。这个过程持续下去,就会形成滚雪球效应2.适合于对稀少群体和特定群体研究3.优点:容易找到那些属于特定群体的被调查者,调查的成本也比较低配额抽样1.先将总体中的所有单位按一定的标志(变量)分为若干类,然后在每个类中采用方便抽样或判断抽样的方式选取样本单位2.操作简单,可以保证总体中不同类别的单位都能包括在所抽的样本之中,使得样本的结构和总体的结构类似3.抽取具体样本单位时,不是依据随机原则,属于非概率抽样概率抽样与非概率抽样的比较1.概率抽样依据随机原则抽选样本样本统计量的理论分布存在可根据调查的结果推断总体2.非概率抽样不是依据随机原则抽选样本样本统计量的分布是不确定的无法使用样本的结果推断总体二、三种不同性质的分布1、总体分布2、样本分布3、抽样分布1.总体中各元素的观察值所形成的分布2.分布通常是未知的3.可以假定它服从某种分布总体分布(populationdistribution)总体1.一个样本中各观察值的分布2.也称经验分布3.当样本容量n逐渐增大时,样本分布逐渐接近总体的分布样本分布(sampledistribution)样本1.从随机变量X中,随机抽取n个样本元素:x1、x2……xn则f(x1、x2……xn)的统计量分布2.例:平均数的抽样分布3.随机变量是样本统计量样本均值,样本比例,样本方差等4.结果来自容量相同的所有可能样本5.提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据抽样分布(samplingdistribution)nxxx21、nxxx21、抽样分布的形成过程(samplingdistribution)总体计算样本统计量如:样本均值、比例、方差样本1.在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布2.一种理论概率分布3.推断总体均值的理论基础样本均值的抽样分布样本均值的抽样分布【例】设一个总体,含有4个元素(个体),即总体单位数N=4。4个个体分别为x1=1,x2=2,x3=3,x4=4。总体的均值、方差及分布如下总体分布14230.1.2.3均值和方差5.21NxNii25.1)(122NxNii样本均值的抽样分布现从总体中抽取n=2的简单随机样本,采用重复抽样条件(C41*C41),共有42=16个样本。所有样本的结果为3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能的n=2的样本(共16个)样本均值的抽样分布计算出各样本的均值,如下表。并给出样本均值的抽样分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值(x)x样本均值的抽样分布1.000.10.20.3P(x)1.53.04.03.52.02.5样本均值的分布与总体分布的比较=2.5σ2=1.25总体分布14230.1.2.3抽样分布P(x)1.00.1.2.31.53.04.03.52.02.5x5.2x625.02x样本均值的抽样分布与中心极限定理=50=10X总体分布n=4抽样分布xn=165x50x5.2x当总体服从正态分布N(μ,σ2)时,来自该总体的所有容量为n的样本的均值x也服从正态分布,x的数学期望为μ,方差为σ2/n。即x~N(μ,σ2/n)中心极限定理(centrallimittheorem)当样本容量足够大时(n30),样本均值的抽样分布逐渐趋于正态分布nx中心极限定理:设从均值为,方差为2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布一个任意分布的总体xx中心极限定理x的分布趋于正态分布的过程抽样分布与总体分布的关系总体分布正态分布非正态分布大样本小样本正态分布正态分布非正态分布1.样本均值的数学期望2.样本均值的方差样本均值的抽样分布(数学期望与方差))(xEnx22比较及结论:1.样本均值的均值(数学期望)等于总体均值2.样本均值的方差等于总体方差的1/n若总体服从正态分布,μ已知,方差σ2未知。则样本平均数的抽样分布服从一个自由度df=n-1的t分布,其平均数、方差分布为:nx22)(xE例已知某单位职工的月奖金服从正态分布,总体均值为200,总体标准差为40,从该总体抽取一个容量为20的样本,求样本均值介于190~210的概率.,20,)40200(~2nNX,已知总体解,200)(xE则).80,200(~Nx于是得,8040201)(2xD)210190(xP)80200190()80200210(1)118.1(218686.027372.0t分布的定义.)(~,1/,)(~),1,0(~2ntttnnYXtnYNXYX记作分布的服从自由度为的概率密度函数则统计量随机变量,且是两个相互独立的与设t分布t分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散。一个特定的分布依赖于称之为自由度的参数。随着自由度的增大(N45),分布也逐渐趋于正态分布xt分布与标准正态分布的比较t分布标准正态分布t不同自由度的t分布标准正态分布t(df=13)t(df=5)z**标准正态分布不管n的大小,曲线只有一条,而t分布是一蔟曲线。T分布的密度函数比较复杂,因而编制了t分布表,表中列出了t变量不同自由度下的临界值)(tfOt)(nt)(tftO)(2nt22)(2nt双侧临界值表单侧临界值表2)()()()(2)(2)(nnnnttPttPtt或。满足条件为双侧或单测2)()()()(2)(2)(nnnnttPttPtt或。满足条件为双侧或单测1、t分布的特点2、t分布表的使用的概率为多少?和分布,则的服从自由度为例:已知随机变量,请确定临界值。,自由度例:已知)325.1()325.1(20805.0tPtPtXdf样本方差的分布1.在重复选取容量为n的样本时,由样本方差的所有可能取值形成的相对频数分布2.对于来自正态总体的简单随机样本,则比值的抽样分布服从自由度为(n-1)的2分布,即)1(~)1(222nsn22)1(sn2分布定义.)(~,0,00,)2(21)()1,0(,,,2222212222221221nnxxexnxfxxxNxxxxnnnn记为分布的服从自由度为称密度为的分布个样本,统计量的一是来自标准正态总体设.,)2(其值可以查表求得函数称为其中n1.分布的变量值始终为正2.分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称3.期望为:E(2)=df,方差为:D(2)=2df4.可加

1 / 48
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功