調查分析預測MRAF1第10章抽样估计与样本量确定調查分析預測MRAF2开篇案例“百脑汇”调研中的样本计划问题•“百脑汇”在中国华北几个省市经营连锁电脑超市,它希望获得更多关于其现有客户特点方面的信息。接受调研委托的李文博士指派班上的王洪同学为样本计划小组的负责人。•通过与“百脑汇”的市场部经理乔兰的初次会谈,王洪了解到调研的一个主要目的是分别按人口和心理因素来估计“百脑汇”的客户构成和比例。此外,确认总体估计值不超过实际值的±5.0%,可靠度为95%。•为了达到这些要求,王洪和他的小组正努力寻找计算所需样本容量的方法。調查分析預測MRAF310.1引言•估计就是根据从样本中收集的信息对总体未知量进行推断的过程。•抽样估计涉及的重要问题:–一个样本单元的设计权数问题。–抽样估计,包括总体总量、均值和比例以及抽样误差的估计。–样本量的确定构成抽样设计程序的重要步骤和内容。同时,样本量的确定与样本估计值的精度密不可分。調查分析預測MRAF410.2加权及权数调整•设计权数–设计权数是指每个样本单元所代表的调查总体的单元数,它是由抽样设计所决定的,通常以wd表示。确定设计权数是估计的第一步。•加权估计–设计权数其实就是样本单元的入样概率的倒数。假如入样概率是1/10,那么每个入选样本代表总体中的10个单元,此时设计权数即为10。–不同样本单元的设计权数可能不同,这取决于抽样设计。因此,加权估计应区分等概率抽样的加权和不等概率抽样的加权。調查分析預測MRAF5等概率抽样的加权•当每个单元都有相同的入样概率时,所有样本单元的设计权数都相同,这种抽样就是自加权设计。–SRS抽样和SYS抽样都属于自加权设计,比例分层抽样也是自加权设计。–另外,PPS等也可以设计为一个自加权抽样。•对于自加权抽样设计,如果无需对权数调整,则在计算比例、均值等估计量时可将其忽略,对总值估计也仅需将样本总值乘上某个倍数。調查分析預測MRAF6不等概率抽样的加权•自加权设计并不总是可行的。如,在使用分层抽样进行一个全国调查时,可能需要采用纽曼分层。•当所采用的抽样设计不是等概率时,正确地使用设计权数就显得尤为重要。•[例10.2]有关各层总体数和样本数资料见表10-1。对于这项调查,被调查者的设计权数是多少呢?收入层次各层单位数样本数量设计权数高收入层200033.3wd,1=N1/n1=2000/33.3=60.1中收入层12000133.3wd,2=N2/n2=12000/133.3=90.0低收入层600033.3wd,3=N3/n3=6000/33.3=180.2調查分析預測MRAF7设计权数的调整•上述等概率抽样的加权和不等概率抽样的加权都是加权的基本形式。•权数估计常会遇到更真实和复杂的情况:–考虑无回答的情况,然后对权数做出调整;–考虑来自其他渠道的、更具权威性的某些辅助信息,将它们合并到权数中。調查分析預測MRAF8对无回答的权数调整•单元无回答是指一个样本单元几乎所有的数据都缺失。简单的处理办法是忽略它。然而,如果发现忽略单元无回答是不适当的,则应该对权数进行调整。即,–设计权数×无回答调整因子=无回答的调整权数•无回答调整因子是原样本单元的权数和与给出回答的单元的权数和的比值。对于自加权设计,该比值可用原样本的单元数与给出回答的单元数的比值来表示。•无回答权数调整应区分两种不同情况:–等概率抽样–不等概率抽样調查分析預測MRAF9对无回答的权数调整(SRS)•[例10.3]从一个N=100人的总体中抽取一个n=25人的简单随机样本。记回答单元的数量为nr,结果显示只有20个人提供了所需的信息。那么,此时无回答的调整权数是多少?步骤1:计算设计权数。入样概率p为:P=n/N=25/100=1/4故,每个样本单元的设计权数为4。步骤2:计算无回答调整因子。由于在n=25人中只有nr=20人提供了所需的信息,最终样本量应为20。假定回答单元不仅能代表回答单元且能代表无回答单元,计算无回答调整因子为:n/nr=25/20=1.25步骤3:计算无回答的调整权数。无回答的调整权数wnr等于设计权数与无回答调整因子的乘积:525.14nnwwrdnr調查分析預測MRAF10对无回答的权数调整(STR)•[例10.4]对于一项公共交通系统调查,总体由1100人组成,并按城乡分为两个层。分层及样本数据如表10-2所示。那么,回答者的权数是多少?表10-2公交系统调查的分层数据层总体大小样本量回答者数量城市N1=1000n1=200nr,1=150农村N2=100n2=50nr,2=40步骤1:各层的设计权数为:城市层wd,1=N1/n1==5农村层wd,2=N2/n2==2步骤2:调整以弥补无回答。各层的无回答调整因子计算如下:城市层:n1/nr,1==200/150==1.33农村层:n2/nr,2==50/40==1.25步骤3:无回答的调整权数等于设计权数与无回答调整因子的乘积:城市层:农村层:67.633.15nnwwr,11d,1nr,15.225.12nnwwr,22d,2nr,2調查分析預測MRAF11使用辅助信息调整权数•为什么要使用辅助信息来调整权数呢?–首先,使调查的估计值与已知总体总值相匹配。例如,使用最新的人口普查数据来调整估计值,以确保这些估计值(如年龄、性别分布等)的一致性。–二是为了提高估计值的精度。将辅助信息与抽样设计相结合,将有助于提高估计的精度。•要想在调查设计阶段使用辅助信息,抽样框中的所有单元都必须具备这个辅助信息。否则,就只能在数据收集上来后,在估计阶段利用辅助信息提高估计值的精度。調查分析預測MRAF12使用辅助信息调整权数•[例10.5]为得到某公司职员是否有吸烟习惯的信息,进行了一项调查。从N=780人的名录中抽出了一个n=100人的简单随机样本。•在收集有关吸烟习惯信息时,收集了每个回答者的年龄和性别情况,且100人都做出了回答,由此得到样本数据的分布如表10-3所示:事后分层估计值男性女性总计吸烟人数16447211总人数360420780吸烟者比例0.4550.1110.271回答者数量男性女性总计吸烟人数25530总人数5545100(nr)调查的估计值男性女性总计吸烟人数19539234总人数429351780吸烟者的比例0.4550.1110.30表10-5利用辅助信息对抽样调查估计值的调整表10-3某公司吸烟习惯抽样调查数据表10-4根据某公司吸烟习惯抽样计算的估计值[例10.5]计算过程步骤1:设计权数是入样概率的倒数,设计权数计算如下:wd=N/n=780/100=7.8步骤2:利用设计权数,计算得到调查估计值,如表10-4所示。估计公司男女性职员各有429名和351名,且吸烟比例不同。假定调查完成后,得到如下辅助信息:该公司实际共有360名男性职员和420名女性职员。如何利用这个辅助信息呢?步骤3:对样本分层,计算事后分层权数用于估计。事后分层权数Wpst是事后层的辅助变量总和除以该层回答单元的数量。其中,男性的事后分层权数为:女性的事后分层权数为:在抽样后利用辅助信息计算分层权数用于估计,估计值如表10-5。55.655360nNwr,pst,男性男性男性33.945420nNwr,pst,女性女性女性調查分析預測MRAF1310.3抽样分布与抽样误差•抽样调查的目的是要对总体做出推断。•了解统计推断的理论基础,首先注意区分三种不同性质的分布:–总体分布–样本分布–抽样分布•同时,特别注意总体分布与抽样分布的关系。調查分析預測MRAF14三种不同性质的分布•总体分布:总体各单位的观察值所形成的频数分布,总体分布通常是未知的。•样本分布:一个样本中各个观察值所形成的频数分布就叫做。当样本容量n逐渐增大时,样本分布逐渐接近总体的分布。•抽样分布:样本统计量的抽样分布,是指在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布。抽样分布是一种理论分布。•抽样分布提供了样本统计量长远而稳定的信息,是进行推断的理论基础。分布类型均值比例标准差总体分布样本分布抽样分布XPSxPXSPS表10-6各种分布的均值、比例和标准差的符号表示調查分析預測MRAF15样本均值的抽样分布•样本均值的抽样分布,是指在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布。•[例10.6]设一个总体,含有4个元素,即总体单位数N=4。4个个体分别为x1=1,x2=2,x3=3,x4=4。则总体分布如图10-1。•现在从总体中有放回地抽取n=2的简单随机样本,则样本均值的抽样分布如图10-2。調查分析與預測調查分析與預測MRAFMRAF从总体分布到抽样分布[例10.6]设一个总体,含有4个元素(个体),即总体单位数N=4。4个个体分别为x1=1,x2=2,x3=3,x4=4。可以计算总体均值、方差及其分布。总体均值2.544321NxN1ii总体方差25.1N)x(N1i2i2图10-1例10.6中的总体分布0.30.20.101.02.03.04.0P(x)x調查分析預測MRAF16均值抽样分布的规律比较样本均值的分布与总体分布,得出如下结论:(1)样本均值的数学期望等于总体均值,即E()=μ。(2)在重复抽样条件下,样本均值的方差等于总体方差的1/n,或者说,样本均值的标准误。(3)如果总体服从正态分布,即x~N(μ,σ2),那么样本均值也服从正态分布,即~N(μ,σ2/n)。(4)如果总体不服从正态分布,那么当样本量足够大时,样本均值也服从正态分布。中心极限定理,概括为:设从均值为、方差为2的一个任意总体中随机抽取容量为n的样本,当n足够大(n30)时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布。xnSxxx調查分析預測MRAF17样本比例的抽样分布•样本比例的抽样分布,是在重复抽取容量为n的样本时,由样本比例的所有可能取值形成的相对频数分布。•比较样本比例的分布与总体分布,得出如下结论:–当样本容量足够大时,样本比例的抽样分布近似地服从正态分布,样本比例的数学期望等于总体比例,即E(p)=π;在重复抽样条件下,样本比例的方差为总体方差的1/n,即•样本比例的中心极限定理–设从比例为π、方差为2的一个任意总体中随机抽取容量为n的样本,当n足够大(n30)时,样本比例的抽样分布近似服从比例为π、方差为(1-)/n的正态分布。样本比例的方差:n)1(S2p样本比例的标准误:n)1(Sp調查分析預測MRAF18正态分布及标准值Z在大样本情况下,测得智商(IQ)分数的分布如图10-3所示,这是一个平均数为100、标准差为15的典型正态曲线。557085100115130145IQ13.59%13.59%34.13%34.13%2.14%2.14%图10-3智商(IQ)分数的正态分布示例•正态分布有以下几个重要特征:–正态曲线呈钟形,曲线下的面积等于1,表明它包括了所有的调查结果。–在正态曲线下任意两个变量值之间的面积,等于在这一范围内随机抽取一个观察对象的概率。例如,任意抽取一个样本单元,IQ分数落在55-145之间的概率是99.72%,即图10-3中正态曲线下55-145之间的面积。–所有的正态分布在平均数±1个标准差之间的面积相同,都占曲线下方面积的68.26%。这是正态分布的比例性,为统计推断提供了基础。–一个正态分布的特殊性由其平均数和标准差决定。調查分析預測MRAF19标准正态分布•标准正态分布是一种平均值等于0、标准差等于1的正态分布(如图10-4)。•研究者可以将任何正态变量X转换为标准正态变量值(标准值)Z。计算方法就是,用将要进行转换的值中减去均值,然后再除以标准差。即•求出标准值Z之后,就可以查阅正态分布表(附录B-2),得到Z值的标准正态分布曲线下的面积(概率)。标准正态曲线下的面积-3-2-10123Zμ0.10.20.30.