中国人民大学同等学力申请硕士学位课程考试试题课程代码:123105课程名称:抽样技术与方法试题卷号:1名词解释非概率抽样非概率抽样又称为非随机抽样,是调查者根据自己的方便或主观判断抽取样本的方法,其最主要的特征是抽取样本时并不依据随机原则。包含有判断选样、方便抽样、自愿样本、配额抽样等。最优分配在分层随机抽样中,对于给定的费用,使估计量的方差V(y_st)达到最小,或者对于给定的估计量方差V,使总费用达到最小的各层样本量的分配,称为最优分配。PPS抽样是有放回的按规模大小成比例的概率抽样。其抽选样本的方法有代码法、拉希里方法等。PPS抽样是按概率比例抽样,属于概率抽样中的一种。是指在多阶段抽样中,尤其是二阶段抽样中,初级抽样单位被抽中的机率取决于其初级抽样单位的规模大小,初级抽样单位规模越大,被抽中的机会就越大,初级抽样单位规模越小,被抽中的机率就越小。就是将总体按一种准确的标准划分出容量不等的具有相同标志的单位在总体中不同比率分配的样本量进行的抽样。自加权样本指调查中每个样本单元的设计权数是相同的,也就是说每个单元最终入样的概率是相等的。在不考虑非抽样误差的情况下,可以认为自加权样本完全代表总体,因为每个样本单元都代表了总体中相同数目的单元。(此时可以使用标准统计方法来进行点估计。此外,自加权样本往往方差较小,样本统计量更稳健)简述题有人认为“抽样调查除了调查误差以外,还有抽样误差,因此抽样调查不如全面调查准确”,请对此加以评价。一项调查的误差来自多个方面,抽样调查因为只调查总体中的一小部分,用部分的调查结果推断总体,所以存在着抽样误差,但这只是所有误差中的一部分。对于抽样调查,误差包括抽样误差和非抽样误差。有些情况下,全面调查由于参与的人员众多、涉及范围大,因此虽然没有抽样误差,但在数据采集和数据汇总整理的过程中却有产生其他误差的更大可能性,所以调查规模并不是越大越好。与全面调查相比,抽样调查的工作量小,这就为使用素质较高的工作人员并对他们进行深入的培训创造了条件。此外,如果能对调查过程实施更为细致的监督、检查和指导,可以使抽样调查所得到的数据质量比同样的全面调查数据质量更高,从而使调查的总误差更小。试对分层抽样中的联合比率估计和分别比率估计方法进行比较。如果每一层都满足比率估计量有效的条件,则除非Rh=R,都有分别比率估计量的方差小于联合比率估计量的方差。但当每层的样本量不太大时,还是采用联合比率估计量更可靠些,因为这时分别比率估计量的偏倚很大,从而使总的均方误差增大。实际使用时,如果各层的样本量都较大,且有理由认为各层的比率Rh差异较大,则分别比率估计优于联合比率估计。当各层的样本量不大,或各层比率Rh差异很小,则联合比率估计更好些。此外,联合比估计不像分别比那样需要已知每层的辅助信息Xh。计算题某住宅区调查居民的用水情况,该区共有N=1000户,调查了n=100户,得y_=12.5吨,s2=1252,有40户用水超过了规定的标准。要求计算:(1)该住宅区总的用水量及95%的置信区间;(2)若要求估计的相对误差不超过10%,应抽多少户作为样本?(3)以95%的可靠性估计超过用水标准的户数;(4)若认为估计用水超标户的置信区间过宽,要求缩短一半应抽多少户作为样本?【解】已知N=1000,n=100,f=𝑛𝑁=1001000=0.1,y_=12.5,s2=1252(1)估计该住宅区总的用水量Y为:Y^=Ny_=1000*12.5=12500吨估计该住宅区总的用水量Y的方差和标准差为:V(Y^)=N2v(y_)=N21−𝑓𝑛s2=10002*1−0.1100*1252=11268000s(Y^)=SQRT(v(Y^))=√11268000≈3356.7842因此,在95%的置信度下,该住宅总的用水量的置信区间估计为:Y^±z0.025s(Y^)=12500±1.96*3356.7842≈12500±6579即,我们可以以95%的把握认为该住宅总的用水量在5921吨~19079吨之间。(2)根据题意,要求估计的相对误差不超过10%,即r≤0.1,假定置信度为95%根据公式:n0=𝑧2𝑠2𝑟2𝑦2=1.962×12520.12×12.52≈3078由于𝑛0𝑁=3.0780.05,所以需要对n0进行修正:n=𝑛01+𝑛0/𝑁=30781+3.078≈755若要求估计的相对误差不超过10%,应抽不少于755户作为样本。或:n0=1/(1/N+d2/(zα/22s2))≈755(d=ry_=1.25)(3)令超过用水标准的户数为A,样本中超过用水标准的户数为a=40,估计超过用水标准的比例p为:p=a/n=40/100=40%估计超过用水标准的比例p的方差和标准差为:v(p)=1−𝑓𝑛−1p(1-p)=1−0.1100−1*40%*60%≈0.002182s(p)=√𝑣(𝑝)=√0.002182≈4.67%在95%的可靠性下,超过用水标准的比例p的估计区间为:p±z0.025s(p)=40%±1.96*4.67%因此,我们有95%的把握认为,超过用水标准的比例p在30.85%-49.15%之间,超过用水标准的户数的点估计为:1000*40%=400户,超过用水标准的户数在1000*30.85%户~1000*49.15%户之间,即309户~492户之间。或:p±z0.025√(𝟏−𝒇𝒏−𝟏𝒑(𝟏−𝒑)代入得(0.3089,0.4911)(4)若要置信区间的宽度缩小为原来一半,即要求应抽取的户数n满足方程z0.025√𝟏−𝒇𝒏−𝟏𝒑(𝟏−𝒑)=1/2*z0.025√𝑣(𝑝)≈0.045766代入数据解得n=306.25≈306户。为估计市区人均居住面积,按与各区人数呈比例的概率从12个区中抽了4个区,经调查的数据如下:样本区号区居住面积(米2)人口数12835326604746216709964560353183522647098142895058585257试对市区人均居住面积作点估计和置信度为95%的区间估计。【解】设居住面积为Y,人口数为X,N=12,n=4,f=n/N=1/3。人均居住面积点估计值为R^=r=∑𝑦𝑖41∑𝑥𝑖41=92366062117019≈4.363米2/人.sy2=1𝑛−1∑(𝑦𝑖−𝑟𝑥𝑖)2𝑛1=13∑(𝑦𝑖−𝑟𝑥𝑖)241=13[(2835326-4.363*604746)2+(1670996-4.363*456035)2+(1835226-4.363*470981)2+(2895058-4.363*585257)2)≈101742707182.336373V(R^)=V(r)≈1𝑥21−𝑓𝑛1𝑛−1∑(𝑦𝑖−𝑟𝑥𝑖)2𝑛1=1−1/34×𝑠𝑦2𝑥2≈16*101742707182.33637370027647599.390625≈0.24215s(R^)=√V(r)=√0.24215≈0.492因此置信度为95%的区间估计为:4.363±1.96*0.492,即(3.3987,5.3273)试题卷号:2名词解释概率抽样也称随机抽样,是指依据随机原则,按照某种事先设计的程序,从总体中抽取部分单元的抽样方法。(概率抽样就是使总体中的每一个单位都有一个已知的、不为零的概率进入样本的抽样方法。)具体说来,概率抽样具有以下几个特点:(1)按一定的概率以随机原则抽取样本。(2)每个单元被抽中的概率是已知的,或是可以计算出来的。(3)当用样本对总体目标量进行估计时,要考虑到该样本(或每个样本单元)被抽中的概率。也就是说,估计量不仅与样本单元的观测值有关,也与其入样概率有关。概率抽样最主要的优点是,可以依据调查结果计算抽样误差,从而得到对总体目标量进行推断的可靠程度。从另一方面讲,也可以按照要求的精确度,计算必要的样本单元数目。因此,概率抽样可以排除调查者的主观影响,抽选出较其他方法更具代表性的样本。事后分层又称抽样后分层,是对一个总体先进行简单随机抽样或系统抽样,抽取一个样本量为n的样本,然后对样本中的单元按某些特征进行分层并进行分层抽样估计。πPS抽样是不放回的与单元大小成比例的概率抽样(该抽样方法是在总体抽取样本时,借助总体单元大小或规模(Mi)的辅助变量来确定单元入样概率(Zi)或包含概率(πi,πij)的方法)随机化回答在调查中当一个问题是敏感性的或高度私人机密性的,则就会发生拒绝回答或回避回答的情况。为了获得对这类问题总体比例进行估计的资料,就需要采用随机化的方式来获取回答信息并进行估计的技术,我们称之为随机化回答。简述题什么是抽样框?简述抽样框的类型和作用,以及良好抽样框的标志。总体的具体表现是抽样框。通常,抽样框是一份包含所有抽样单元的名单,给每一个抽样单元编上一个号码,就可以按一定的随机化程序进行抽样。抽样框又称“抽样框架”、“抽样结构”,是指对可以选择作为样本的总体单位列出名册或排序编号,以确定总体的抽样范围和结构。设计出了抽样框后,便可采用抽签的方式或按照随机数表来抽选必要的单位数。若没有抽样框,则不能计算样本单位的概率,从而也就无法进行概率选样。抽样框有不同类型:名录框(总体中所有单元实际的名录清单,如在校学生名单、企业名册、电话号码簿等)、区域框(其单元由地理区域构成的集合,抽样总体由这些地理区域组成)、自然框(把相关的自然现象概念(如时间、距离等)作为抽样框使用)。抽样框对抽样调查具有十分重要的作用。1)首先,抽样框是代表总体进行抽样的,抽样框的缺陷会造成目标总体与调查总体不一致,在估计中出现偏差;2)其次,抽样框中的联系资料是用来确定总体单元所在的位置和联系地址的,如果出现错误,可能会产生无法联系而造成无回答;3)抽样框中的辅助资料可以用来进行分层等以改进抽样设计或改进估计方法,以提高抽样效率。因此完备的抽样框是做好抽样调查的前提条件。良好抽样框的标志是具有充分的辅助信息、目标总体和抽样总体完全重合,也就是目标总体单元和抽样总体单元完全呈一一对应的关系。具体来讲:1)关联性,指抽样框与目标总体的对应程度,要求两者之间尽可能地关联;2)准确性,涵盖误差尽可能小,分类是否准确?联系资料是否完整?辅助资料是否齐全等;3)时效性,抽样框是否及时更新;4)最后还可以从建立抽样框的费用进行评估。对多阶段抽样中自加权的有关问题进行论述。由于不等概率抽样往往不满足自加权,因此在多阶段抽样中,最后一阶按等概率(如SRS等)抽取最终单元(USU),其它阶段采用PPS,且各阶段样本量对不同单元都等于常数,则所得样本是自加权的。计算题从某农村的200户中随机等概率(无放回)抽取50户,发现其中8户有自行车,这8户人数分别为3,5,3,4,7,4,4,5人。根据这一资料要求:(1)估计该村具有自行车的户数及其估计精度;(2)估计该村具有自行车的总人数及其估计精度。【解】由已知得:N=200,n=50,f=n/N=0.25总体中具有自行车户数的比例为P(1)这次简单随机抽样得到的P的估计值p=8/50=0.16,即具有自行车的户数估计值Y^=Np=0.16*200=32.所以总体比例P在95%情况下的置信区间可以写为:p±z0.025√𝑣(𝑝)其中v(p)=1−𝑓𝑛−1𝑝(1−𝑝)≈0.002057,v(Y^)=v(Np)=N2v(p)=82.28故P的置信区间:0.16±1.96*√0.002057=0.16±0.0889。所以户数的置信区间为:200*(0.16±0.0889)即[14,50](2)有自行车家庭人数M,则n0=8,m_=1𝑛0∑𝑚𝑖81=4.375,从而具有自行车的总人数估计值为M^=Y^m_=32*4.375=140。s2=1𝑛0−1∑(𝑚𝑖−𝑚)2𝑛01≈1.696则V(m_)=1−𝑓𝑛s2=1−0.258*1.696=0.159,因此V(M^)=V(Y^m_)=Y^2V(m_)=322*0.159=162.816s(M