《抽样技术》习题答案(老杜)

逍遥小路
1 ℃
2020-01-09

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

1第2章2.1解：1这种抽样方法是等概率的。在每次抽取样本单元时，尚未被抽中的编号为1～64的这些单元中每一个单元被抽到的概率都是1100。2这种抽样方法不是等概率的。利用这种方法，在每次抽取样本单元时，尚未被抽中的编号为1～35以及编号为64的这36个单元中每个单元的入样概率都是2100，而尚未被抽中的编号为36～63的每个单元的入样概率都是1100。3这种抽样方法是等概率的。在每次抽取样本单元时，尚未被抽中的编号为20000～21000中的每个单元的入样概率都是11000，所以这种抽样是等概率的。2.2解：项目相同之处不同之处定义都是根据从一个总体中抽样得到的样本，然后定义样本均值为_11niiyyn。抽样理论中样本是从有限总体中按放回的抽样方法得到的，样本中的样本点不会重复；而数理统计中的样本是从无限总体中利用有放回的抽样方法得到的，样本点有可能是重复的。性质(1)样本均值的期望都等于总体均值，也就是抽样理论和数理统计中的样本均值都是无偏估计。(2)不论总体原来是何种分布，在样本量足够大的条件下，样本均值近似服从正态分布。(1)抽样理论中，各个样本之间是不独立的；而数理统计中的各个样本之间是相互独立的。(2)抽样理论中的样本均值的方差为21fVySn，其中2_211iSYYN。在数理统计中，21Vyn，其中2为总体的方差。2.3解：首先估计该市居民日用电量的95%的置信区间。根据中心极限定理可知，在大样本的条件下，_yEyyYVyVy近似服从标准正态分布，_Y的195%的置信区间为22,1.96,1.96yzVyyzVyyVyyVy。2而21fVySn中总体的方差2S是未知的，用样本方差2s来代替，置信区间为111.96,1.96ffysysnn。由题意知道，_29.5,206ys，而且样本量为300,50000nN，代入可以求得_21130050000()2060.6825300fvysn。将它们代入上面的式子可得该市居民日用电量的95%置信区间为7.8808,11.1192。下一步计算样本量。绝对误差限d和相对误差限r的关系为_drY。根据置信区间的求解方法可知______11yYrYPyYrYPVyVy根据正态分布的分位数可以知道__21yYPZVy，所以2_2rYVyz。也就是2_2_222/221111rYrYSnNzSnNz。把_29.5,206,10%,50000ysrN代入上式可得，861.75862n。所以样本量至少为862。2.4解：总体中参加培训班的比例为P，那么这次简单随机抽样得到的P的估计值p的方差111fNVpPPnN，利用中心极限定理可得pPVp在大样本的条件下近似服从标准正态分布。在本题中，样本量足够大，从而可得P的195%的置信区间为22,pzVppzVp。而这里的Vp是未知的，我们使用它的估计值3^5119.652101fVpvpppn。所以总体比例P的195%的置信区间可以写为22,pzvppzvp，将0.35,200,10000pnN代入可得置信区间为0.2844,0.4156。2.5解：利用得到的样本，计算得到样本均值为2890/20144.5y，从而估计小区的平均文化支出为144.5元。总体均值_Y的195%的置信区间为22,yzVyyzVy，用21fvysn来估计样本均值的方差Vy。计算得到2826.0256s，则2110.1826.025637.17220fvysn，21.9637.17211.95zVy，代入数值后计算可得总体均值的95%的置信区间为132.55,156.45。2.6解：根据样本信息估计可得每个乡的平均产量为1120吨，该地区今年的粮食总产量Y的估计值为_^535035011203.9210Yy（吨）。总体总值估计值的方差为2^21NfVYSn，总体总值的195%的置信区间为^^^^22,YzVYYzVY，把^523.9210,25600,50,350,YSnN2,1.96nfzN代入，可得粮食总产量的195%的置信区间为377629,406371。2.7解：首先计算简单随机抽样条件下所需要的样本量，把21000,2,195%,68NdS带入公式2022/211dnNzS，最后可得061.362n。如果考虑到有效回答率的问题，在有效回答率为70%时，样本量应该最终确定为070%88.5789nn。2.8解：去年的化肥总产量和今年的总产量之间存在较强的相关性，而且这种相关关系较为稳定，所以引入去年的化肥产量作为辅助变量。于是我们采用比率估计量的形式来估计今年的化肥总产量。去年化肥总产量为2135X。利用去年的化肥总产量，今年的化肥4总产量的估计值为_^^_2426.14RyYRXXx吨。2.9解：本题中，简单估计量的方差的估计值为21fvysn=37.17。利用比率估计量进行估计时，我们引入了家庭的总支出作为辅助变量，记为X。文化支出属于总支出的一部分，这个主要变量与辅助变量之间存在较强的相关关系，而且它们之间的关系是比较稳定的，且全部家庭的总支出是已知的量。文化支出的比率估计量为_____^_RyyRXXx，通过计算得到2890/20144.5y，而_1580x，则_^_144.50.09151580yRx，文化支出的比率估计量的值为_146.3Ry（元）。现在考虑比率估计量的方差，在样本量较大的条件下，22212RRxxfVyMSEySRSSRSn，通过计算可以得到两个变量的样本方差为224826,9.95810xss，YX和之间的相关系数的估计值为^0.974，代入上面的公式，可以得到比率估计量的方差的估计值为_1.94Rvy。这个数值比简单估计量的方差估计值要小很多。全部家庭的平均文化支出的195%的置信区间为22,1.96,1.96RRRRRRRRyzvyyzvyyvyyvy，把具体的数值代入可得置信区间为143.57,149.03。接下来比较比估计和简单估计的效率，__1.940.05237.17RRVyvyVyvy，这是比估计的设计效应值，从这里可以看出比估计量比简单估计量的效率更高。2.10解：利用简单估计量可得1630/10163iyyn，样本方差为2212.222s，120N，样本均值的方差估计值为21110/120212.22219.453710fvysn。利用回归估计的方法，在这里选取肉牛的原重量为辅助变量。选择原重量为辅助变量是合理的，因为肉牛的原重量在很大程度上影响着肉牛的现在的重量，二者之间存在较强的相关性，相关系数的估计值为^0.971，而且这种相关关系是稳定的，这里肉牛的原重量的数值已经得到，所以选择肉牛的原重量为辅助变量。回归估计量的精度最高的回归系数的估计值为^^14.5680.9711.36810.341xss。5现在可以得到肉牛现重量的回归估计量为___^lryyXx，代入数值可以得到_159.44lry。回归估计量_lry的方差为__2211lrlrfVyMSEySn，方差的估计值为2_^211lrfvysn，代入相应的数值，2_^2111.112lrfvysn，显然有_lrvyvy。在本题中，因为存在肉牛原重量这个较好的辅助变量，所以回归估计量的精度要好于简单估计量。第3章3.1解：在分层随机抽样中，层标志的选择很重要。划分层的指标应该与抽样调查中最关心的调查变量存在较强的相关性，而且把总体划分为几个层之后，层应该满足：层内之间的差异尽可能小，层间差异尽可能大。这样才能使得最后获得的样本有很好的代表性。对几种分层方法的判断如下：(1)选择性别作为分层变量，是不合适的。首先，性别这个变量与研究最关心的变量(不同职务，职称的人对分配制度改革的态度)没有很大的相关性；其次，用性别作为分层变量后，层内之间的差异仍然很大，相反，层之间的差异不是很大，因为男性和女性各自内部的职务，职称也存在很大的差别；最后，选择性别作为分层变量后，需要首先得到男性和女性的抽样框，这样会更加麻烦，也会使抽样会变得更加复杂。(2)按照教师、行政管理人员和职工进行分层，是合适的。这种分层的指标与抽样调查研究中最关心的变量高度相关，而且按照这种方法分层后，可以看出层内对于分配制度改革的态度差异比较小，因为他们属于相同的阶层，而层之间的态度的差异是比较大的。这样选取出来的样本具有很好的代表性。(3)按照职称（正高、副高、中级、初级和其他）分层，也是合理的。理由与（2）相同，这样进行分层的变量选择与调查最关心的变量是高度相关的，分层后的层满足分层的要求。所以，按照职称进行分层是合理的。(4)按照部门进行分层，是合理的。因为学校有很多院、系或者所，直接进行简单随机抽样，有可能样本不能很好地代表各个院系，最关心的变量与部门也存在一定的相关性。这样分层后，每个层的总体数目和抽取的样本量都较小，最终的样本的分布比较均匀，比简单随机抽样更加方便实施。3.2解：设计的方案如下：第一种方案：可以按照不同的专业进行分层，但是考虑到如果在每层都抽取，不能保证每个新生的入样概率相等，因为每个专业的人数比例未知，8个人的样本量无法在每个层之6间进行分配。所以采取如下方法：对所有的新生按照专业的先后顺序进行编号，使得每个专业的人的编号在一起，然后随机选取出一个号码，然后选取出这个号码所在的专业，选取出这个专业，再在这个专业的所有新生中按照简单随机抽样的方法选取出8个人。这样就可以保证每个人入选的概率是相等的。第二种方案：也可以按照性别进行分类，对他们进行编号，为1～800，使得男生的编号都在一起，女生的编号也都在一起，然后随机选取出一个号码，然后看这个号码所对应的性别，然后从这个性别的所有人中按照简单随机抽样的方法选取出8个新生。这样就可以保证所有的新生的入样概率是相同的。第三种方案：随机地把所有的人分成8组，而且使得每组的人都是100个人，这样分组完成后，每个组的新生进行编号为1～100，然后随机抽取出一个号码，再从所有的小组中抽取出号码所对应的新生，从而抽取出8个人。3.3解：(1)首先计算出每层的简单估计量，分别为___12311.2,25.5,20yyy，其中，123256,420,168,844NNNN，则每个层的层权分别为；3121230.3033,0.4976,0.1991NNN则利用分层随机抽样得到该小区居民购买彩票的平均支出的估计量__hhstyWy，代入数值可以得到__20.07hhstyWy。购买彩票的平均支出的的估计值的方差为3_2211hhhsthhfVyWSn，此方差的估计值为3_2211hhhsthhfvyWsn，根据数据