抽样调查作业二R语言

ikewang
2 ℃
2019-12-30

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

抽样调查学号：2013104874姓名：孙影莉班级：统计学131一、作业要求：1、利用R软件进行相关运算，给出运算结果；2、逐一给出每题的R代码及其相应的运行结果；3、作业以word文档提交，命名格式为“学号姓名作业二”。二、作业题目：P104.3.3题：某居委会辖有三个居民新村，居委会欲对居民购买彩票的情况进行调查。调查者考虑以新村分层，在每个新村中随机抽取了10个居民户并调查每户最近一个月购买彩票所花费的金额（元），结果列于下表:新村居民用户123456789101256101020201001030202420203510500405010202031680200303050400300问题：（1）试估计该小区居民户购买彩票的平均支出，并给估计的标准差。（2）当置信度为95%，要求极限相对误差不超过10%时，按比例分配和按内曼分配时样本量及各层的样本量分别为多少？解答：（1）首先计算出每层的简单估计量:ybar1、ybar2、ybar3=分别为,其中，N1、N2、N3分别为：，N=。然后求出每层的层权w1、w2、w3分别为：利用分层随机抽样得到该小区居民购买彩票的平均支出的估计量ybar=购买彩票的每层的平均支出样本方差sh1^2、sh2^2、sh3^2为：然后fh1、fh2、fh3分别得：(Nh*yh)1、(Nh*yh)2、(Nh*yh)分别是：总和为：根据以上数据整理成表格为：hnhNhfhwhyhNhyhsh21102560.03910.303311.22867.294.42104200.02380.497625.510710302.53101680.05950.1991203360355.6总计30844116937.2然后求得方差的估计值为vybar=则估计的标准差为sybar=（2）a、比例估计：总体n=,n1、n2、n3分别为：n、n1、n2、n3分别约等于:185、56、92、37b、内曼估计：总体n=,n1、n2、n3分别为：n、n1、n2、n3分别约等于:175、33、98、42代码如下：setwd('C:\\Users\\user\\Desktop\\新建文件夹')dat-read.csv('syl3.3.csv',header=F)View(dat)alpha-0.05nh-10Nh-dat[,2]N-sum(Nh)Wh-Nh/Nw-sum(Wh)#检验Wh是否正确fh-nh/Nhyh-1:nrow(dat)#rep(0,nrow(dat))sh2-1:nrow(dat)yh-rowSums(dat[,3:12])/nhYh-Nh*yhY-crossprod(Nh,yh)ybar-sum(Wh*yh)var_ybar-sum(Wh^2*(1-fh)/nh*sh2)sybar-sqrt(var_ybar)for(iin1:nrow(dat)){yh[i]-mean(as.numeric(dat[i,3:12]))sh2[i]-sd(dat[i,3:12])^2}#比例分配r-0.1a-sum(Wh*sh2)b-(0.1*ybar/qnorm(1-alpha/2))^2n-a/(b+a/N)#总数n1-n*Wh#各分层样本数#内曼估计a1-sum(Wh*sqrt(sh2))n2-a1^2/(b+a/N)#总数n22-n2*Wh*sqrt(sh2)/a1#各分层样本数P104.3.4题：随着经济发展，某市民正在悄悄的改变他们的过年习惯，虽然仍有大多数选择除夕夜在家吃年夜饭、看电视节目，但也有一些家庭到饭店吃年夜饭或逛夜市，或利用春节假期到处旅游。为研究这种现象，某研究机构以市中心165万居民户作为研究对象，将居民户按6个行政区分层，在每个行政区随机抽取30户居民户进行了调查（各层抽样比可以忽略），每个行政区的情况以及在家（或亲戚家）吃年夜饭、看电视节目的居民数见下表：行政区h居民户比例Wh在家居民户nk10.182720.212830.142740.092650.162860.2229问题：（1）试估计该市区居民在家吃年夜饭的比例，并给出估计的标准差。（2）当置信度为95%，要求极限绝对误差不超过1%时，按比例分配和内曼分配时总样本量及各层的样本量分别为多少？解答：（1）：首先计算得到每层在家中吃年夜饭的样本比例分别为：那么根据每一层的层权，计算得到该市民在家吃年夜饭的样本比例为：Pst=每一层在家吃年夜饭的样本比例的方差为：V(Pn)=样本比例方差的估计值为：V（Pst）=该估计值的标准差为：s(Pst)=所以估计量的标准差为1.99%，比例为9.24%(2)、a、比例分配的条件下：n=约等于2659所以n1、n2、n3、n4、n5、n6分别为：n1=479、n2=559、n=373、n4=240、n5=426、n6=586由于n1+n2+n3+n4+n5+n6=n所以n=2663.b、内曼分配n2=约等于2561所以n1、n2、n3、n4、n5、n6分别为：n1=536、n2=520、n=417、n4=304、n5=396、n6=392由于n1+n2+n3+n4+n5+n6=n所以n=2565.程序代码如下：setwd('C:\\Users\\user\\Desktop\\新建文件夹')dat-read.csv('syl3.4.csv',header=F)View(dat)N-165*10^4#样本总量n1-30#样本量wh-dat[,2]nh-dat[,3]p-nh/n1#每层样本比例pst-sum(wh*p)#样本比例var_pst-sum((wh^2-n1/(N*wh))*(p*(1-p)/(n1-1)))spst-sqrt(var_pst)#(1)比率分配r-0.01s-p*(1-p)a-sum(wh*s)b-(r/qnorm(1-0.025))^2n-a/(b+a/N)#总数n1-n*wh#各分层样本数#（2）内曼分配a1-sum(wh*sqrt(s))n2-a1^2/(b+a/N)#总数n22-n2*wh*sqrt(s)/a1#各分层样本数P104.3.5题：某开发区利用电话调查（RDD）对区内居民消费冷冻食品情况进行调查。他们将电话号码（六位数字）的前两位作为一部分，后四位作为一部分，前两位代表局号，局号及每个局号中拥有的电话数可以找到，安局分层，按每个局号（剔除商户后）拥有的电话数比例分配样本量（分层抽样比可以忽略）。调查后各层样本户购买冷冻食品支出的中间结果见下表：局号层权（%）样本量样本平均（元）样本标准差18.2168910526.5135674313.72710218645.6117697511.82497106611.6237989717348311289.820527398.8183644107145265问题：试估计该开发区居民购买冷冻食品的平均支出，以及估计的95%置信区间。解：先求出购买冷冻食品的平均支出为：在计算平均支出的方差估计值为：V(ybar)=95%的置信区间为：以下为代码：setwd('C:\\Users\\user\\Desktop\\新建文件夹')dat-read.csv('syl3.5.csv',header=F)View-(dat)alpha-0.05wh-dat[,2]nh-dat[,3]ay-dat[,4]sc-dat[,5]Nh-(nh/wh)*100ybar-sum((ay*wh)/100)ybar-sum((wh/100)*ay)var_ybar-sum((wh/100)^2*(sc^2/nh))Y_interval-ybar+c(-1,1)*qnorm(1-alpha/2)*sqrt(var_ybar)P105.3.9题：下列数据是N=6，两层单元数相同的人为总体。x1iy1ix2iy2i3086531591062515第一层第二层对n1=n2=2的一个分层随机样本：问题：（1）列出所有可能的样本；（2）分别用比估计和联合比估计来估计Ybar,计算估计的偏差及MSE;（3）对上述结果进行比较分析。解答：（1）所有可能的样本的数量为3*3=9，所有的样本如下：{(3,0),(5,3),(8,6),(15,9)};{(3,0),(5,3),(8,6),(25,15)};{(3,0),(5,3),(25,15),(15,9)};{(3,0),(10,6),(8,6),(15,9)};{(3,0),(10,6),(8,6),(25,15)};{(3,0),(5,3),(15,9),(25,15)};{(10,6),(5,3),(8,6),(15,9)};{(10,6),(5,3),(8,6),(25,15)};{(10,6),(5,3),(25,15),(15,9)};（2）比估计的估计ybar为6.5;计算估计的方差为0.1048177，MSE为3.773437联合比估计的估计ybar为6.5;计算估计的方差为0.06370523，MSE为2.293388。（3）答：从分别比估计和联合比估计的偏差和均方误差可以看出，联合比估计的MSE（2.3）比估计的MSE(3.78)，且联合比估计的均方误差0.06比估计的均方误差0.1，所以说联合比估计要比分别估计好。各层的比率和总体的比率相差基本差不多，从整个样本出发进行的联合比估计比基于每层的分别比估计更好一些，偏差更小，均方误差也更小。以下为本体所有代码：setwd('C:\\Users\\user\\Desktop\\新建文件夹')dat-read.csv('syl3.9.csv',header=F)N-6N1-3n1-2N2-3n2-2nh-c(n1,n2)Nh-c(N1,N2)X1-sum(dat[,1])X2-sum(dat[,3])yh-c(mean(dat[,2]),mean(dat[,4],na.rm=T))xh-c(mean(dat[,1]),mean(dat[,3],na.rm=T))wh-c(N1,N2)/sum(N1+N2)fh-c(n1/N1,n2/N2)nh-c(n1,n2)sy2-1:2sx2-1:2sxy-1:2sy2[1]-sd(dat[,2])^2sy2[2]-sd(dat[,4])^2sx2[1]-sd(dat[,1])^2sx2[2]-sd(dat[,3])^2sxy[1]-cov(dat[,1],dat[,2])sxy[2]-cov(dat[,3],dat[,4])#比估计rh-yh/xhyrs-sum(wh*Rh*xh)temp1-wh^2*(1-fh)/nhtemp2-sy2+rh^2*sx2-2*rh*sxyvy-sum(temp1*temp2)temp3-Nh^2*(1-fh)/nhMSEb-sum(temp3*temp2)#联合比估计yst-sum(wh*yh)xst-sum(wh*xh)Rc-yst/xstxbar-(X1+X2)/Nybar-Rc*xbartemp1-wh^2*(1-fh)/nhtemp2-sy2+Rc^2*sx2-2*Rc*sxyvy-sum(temp1*temp2)temp3-Nh^2*(1-fh)/nhMSEh-sum(temp3*temp2)