统计学第二次作业

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

统计学第二次作业(2012年4月27日)第五章置信区间5-28、2003年,在一项对高校扩招的态度调查中,10所北京市院校对高校扩招的态度数据如下表(分数越高态度越积极):院校名态度平均值标准差人数北京外国语学院中国人民公安大学中国青年政治学院北京农学院北京大学清华大学北方交通大学北京航空航天大学对外经济贸易大学北京医学院3.814.324.083.983.583.784.264.123.884.070.670.550.680.650.640.710.660.740.570.6348505250504950424844求:1)中国人民公安大学、清华大学、北京大学的总体平均态度分的95%置信区间;2)中国人民公安大学和北京大学的总体平均态度分之差的95%置信区间;3)清华大学和北京大学的总体平均态度分之差的95%置信区间。(提示:要先从S求得)解:(1)因为表中样本数都大于30,所以认为样本均值的抽样分布服从正态分布。x~N(u,nÒ2),用s近似代替σ,根据样本数据的样本均值和标准差:置信水平1-α=95%,查标准正态分布表2/za=1.96中国人民公安大学总体态度分的95%置信区间为(x1-2/za*11ns,x1+2/za*11ns),将表中数据代入(4.32-1.96*505.50,4.32+1.96*505.50)=(4.17,4.47)清华大学总体态度分的95%置信区间为(x2-2/za*22ns,x2+2/za*22ns),同理计算求得(3.58,3.98)。北京大学总体态度分的95%置信区间为(x3-2/za*33ns,x2+2/za*33ns),同理计算求得(3.40,3.76)。(2)两个样本都为大样本,所以根据抽样分布的知识可知,两样本均值之差(1x-2x)的抽样分布服从(u1-u2)、方差为(121Òn+222Òn)的正态分布。中国人民公安大学和北京大学的总体平均态度分之差的95%置信区间为{(1x-2x)-2/za*)ÒÒ(122121nn,(1x-2x)+2/za*)ÒÒ(122121nn}。用样本方差代替总体方差。所以求得两者总体均值方差的置信区间(0.51,0.97)。(3)同(2),可以求得清华大学和北京大学的总体平均态度分之差的95%置信区间为(-0.066,0.466)。第六章假设检验6-6、从死于汽车碰撞事故的司机中抽取2000名司机的随机样本,根据他们的血液中是否含有酒精以及他们是否对事故负有责任,将数据整理如下表所示。在整个总体中,血液中含有酒精和不含酒精的司机之间在对事故负有责任方面有差异吗?为了回答这一问题:1)叙述并计算概值;2)计算适当的置信区间(95%)来说明差异有多大;3)从这一数据如何说明“酒精增加了事故的发生率”。解:设1p为含酒精中有责任的概率,2p无酒精中有责任的概率。提出假设0H:血液中含酒精和不含酒精的司机之间对事故富有的责任无差异。即1p=2p1H:1p≠2p。有酒精吗有责任吗有无有650150无700500依据样本数据:1p=650/(650+150)=13/162p=700/(700+500)=7/12构造统计量:P=1p-2p又因为1p~N(1p,111n)p1p(),2p~N(2p,222n)p1p()所以1p-2p~N(1p-2p,111n)p1p(+222n)p1p()记111n)p1p(+222n)p1p(为2s1p-2p的95%的置信区间为(1p-2p-2/za*s,1p-2p+2/za*s)=(0.19,0.27)。不包括0,所以拒绝零假设。可见含酒精的对事故负责任的概率远大于不含酒精的。即酒精增加了事故的而发生率。6-9、1974年,美国盖洛普公司的一次调查表明,在750名美国男子的样本中,有45%抽烟;在另一个相互独立的750名女子的样本中,36%抽烟,1)构造男性总体和女性总体中抽烟比例之差的95%单侧置信区间;2)计算没有差异这一原假设的概值;3)在错误水平=0.05下,45%与36%之差在统计上是可以分辨的吗?(或是显著的吗?)即,能拒绝吗?用两种方式回答,并说明两种答案是一致的:1)是否没有落入95%的置信区间之内?2)对的概值是否小于0.05?解:设男性抽烟比例为1p,女性抽烟比例为2p。构造统计量:P=1p-2p又因为1p~N(1p,111n)p1p(),2p~N(2p,222n)p1p()所以1p-2p~N(1p-2p,111n)p1p(+222n)p1p()记111n)p1p(+222n)p1p(为2sP(s)p-p(-P21az)=1-α,所以1p-2p的95%单侧置信区间为(0,1p-2p+az*s)=(0,45%-36%+1.645*0.02524)=(0,13.15%)(2)0H:1p=2p在此条件下sP~N(0,1)。Z=sP=1.452s36%-45%Φ(1.452)=0.927。所以没有差异这一原假设的概率为0.927。(3)在错误水平=0.05下,45%与36%之差在统计上是不可以分辨。即不能拒绝0H。从以下角度来分析:1)因为1p-2p=9%,落在95%的置信区间。所以不能拒绝原假设0H。2)由(2)可知拒绝0H出错的概率为0.073,大于0.05,所以不能拒绝原假设。第七章回归分析7-7、假定一个4家庭的随机样本的年收入和年节余如下表所示(单位:千元):1)估计总体回归直线家庭编号收入X节余Y12344.87.28.59.51.23.03.53.52)构造斜率β的95%置信区间;3)作图画出4个样本点和拟合的直线,然后尽你所能在图中表示由2)的置信区间所给出的可接受的斜率(范围)。解:(1)方法1因为XY,X=(4.8+7.2+8.5+9.5)/4=7.5Y=(1.2+3.0+3.5+3.5)/4=2.8记ix=iX-X,iy=iY-Y所以βˆ=2xiiixy=0.513732(代入数值计算过程略),αˆY-βˆ*X=-1.052989即估计总体回归方程为:Y=-1.052989+0.513732X.方法2:直接在Eviews中求解(OLS)VariableCoefficientStd.Errort-StatisticProb.X0.5137320.1123744.5716370.0447C-1.0529890.865679-1.2163730.3479R-squared0.912663Meandependentvar2.800000AdjustedR-squared0.868995S.D.dependentvar1.092398S.E.ofregression0.395389Akaikeinfocriterion1.288962Sumsquaredresid0.312666Schwarzcriterion0.982109Loglikelihood-0.577923F-statistic20.89987Durbin-Watsonstat1.962585Prob(F-statistic)0.044666即估计总体回归方程为:Y=-1.052989+0.513732X.说明结果一致。(2)2ie=2iy-2ˆβ2ix=3.58-0.513732*0.513732*12.38=0.312666(与上一致)2Òˆ=2n2ie=0.156333。(n=4)Se(βˆ)=2Òˆix=0.11237。所以β的95%置信区间为(βˆ-2/ta*Se(βˆ),βˆ+2/ta*Se(βˆ))=(0.513732-4.3027*0.11237,0.513732+4.3027*0.11237)=(0.0304,1.0027)(自由度为2)(3)在Eviews中作X-Y图如下:1.01.52.02.53.03.54.056789XY7-11、从某单位随机地抽取了相互独立的两个样本(男、女职工收入),其月收入数据如下:男:2300,2500,3000,2800,2600;女:2400,2200,2000,2500,2700用表示收入,用哑变量表示性别:其中对于男性=1,对于女性=0。1)画出对的图形;2)用眼睛拟合一条对的回归线;3)计算对的回归线;与2)中用眼睛拟合的相比,后者的精度如何?4)构造一个斜率为95%的置信区间,用简单的语言解释一下它的意义;5)在5%的错误水平下,检验收入是否与性别无关;6)4)和5)的结果是否度量了该单位对女性的歧视?解:(1)在Eviews中作X-Y图如下:180020002200240026002800300032000.00.20.40.60.81.0XY(2)由上图用眼睛拟合拟合一条Y对X的回归线:Y=2390+200X(3)利用Eviews进行回归:VariableCoefficientStd.Errort-StatisticProb.X280.0000170.88011.6385760.1399C2360.000120.830519.531500.0000R-squared0.251282Meandependentvar2500.000AdjustedR-squared0.157692S.D.dependentvar294.3920S.E.ofregression270.1851Akaikeinfocriterion14.21295Sumsquaredresid584000.0Schwarzcriterion14.27347Loglikelihood-69.06474F-statistic2.684932Durbin-Watsonstat1.278082Prob(F-statistic)0.139935即回归方程为:Y=2380+280X与(2)中直观看到的:我们发现在斜率差距较大。(4)依据Sumsquaredresid584000.0即2ie=584000.0所以2Òˆ=2n2ie=73000(n=10)Se(βˆ)=2Òˆix=170.88(易知2ix=10*0.25=2.5)所以β的95%置信区间为(βˆ-2/ta*Se(βˆ),βˆ+2/ta*Se(βˆ))=(280-2.306*170.88,)280+2.306*170.88)=(-114.05,674.05)(自由度为8)这一区间包括零,说明不能拒绝零假设。即认为男女性别对工资多少没有影响。(5)因为F-statistic2.684932Prob(F-statistic)0.139935所以在在5%的错误水平下,不能拒绝零假设。即认为性别与收入无关。(6)4)和5)的结果都认为性别与收入无关,所以没有度量了该单位对女性的歧视。第八章方差分析8-4、1977年,美国的某项调查从三种受过不同教育类型的妇女中各分别抽取了50位全日制工作的妇女样本,她们的年收入(单位:千美元)数据整理后归纳如下:完成的学历年数收入平均值初中(8年)高中(12年)大学(16年)7.89.714.0183524424707解::=:三组收入均值有显著差异F=,即组间均方/组内均方其中,组间自由度=3-1=2,组内自由度=(50-1)╳3=147由于样本均值=(7.8+9.7+14.0)/3=10.5所以组间偏差平方和=50=50*(++)=1009组内偏差平方和==1835+2442+4707=8984所以,F=≈8.2548419(2,147)=3.07拒绝原假设;认为不同学历的妇女收入存在差异。8-9、月收入数据:男:2500,2550,2050,2300,1900女:2200,2300,1900,2000,1800如果用Y表示收入,哑变量X表示性别(X=1为女性),计算Y对X的回归方程,并在5%的水平下检验收入是否与性别无关(先求回归系数的置信区间)。解:令Y=+X+根据最小二乘法,可知=(1)VAR()=(2)=(3)计算如下::收入与性别无关收入与性别不完全无关Y2500255020502300190022002300190020001800X000

1 / 10
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功