3 估计问题

becksisi
3 ℃
2020-01-18

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

数据、模型与决策第四章估计问题克林顿政府外交和经济政策的支持率(摘自1994年4月28日新民晚报）．《今日美国报》和美国有线电视新闻网（CNN）27日公布一项民意测验调查结果：克林顿政府外交政策支持率为39%，经济政策支持率为42%。民意调查于4月22日至24日在1015人中进行，其误差在3%之内。总体美国2亿五千多万成年人样本1015人抽取样本推断总体抽样调查在全部美国2亿五千多万成年人中克林顿政府外交政策和经济政策支持率各是多少？经统计：在样本1015人中各有39%(396人)和42%(426人)的人分别支持克林顿政府的外交政策和经济政策不确定性现象―统计学的研究对象1015人是从美国2亿五千多万成年人中随机抽取的，调查的1015人中究竟有多少人支持克林顿政府的外交政策，有多少人支持克林顿政府的经济政策显然是不确定。根据统计的理论和方法，抽取了足够多的1015人的样本，样本随机抽取，计算正确，推断有依据，所以说支持率是39%与42%，其可信程度是不低的。推断总体—点估计和区间估计克林顿政府外交政策的支持率的估计为39%；克林顿政府经济政策的支持率的估计为42%。估计误差在3%之内。问题：估计误差的置信概率多大？置信概率，即可信(把握)程度或置信水平克林顿政府外交政策支持率的(点)估计为39%，置信水平为95%的区间估计为39%±3%，也就是(36%,42%)；克林顿政府经济政策支持率的(点)估计为42%，置信水平为95%的区间估计为42%±3%，也就是(39%,45%)。39%3%39%3%39%3%误差在3%之内，置信水平95%的区间估计关于比例的估计在实际操作的时候，一般调查1000人左右，基本上就可以说误差在3%之内，置信水平有95%。？？？关于比例的估计注意的是，尽管美国、台湾地区、欧美各国和上海市的人口，以及法国、德国和英国的人口是不一样多的，有的相差很大，但基于统计的理论和方法，有关这些比例的调查都只需要调查1000左右的人，就能使得误差在3%之内的置信水平为95%。另请注意的是，抽样方法要得当，例如使用简单随机抽样如抽签的方法。不适当的抽样方法是不能做到误差在3%之内的置信水平为95%的。请注明被调查者某报纸曾登载过一篇文章。文章的标题说，“请注明被调查者”。该文说读到一条新闻，城里有近二十万年轻人准备在未来三五年内买自家车。事实果真如此？原来为图方便，调查是在年轻人比较集中的写字楼中进行的。在写字楼上班的年轻族中有五分之一的人表示了未来三五年内买车的意向。将五分之一乘以全市年轻人的总数，就得出了前面这条新闻。1936年美国总统选举1936年民主党人罗斯福任美国总统第一任满。共和党人兰登与他竞争总统。《文学摘要》杂志根据有约二百四十万人参加的民意测验，预测：兰登的得票率：57%罗斯福的得票率：43%样本：240万1936年美国总统选举1936年盖洛普刚刚设立起他的调查机构，他根据一个约五万人的样本，预测：兰登得票率：44%罗斯福得票率：56%样本：5万人盖洛普赢了1936年美国总统选举，罗斯福当选总统，其得票率为62%。当时美国媒体认为，与其说罗斯福赢了，不如说盖洛普赢了。罗斯福得票率误差--------------------------------------------------文学摘要(样本240万)预测43%19%盖洛普(样本5万)预测56%6%--------------------------------------------------调查方法有什么问题？《文学摘要》杂志仅向该杂志订户，以及诸如根据电话簿向家中有电话的人员，以及根据汽车拥有者名册向家中有汽车的人员发放问卷作调查。1936年有余钱订阅杂志，有能力装置电话（当时四个家庭中仅有一家装电话），购买汽车的人，他们是经济比较富裕，收入在一般水平之上的人员。《文学摘要》杂志有排挤穷人的选择偏差。谨防：样本不能代表总体《文学摘要》杂志选取调查对象的方法有误。尽管他的调查数据非常多，但有偏差。他选取的样本不能代表总体，“以偏概全”作出错误的预测在所难免。《文学摘要》杂志的调查对象选择了共和党人兰登，而全体选民却选择了民主党人罗斯福。定额抽样法尽管盖洛普的样本只有五万人，但他的样本能比较好地代表总体。盖洛普用“定额抽样法”选取调查对象。这是他在从事新闻工作中逐步发展起来的抽样方法。所谓定额抽样法可简单地用下面的例子加以说明。若某地区有40万选民，其中黑人与白人选民分别有15%与85%。若计划在该地区调查20个选民，则定额抽样法就要求调查员访问的20个选民中有3个黑人选民与17个白人选民。调查对象的性别、收入高低、年龄等有类似的要求。定额抽样法定额抽样法要求调查设计人员有丰富的经验知识以及相应的统计资料。若对某地区的各指标的分布情况未能作出全面正确的判断，则样本就不能很好地代表总体。定额抽样法要求访问员能正确判断访问对象是否符合要求？倘若有两个或更多的人都符合要求，则访问员就得考虑，究竟访问谁？由此可见，正确有效地实施定额抽样法离不开人的主观判断与选择。主观判断与选择有可能出错。1948年的美国总统选举三家民意调查机构全都错了杜鲁门(民主党)：预测得票率实际选举结果；杜威(共和党)：预测得票率实际选举结果。候选人盖洛普预测克劳斯莱预测罗伯尔预测实际选举结果杜鲁门(民主党)44453850杜威(共和党50505345Thurmond2253Wallace4342杜鲁门获胜后，得意洋洋地手举印有“杜威击败杜鲁门”大幅通栏标题的《芝加哥论坛报》返回华盛顿。这张照片悬挂在《芝加哥论坛报》的主编办公室里，每一任主编都看着这张让报纸蒙受耻辱的照片而工作。1948年美国总统竞选。除民意调查机构，当时的美国媒体一边倒地认为杜鲁门必败。美国知名的50位政治评论家都认定，此次大选杜威获胜无疑。大选日当晚，《芝加哥论坛报》抢先印刷了印有“杜威击败杜鲁门”通栏标题的号外，向全国发行。过高预测共和党的总统候选人过低预测民主党的总统候选人年份候选人盖洛普预测实际得票误差1936罗斯福(民)兰登(共)55.744.362.537.5-6.8+6.81940罗斯福(民)Wilkie(共)52.048.055.045.0-3.0+3.01944罗斯福(民)杜威(共)51.548.553.846.2-2.3+2.31948杜鲁门(民)杜威(共)44.549.549.545.1-5.0+4.4我为什么一而再，再而三，连续多次都过高预测共和党的总统候选人的得票率，过低预测民主党的总统候选人的得票率？连续出错，应引起人们的深思剖析存在问题--定额抽样法的误判盖洛普给了访问员一个权利，访问谁可由访问员自行选定。设想某个访问员被派到某个街区，要求他访问一个白人，年龄40岁以上，城市居民。设想他遇到两个符合调查要求的白人，一个穿着整洁，说话有礼，看似正派，而另一个穿着比较肮脏，说话粗声粗气。为顺利完成访问任务，访问员很自然地去接近前者。而前者很可能是个共和党的选民。共和党的选民往往较为富裕，受过较好的教育，住在较好的街区，他们乐意接受访问。这样一来定额抽样法就使得访问员不知不觉地访问了过多的共和党的选民。随机抽样调查1952年起，盖洛普公司在选举中放弃定额抽样调查方法，改用随机抽样调查方法。随机抽样调查方法让所有接受调查的人都受到公平的对待。最简单抽样调查方法—抽签。经过抽签，有830名幸运的微软员工出席了此次送别盖茨的活动。2008年6月27日是微软公司创始人比尔盖茨作为全职员工在公司工作的最后一天，28日起他从微软“一把手”执行董事长的位置退休，转任非执行董事长。微软员工都想参加27日下午送别盖茨的活动。我们都想参加！抽签！1952至1980年美国总统选举盖洛普民意测验的预测情况年份样本容量当选总统盖洛普预测实际得票误差19525385艾森豪威尔51%55.4%-4.4%19568144艾森豪威尔59.5%57.8%+1.7%19608015肯尼迪51%50.1%+0.9%19646625约翰逊64%61.3%+2.7%19684414尼克松43%43.5%-0.5%19723689尼克松62%61.8%+0.2%19763439卡特48.0%50.1%-2.1%19803500里根47.0%50.8%-3.81984至2008年美国总统选举盖洛普民意测验的预测情况年份样本容量当选总统盖洛普预测实际得票误差19843456里根59%59.2%-0.2%19884089布什56%53.9%+2.1%19922000克林顿49%43.3%+5.7%19962000克林顿52%50.1%+1.9%20003100小布什48%47.9%+0.1%20041573小布什49%51%-2%2008奥巴马53%55%-2%关于比例估计的6句话1)目的：调查总体中具有某种特性的个体所占的比例(proportion)p。2)样本容量：n个个体。样本中有m个个体具有这种特性，样本比例(频率,frequency)f=m/n。3)抽样方法：随机抽样。4)频率(样本比例)f是总体比例p的估计。关于比例估计的第5句话5)若总体有N个个体。N、样本容量n和N–n都比较大，则频率作为总体比例的估计，其置信水平为的抽样误差为其中①称为是比例的样本标准误；②与满足条件：估计的误差—常用的α、1–α与δ值与满足条件：双尾概率中间部分的概率临界值-----------------------------------------------------------------0.2080%1.28160.1090%1.64490.0595%1.96000.0199%2.5758关于比例估计的第6句话6)最大抽样误差为这是因为频率在0与1之间，在时，有最大值。因而频率作为总体比例的估计，其置信水平为的抽样误差为：比例调查问题数据分析的4个步骤1)根据调查目的给出精度要求，要求置信水平为的抽样误差不大于；2)解不等式,计算样本容量；3)根据调查数据，计算频率，从而得到总体比例的估计；4)计算置信水平为的抽样误差，看它究竟有多大。生活不能自理的老人在老人中的比例某市欲了解生活不能自理的老人在老人中的比例。计划在老人中作抽样调查。调查精度设定为置信水平为95%的抽样误差不大于5%。问需要调查多少个老人？生活不能自理的老人在老人中的比例由置信水平，得。解不等式得凑个整数，调查400个老人就保证能够做到，置信水平为95%的抽样误差在5%之内。生活不能自理的老人在老人中的比例若调查的400位老人中有40位老人生活不能自理。①调查的400人中，生活不能自理的老人所占的比例，因而该市生活不能自理的老人在老人中的比例的估计为10%。②这个估计的置信水平为95%的抽样误差为“比例的样本标准误”。它等于支持度的估计大的候选人是否支持度也大？2008年6月11日中新网的一则新闻的标题是“美大选：奥巴马民意支持率稳定领先麦凯恩”。新闻说盖洛普民意测验中心十日公布的最新民调显示，目前奥巴马的全国支持度为百分之四十八，麦凯恩为百分之四十一。这是盖洛普自三月中开始进行这项民意调查以来，奥巴马领先麦凯恩的最大差距。这项民调是于六月七日至九日在全国抽样访问2633位登记选民，抽样误差正负二个百分点。支持度的估计大的候选人是否支持度也大？调查2633位选民，在他们之中支持奥巴马的人多(占48%)，支持麦凯恩的人少(占41%)。能否据此说在全部美国选民中支持奥巴马的人比支持麦凯恩的人多？比较支持度同一次民意调查，只要支持度估计的差比两倍的抽样误差大，我们就认为支持度估计大的候选人的支持度大。不同的两次民意调查，对同一个或不同的两个候选人的支持度进行比较，那就不能轻易地说只要支持度估计的差比两倍的抽样误差大，就认为支持度有上有下，应具体问题具体分析。民意测验说他赢得了电视辩论是否能说他赢了？报导1（摘自2000年10月13文汇报）．美国总统选举前10月11日晚举行的第二场电视辩论后，