《文学文摘》预测罗斯福竞选落败在美国1936年的总统选举中,两位竞争者分别是民主党的罗斯福和共和党的兰登。竞选前美国著名杂志《文学文摘》发放了1000万份的调查问卷,通过对收回的240万张问卷及电话调查的结果进行分析,预测兰登将获得57%的选票而最后的投票结果是:罗斯福以62%对38%一边倒优势胜出。《文学文摘》也最终因此而破产倒闭。问题:为什么《文学文摘》调查的样本量如此之大,结果却那样离谱?1、样本抽选有偏差兰登的支持者主要是富裕阶层,大资产阶级,而罗斯福的支持者主要是一般工薪阶层、中下层平民。在1936年,美国约有1100万户家庭拥有电话,有900多万失业人口。2、没有考虑缺失数据的影响在芝加哥对三分之一的选民进行调查,只有20%的比较富裕的阶层给予回答。罗斯福的百分数盖洛普预言《文摘》的预测结果44《文摘》预测的选举结果43盖洛普预测的选举结果56选举结果62盖洛普预测民意调查(二)1948年的美国总统选举中,两位竞争者分别是共和党的杜威和民主党杜鲁门。Thebuckstopshere———杜鲁门候选人克劳斯莱盖洛普罗伯尔结果杜鲁门45443850杜威505053451、配额抽样例如,盖洛普的民意测验在圣.路易斯访问13对象,要求(1)6人住近郊,7人住在市中心(2)男的7人,女的6人(3)7个男的中3个40以下,4人40岁以上2、访问人员自由选择配与定额的方法调查偏差的原因年份盖洛普预测共和党得票百分数共和党实际得票百分数有利于共和党的误差193644386194048453194448462杜威50455共和党偏性盖洛普民意测验记录年份样本容量获胜候选人盖洛普民意预测选举结果误差19525385艾森豪威尔51%55.4%+4.4%19568144艾森豪威尔59.5%57.8%-1.7%19608015肯尼迪51%50.1%+0.9%19646625约翰逊64%61.3%-2.7%19684414尼克松43%43.5%+0.5%19723689尼克松62%61.8%-0.2%19763439卡特49.5%51.1%+1.6%19803500里根55.3%51.6%-3.7%19843456里根59.0%59.2%0.2%19884089布什56.0%53.9%-2.1%1-8统计学STATISTICS(第五版)2010年9月第2章数据的搜集§2.1数据的来源§2.2调查数据§2.3实验数据§2.4数据的误差2010年9月§2.1数据的来源原始数据和二手数据的比较比较项目原始数据二手数据收集目的为了手中的问题为了其他问题收集程序非常费劲快且容易收集成本高相对较低收集时间长短1-11统计学STATISTICS(第五版)2010年9月系统外部的数据1.统计部门和政府部门公布的有关资料2.专业调查机构提供的数据3.各种会议,学术性研讨会上交流的资料4.从互联网或图书馆查阅到的相关资料1-12统计学STATISTICS(第五版)2010年9月系统内部的数据1.业务资料:发票2.统计资料:统计报表3.财务资料:成本4.其他资料:顾客建议1-13统计学STATISTICS(第五版)2010年9月二手数据的评估1.数据的可靠性2.数据收集的目的性3.数据收集的方法4.数据的及时性《金钱》杂志公布了一项研究,揭示了消费者认为的航空公司最重要的特点。按照重要性顺序,依次是安全、价格、行李处理、按时起飞、乘客服务、以及食品。《金钱》根据这些特点评出了美国10家最大的航空公司。二手数据评估数据的直接来源实验数据–通过实验方法得到的数据–通常是对自然现象而言–也被广泛运用到社会科学中如心理学、教育学、社会学等1-16统计学STATISTICS(第五版)2010年9月数据的直接来源1.调查数据–通过调查方法获得的数据–通常取自有限总体2.按调查包括的范围:(1)全面调查:普查(2)非全面调查:重点调查、典型调查、抽样调查1-17统计学STATISTICS(第五版)普查:对总体中的所有个体进行调查如:人口普查、工业普查等特点:(1)通常是周期性的,一般需间隔较长时间;逢“0”年份:人口普查逢“3”年份:第三产业普查逢“5”年份:工业普查逢“7”年份:农业普查普查(2)一般需要规定统一的标准调查时间,以避免调查数据的重复或遗漏;(3)准确性一般较高,较规范;(4)只能调查一些最基本、最一般的现象。如:第五次人口普查登记的标准时间是2000年11月1日凌晨零时人口普查表本户省,市县乡镇村住址自治区市街道居委会街巷号姓名与户主关系性别出生年月民族常住人口户口登记状况文化程度行业职业就业状况婚姻状况生育子女总数123456789101112申报人:普查员:填报日期:月日户主签名:2010年9月§2.2调查数据一.概率抽样与非概率抽样二.搜集数据的基本方法2010年9月概率抽样和非概率抽样2010年9月概率抽样1.也称随机抽样2.特点:按随机原则抽取样本–个体都有一定的机会被抽中–个体被抽中的概率是已知的–样本可以对总体目标量进行估计3.抽样框:所有总体单位信息2010年9月简单随机抽样定义:从总体中随机地抽取n个单位作为样本,每个单位入抽样本的概率是相等的最基本的抽样方法,是其它抽样方法的基础在某城市某街道所管辖的10000户居民中,抽取200户居民,就居民对某种商品的需求量进行调查,就可以做10000张纸片,写上1-10000号,从中随机(或按随机数)抽取200张,被抽中的居民即为样本。简单随机抽样例子特点–简单、直观–对参数进行估计比较方便局限性–当总体量很大时,不易构造抽样框–抽出的单位很分散–没有利用其它辅助信息2010年9月分层抽样将抽样单位按某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本。分层抽样的步骤(1)确认目标总体。(2)决定样本数。(3)决定分层标志。(4)将总体按照分层标志分成若干类,其中每一类称为一层。(5)在每一层中随机抽取出足够的样本。消费倾向调查在进行消费倾向调查时,按年龄将调查人口分为老年人、中年人、青年人三类。总调查人口6000人,其中:老年人1000人,中年人2000人,青年人3000人。现从中抽取200人。问题:如采用等比例分层抽样,如何确定样本数量?1000200336000==老年类抽取样本数20002006000==67中年类抽取样本数青年类抽取样本数30002006000==100调研某地家用电器产品的潜在用户家庭收入分层各层调研单位数各层的样本标准差乘积样本单位数高中低合计20006000120002000030020050——6000001200000600000240000050100502001-30统计学STATISTICS(第五版)分层抽样的优点优点–样本的结构与总体的结构比较相近–既可以对总体参数进行估计,也可以对各层的目标量进行估计2010年9月整群抽样定义:将总体中若干个单位合并为群,抽样时直接抽取群,然后群中的所有个体全部实施调查特点:–只需群的抽样框,可简化工作量–调查的地点相对集中–缺点是估计的精度较差抽取2000个样本。假定该市共有1000个居委会,每一个居委会平均有100户居民。这样,就可以居委会为单位,采用纯随机抽样抽出20个居委会,共2000户,然后把这20个居委会的2000户视为样本进行普查。调查某城市居民户的经济情况整群抽样与分层抽样的区别1、分层抽样分成的各类彼此之间差异明显,而每类内部差异不大;2、整群抽样的群间彼此差异不大,而每群之内差异明显。3、分层抽样每类都按一定比例抽取样本,而整群抽样是从总群中抽出若干群2010年9月系统抽样定义:将个体按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其它样本单位优点:操作简便缺点:对总体参数的估计比较复杂(1)将总体单位排列。(2)决定抽样间距(总体单位数/样本数)。(3)采用简单随机抽样法抽出一个单位作为起点。(4)取得一个样本单位后,每隔一个抽样间距抽取一个单位,直到样本数足够为止。系统抽样的步骤1-36统计学STATISTICS(第五版)系统抽样例子对1000个企业进行抽样调查,样本数为100,则抽样时间距为1000/100=10。我们可在1-10中随机抽取一个单位,作为起点。譬如,单位3为起点,则样本单位号码依次为3,13,23,33,…直至样本数量达到100个为止。1-37统计学STATISTICS(第五版)2010年9月多阶段抽样1.要经历两个或以上阶段才能抽到样本2.具有整群抽样的优点3.具有更广泛的范围4.常用于大规模的抽样调查中普查表长表抽样方法长表抽样方法●《第六次全国人口普查方案》普查表长表抽取10%的户填报普查表短表由其余的户填报●10%的长表登记户如何抽?2000年的每隔10户抽一户2010年拟抽取长表住户组长表住户组为相邻4户一组1-40统计学STATISTICS(第五版)户编号抽中户编号抽中户编号抽中户编号抽中1∨2141∨612∨2242∨623∨2343∨634∨2444∨645254565626466672747678284868929496910*30*50*70*11315171123252721333537314345474153555751636567617375777183858781939597920*40*60*80*抽样框审核注意:在《户主姓名底册》中参与长表抽样户▲居住在本地的家庭户和集体户▲离开本地不满半年的家庭户不参与长表抽样的户▲全户为港澳台或外籍人员的户▲全户寄挂户口的户▲全户外出半年以上的户▲全户因房屋拆迁已离开本地户▲全户死亡的户▲无人居住且无户口寄挂空房户1-43统计学STATISTICS(第五版)抽样框审核户主姓名底册是否长表填报户户编号独立房屋建筑物编号房屋编号本户住址户主姓名摸底时居住本户人数…备注123456…19001101南路2张中旺3…00202〃〃3王新华3…00303〃〃4王满霞2…00404〃〃5金已星3…00505〃〃6周宝印2…00606〃〃9郭明义7…601〃〃9杜文来0…整户寄挂户007〃〃9杜文君4…00807〃〃16李德冒6…60208〃〃18扬为旺0…全户外出半年以上60309〃〃19李忠华0…全户外出半年以上00910〃〃27金钟5…01113〃〃30吴以4…1、普查区第一个普查小区随机起点的确定▲随机起点在1-10内确定随机起点为负责长表抽样人员,取本人生日的最后1位数1-9对应随机起点1-90对应随机起点10长表调查户抽取▲其后普查小区的随机起点=前一个小区的随机起点+1(如11减10为1)例1本人生日的最后1位数是5。普查小区小区内普查小区小区内名称随机起点名称随机起点第001普查小区5第016普查小区10第002普查小区6第017普查小区1第003普查小区7第018普查小区2第004普查小区8第019普查小区3第005普查小区9第020普查小区4第006普查小区10第021普查小区5第007普查小区1第022普查小区6第008普查小区2第023普查小区7第009普查小区3第024普查小区8第010普查小区4第025普查小区9第011普查小区5第026普查小区10第012普查小区6第027普查小区1第013普查小区7第028普查小区2第014普查小区8第029普查小区3第015普查小区9第030普查小区4普查小区小区内普查小区小区内名称随机起点名称随机起点第001普查小区10第016普查小区5第002普查小区1第017普查小区6第003普查小区2第018普查小区7第004普查小区3第019普查小区8第005普查小区4第020普查小区9第006普查小区5第021普查小区10第007普查小区6第022普查小区1第008普查小区7第023普查小区2第009普查小区8第024普查小区3第010普查小区9第025普查小区4第011普查小区10第026普查小区5第012普查小区1第027普查小区6第013普查小区2第028普查小区7第014普查小区3第0