抽样调查(SurveySampling)第一章概论1.社会生活中的调查2.抽样调查3.基本概念4.抽样调查的误差来源5.抽样方法6.实施抽样调查的一般步骤内容提要一、社会生活中的调查现代社会对于统计信息的需求非常广泛。调查(survey)是收集数据、获取统计信息的基本手段。是统计研究的起点。调查:针对特定的人、事件,或特定的群体、系统等进行的收集资料、证据,获取信息的活动。我们主要关心:为了解某特定群体的某些整体的数值特征所进行的调查(survey),而不是其他调查。关心整体的信息,而不是个别个体的情况。例如:例1.政府部门需要了解青岛市居民的家庭年收入情况。关心的整体(总体):青岛市全部的家庭。待收集的数据:某年各个家庭的年收入。欲了解的总体数值特征:家庭平均年收入、各收入段中家庭的比例(低收入家庭的比例、高收入家庭的比例)、贫富的差距,等等。例2.预测某一届美国总统选举结果的民意调查。关心的整体:选举当年全体合法选民。待收集的数据:各个选民准备投哪个候选人的票。欲了解的总体数值特征:各候选人在全体选民中的得票率。调查与抽样面对某个庞大、复杂的总体,往往不可能全面调查其中的每一个个体来获得总体信息。只能从中抽选部分个体(样本)作调查,然后再由部分个体的数据推断总体的信息。抽样调查是社会调查中最常用的手段。特点:“以偏概全”、归纳、有一定误差。调查举例:1.政府部门的调查大规模的社会调查最早大概就是出于政府的统治需要进行的。人类历史上很早就有关于人口、土地面积、税收等方面的调查。一个较完整的早期抽样调查的例子:数学家Laplace受法国政府的委托作的对法国人口的推算。首先按不同的自然条件抽选30个行政区,在抽中的行政区中再抽一些小区。最后利用各小区中人口总数与出生人口数之间的比率来推断法国总人口。他调查的时点是1802年9月22日,那时各小区的总人口数为2037615人,出生人口用前三年的总数215599除以3来算,算得出生率为35.27‰。由此推算当时全法国的人口总数。(p6)调查举例:2.民间和大众媒体的调查市场调查某些商品的市场调查,例如化妆品、家用电器、汽车等保险业需求调查(“关于分红保险的调查研究”)一些商场、超市做的顾客调查境外游客的调查广告投放效果的评估,例如:广告效果的调查调查举例:2.民间和大众媒体的调查民意测验(poll)美国的LiteraryDigest杂志在1912-1932年间数次针对总统选举结果预测进行民意测验获得成功。但在1936年遭遇了失败。美国Gallup民意调查所于1935年成立,起初专门从事民意测验,在1936年预测总统选举结果取得成功。1990年与1992年全国科协组织的公众对科学技术态度的调查调查举例:2.民间和大众媒体的调查电视收视率调查城市交通状况调查产品质量状况调查目前,全世界已有众多诸如Gallup公司这样的专业从事各类调查的企业、咨询机构,已经形成“调查行业”。调查举例:3.其他方面的调查学术研究心理学:儿童智商测验的量表、股民投资心理的研究、成功的关键因素等等社会学:1987与1992年中国儿童情况调查,1990年全国妇联组织的中国妇女社会地位调查经济学教育学:教育质量评估、不同教育方式的比较自然科学的研究等等。调查举例:3.其他方面的调查企业管理资产评估财务审计产品质量抽样检验新产品的市场调查等等调查方式问卷式(questionnaire)把要调查的内容转换成若干个问题,集中在一份调查表中,让被调查对象回答。是用得较多的一种调查方式。问题的形式主要有:封闭性的选择题、填写少量的数据的问题、开放性的问题。问卷可以:由专门的调查员直接发放收集、用信函邮寄、通过电话询问、在网上调查等问卷设计至关重要调查方式报表登记形式例如,我国的工业报表制度仪器测量工业生产中产品质量的自动化检验交通流量的自动检测空气、水质量的检测查阅资料例如,财务审计实验、观察对调查的一般要求充分性:能否获得所需的各项信息及时性:每项调查都有一定的时效性,故调查周期不可太长。经济性:省时、省力、便于组织实施准确性:误差应控制在可接受的范围内任何实际的调查,都只能在有限的人力、物力、财力和时间下,追求尽可能多且精确、有效的信息。二、抽样调查的意义与应用(一)什么是抽样调查(SurveySampling)抽样调查是按一定程序从所研究对象的(总体)中抽取一部分(样本)进行调查,获取数据,并以此对总体的一定目标量作出推断。普查与抽样调查在普查中,我们从总体的所有单元中收集信息;而在抽样调查中我们仅仅从总体中的一部分(通常是很小的一部分)单元中收集信息。抽样调查的必要性有些调查不可能全面调查。比如:空气、水质污染状况,破坏性的产品质量试验等节约人力、物力、财力,大大降低调查费用。缩短调查、数据整理分析的时间,时效性强。能够提高调查质量,所获信息精确程度往往高于全面调查。适用于大规模的社会调查。抽样调查优点能在充分满足客户所需信息质量的前提下,提供一种更快、更节省的方法。相对于普查来说,抽样调查规模小,因而更容易进行监控,对被调查者的心理压力也小。一项经科学设计并严格实施的抽样调查完全有可能获得比全面调查(普查)更为准确、更为可靠的结果。抽样调查的主要技术问题1.如何抽?只有当抽出的样本能够代表总体时,才能用样本的信息正确地推断总体的信息。2.抽多大的样本合适?3.如何作推断、下结论?4.结论的误差多大?可信度多大?对这四个问题的讨论是本课程核心内容。(二)抽样调查发展简史发端于1895年,第五届国际统计学会(ISI)挪威第一任统计局长凯尔提出建议:用代表性样本调查方法来代替全面调查。凯尔的观点一个良好的,也即对总体有代表性的样本应该是总体的一个缩影。样本各种平均性的指标应该与总体相应的指标十分接近。“代表性抽样”(或称目的抽样)奈曼的理论采用概率(随机)抽样而不是代表性抽样。在对总体有所了解的情况下,使用分层抽样可以提高精度。因为根据概率抽样,得到的样本通常可以获得总体目标量的无偏估计,而且估计量的方差也可从样本进行估计。非概率抽样(non-probabilitysampling)用一种主观的方法从总体中抽选单元。随意抽样;志愿者抽样;判断抽样;配额抽样;非概率抽样的缺点为了对总体进行推断,需要对样本的代表性做很强的假定。不可能得到可靠的估计值以及抽样误差估计值。概率抽样(probabilitysampling)两条基本准则:单元是随机抽取的;调查总体中的每个单元都有一个非零的入样概率,并且能计算出这些概率。概率抽样的优点能得到总体的可靠估计值能计算估计值的抽样误差能对总体进行推断如何抽到一个“好”样本用好的抽样方法用好的估计方法好的抽样策略辅助信息(变量)的充分利用抽样设计的类型放回抽样与不放回抽样等概率抽样与不等概率抽样一次性抽样与重复性抽样(连续抽样)简单随机抽样系统抽样分层抽样整群抽样多阶抽样多重(相)抽样PPS抽样抽样方法估计方法(等概率抽样)简单估计(用样本均值估计总体均值)比(率)估计回归估计(利用与调查指标相关的辅助变量)估计方法(PPS抽样)汉森-赫维茨估计霍维茨-汤普森估计抽样调查的误差来源误差可分两大类:1.抽样误差(samplingerror)用样本(局部)信息推断总体信息总难免的误差。若采用概率抽样(随机抽样),则可根据概率论原理定量地描述这部分误差;或根据误差控制要求设计合适的抽样方案。2.非抽样误差(non-samplingerrors)并非样本与总体间固有差异造成的误差,主要有两个方面原因造成:样本选择偏差(selectionbias)测量偏差(measurementbias)样本选择偏差根本原因:抽样总体不同于目标总体可能来源:取样方式与关心的目标量有关由调查员的主观判断、经验取样按方便程度取样样本全由自愿回答者构成目标总体的确定有误抽样框不完善对于样本中无回答单元的处理样本选择偏差的典型案例(Freedman,D.等著,魏宗舒等译(1997),统计学,中国统计出版社,第19章)对1936年美国总统选举结果的预测当时最大的民意测验机构LiteraryDigest杂志花了50万美元,按全国各地的电话号码簿发出一千万张问卷,回收二百多万张,预测共和党人Landon当选。预测得票率57%,而实际得票率38%。预测失败。Gallup领导的三家民意测验机构只调查了50000选民,准确预测民主党人Roosevelt当选。样本选择偏差的典型案例对1936年美国总统选举的预测Roosevelt的得票率Gallup预言LiteraryDigest的预测结果(随机抽选了3000人)44%LiteraryDigest预测的选举结果43%Gallup预测的选举结果(抽选了50000人)56%实际选举结果62%样本选择偏差的典型案例问卷是邮寄给一千万人的,这些人的名字、地址摘自电话簿或俱乐部会员名册。包括的主要是富人。而当时,富人与穷人的政治倾向差异很大。有严重的不回答现象。回答者(主要市中等收入者)与不回答者(低收入与高收入者)差异很大。LiteraryDigest预测失败的原因测量偏差不论抽样调查还是普查,都存在测量偏差。主要原因:测量仪器的精度问卷设计的原因:问题有歧义、有导向性、用词不准确、难以精确回答等调查员的素质:对调查项目的理解、责任性、专业水平等被调查者的原因:遗漏、虚报、瞒报、随意报数据收集、整理过程中的错、漏测量偏差一般随被调查对象数量增加而增加。故抽样调查结果常比普查更精确。对误差的研究、控制尽量精心、充分地准备、设计抽样调查方案,减小非抽样误差采用科学、有效的方法抽样,减小样本选择偏差、抽样误差二、我国抽样调查应用概况统计部门(国家及地方统计局)其他政府部门与学术机构专业调查与咨询机构(公司)统计局承担的抽样调查-项目列举人口变动情况调查;城市与农村住户调查;农产量调查;规模以下工业调查;限额以下批发零售业餐饮业调查政府其他部门与学术机构组织与承担的部分项目(1)卫生部流行病学调查(高血压,结核病)5岁以下儿童死亡情况调查国家卫生服务总调查政府其他部门与学术机构组织与承担的部分项目(2)交通部公路、水路交通运输量调查环境保护总局粮食农药污染调查全国科协公众科学素养调查政府其他部门与学术机构组织与承担的部分项目(3)全国妇联妇女社会地位调查教育部与国家语委语言与文字使用情况调查政府其他部门与学术机组织-特点目的明确,了解总体基本情况通常是一次性的或周期较长设计较有特色样本量较大,精度要求较高专业调查咨询机构(公司)电视收视率调查观众行为调查报刊阅读调查市场(消费行为)调查社会热点调查专业调查咨询机构组织项目-特点目的明确,基本了解总体情况讲究时效与成本,样本量多有限制设计要求不甚严格,质量相差悬殊回答率较低,拒访率较高三、我国抽样调查应用中的主要问题尽可能提高抽样效率(费用与精度),同时具有可操作性;满足多层次需要问题;非抽样误差的控制与调整。如何满足多层次需要中国国情各级政府都要管经济解决途径分层(事先分层与抽样后分层)样本追加策略冯士雍,施锡辁.抽样调查-理论、方法与实践.上海科学技术出版社,1996.冯士雍,倪加勋,邹国华.抽样调查理论与方法,中国统计出版,1998.加拿大统计局《调查技能》项目组编,中国国家统计局《调查技能》项目组译,冯士雍(审校).调查技能教程,中国统计出版社,2002.赵民德,谢邦昌.探索真相,中国统计出版,2001.胡健颖,孙山泽,抽样调查的理论和方法,北京大学出版社,2000.柯惠新,丁立宏,市场调查与分析,中国统计出版社,2000.梁小筠,祝大平.抽样调查的方法和原理,华东师范大学出版社,1994.