第3章抽样方法与抽样分布•2000年的美国总统选举一波三折,出现了前所未有的激烈场面,爆出了“难产”的世纪大新闻。11月7日美国第54届大选投票后,本应在第2天宣布大选结果,却因两党总统候选人对决定胜负的佛罗里达州的计票结果发生严重争执,双方由政治竞争发展到“对簿公堂”,大小官司打了50多场,从地方法院,州法院,巡回法院,一直打到联邦最高法院,从而使大选战火四处蔓延,美国上下沸沸扬扬,全世界都在注视佛州关于选票所引起的混乱。只是联邦最高法院12月12日对佛州人工重新计票问题作出最后裁决,戈尔14日发表“退出”竞选之后,大选才有了最终结果。大举结果显然变成了审判的结果。因此,不少政治评论家认为,布什总统不是选出来的,而是“判”出来的。与此同时,共和党以“极其微弱的优势”继续控制国会参众两院。这是1954年以来,共和党首次同时控制白宫和国会。美政治分析家认为,共和党在这次大选中获得了“全面胜利”。管理定量分析第3章:抽样技术日期候选人得票百分比%小布什戈尔佩罗特其他11/5Hotline/Battleground43514111/5MaristCollege46512111/5Fox47473211/5Newsweek46496011/5NBC/WallSt.Journal45484211/5Pew46493111/5ICR44467211/5Harris47475111/5Harris(online)47474211/5ABC46493111/6IDB/CSM47494011/6CBS48474111/6Portraitofamerica43524111/6CNN/USAToday46484111/6Reuters/MSNBC48465111/6Voter.com45512011/7选举结果484831•猜想一下,这些民意调查专家访问了多少受访者,使其对大约一亿选民的行为预测的误差不超过两个百分点?•不超过2000!•概率抽样与非概率抽样•抽样就是悬着观察对象的过程,比如在繁忙的街道上每隔10人就访问一个人就可以称为抽样。•抽样调查与总统选举。•抽样调查的历史来源。3.1非概率抽样•无法选择概率样本的情形下采用非概率抽样:•例:要研究无家可归者,不但没有一份所有无家可归者的现成名单,也不可能造一份这样的名册。4种非概率抽样方法:•就近抽样•目标式或判断式抽样•滚雪球抽样•配额抽样就近抽样•定义:是指研究者根据现实情况,以自己方便的形式抽取偶然遇到的人作为调查对象,或者仅仅选择那些离得最近的、最容易找到的人作为调查对象。就近抽样举例:•为了调查某市的交通情况,研究者到离他们最近的公共汽车站,把当时正在那里等车的人选作调查对象。•在街口拦住过往行人进行调查;•在图书馆阅览室对当时正在阅读的读者进行调查;•在商店门口、展览大厅、电影院等公众场所向进出往来的顾客、观众进行的调查;•利用报刊杂志向读者进行调查;•老师以他所教的班级的学生作为调查样本的调查等等。判断式抽样•判断抽样又称“立意抽样”或“目标式抽样”,是指根据调查人员的主观经验从总体样本中选择那些被判断为最能代表总体的单位作样本的抽样方法。•例如:要对福建省旅游市场状况进行调查,有关部门选择厦门、武夷山、泰宁金湖等旅游风景区做为样本调查,这就是判断抽样。滚雪球抽样•定义:滚雪球抽样是指先随机选择一些被访者并对其实施访问,再请他们提供另外一些属于所研究目标总体的调查对象,根据所形成的线索选择此后的调查对象。•例如,要研究退休老人的生活,可以清晨到公园去结识几位散步老人,再通过他们结识其朋友,不用很久,你就可以交上一大批老年朋友。但是这种方法偏误也很大,那些不好活动、不爱去公园、不爱和别人交往、喜欢一个人在家里活动的老人,你就很难把雪球滚到他们那里去,而他们却代表着另外一种退休后的生活方式。滚雪球抽样•滚雪球抽样主要用于估计十分稀有的人物特征,例如名字不能公开的信息,可利用政府或社会服务的人员;特别的群体,如私家车车主等。•滚雪球抽样的主要优点是可以大大增加接触总体中所需群体的可能性。而且可以根据某些样本特征对样本进行控制,适用于寻找一些在总体中十分稀少的人物。此外还可以使调查费用大大减少,不过这种成本的节约是以调查质量的降低为代价的。配额抽样•配额抽样也称“定额抽样”,是指调查人员将调查总体样本按一定标志分类或分层,确定各类(层)单位的样本数额,在配额内任意抽选样本的抽样方式。•例如市场调查中消费者的具有性别、年龄、收入、职业、文化程度等等方面的特征。按各个控制特性,分配样本数额。•配额抽样从建立描述目标总体特征的矩阵或表格开始。•举例来说,研究者必须事先知道,目标总体中男性占多少比例,女性占多少比例;在不同的年龄阶层、还有教育水准、种族团体等不同类别中,男女比例又是如何?这样的矩阵一旦建立起来,就可以进行配额抽样。•矩阵中的每一个格子(cell)就有了相应的比例,此时研究者就根据研究目的从不同的格子中选择样本并收集资料,而代表每一个格子出现的人,则按照这些格子相对于总体的比例,给予加权。3.2概率抽样方法•有意识与无意识的抽样误差•举例:“随机”访问遇到的100名学生•概率抽样是根据概率理论来选择样本的方法的总称。一些随机选择机制就是典型。其背后的基本观念是:要对总体进行有用的描述,从该总体中抽样出来的样本必须包含总体的各种差异特征。几个重要概念•总体(population):是一个统计问题中所涉及个体的全体。•样本(sample):按一定程序从总体中抽取的一组个体。•均值(mean):表示一系列数据或统计总体的平均特征的值。•样本容量(Samplesize):样本中所含个体的数量。标准差(standarddeviation)•标准差也称均方差,是各数据偏离平均数的距离的距离,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的,标准差未必相同。标准差计算公式例:学生成绩的抽样•样本1:•样本2:•75707369816876779989448679672510012==73.625XX1=4.472=26.82抽样框•抽样框又称“抽样框架”、“抽样结构”,是指对可以选择作为样本的总体单位列出名册或排序编号,以确定总体的抽样范围和结构。•常见的抽样框:大学学生花名册、城市黄页里的电话列表、工商企业名录、街道派出所里居民户籍册、意向购房人信息册……。抽样框误差来源•抽样框存在偏误,会对预测结果造成很大影响,因此,需要对抽样框误差来源进行分析。丢失目标总体单位:•也被称为“涵盖不足”,是指抽样框没有覆盖全部目标总体单位,有些目标单位没有在抽样框中出现,因而也就没有机会被选入样本,这些单位成为丢失目标单位。•对丢失的总体单位不能发现并纠正会造成调查中对总量的估计偏低。(未装电话)包含非目标单位:•是指抽样框中包含了一些不属于研究对象的非目标总体单位。•这种偏差的影响很大,但是潜在威胁却通常会小一些。因为可以在调查中辨认出非目标元素并把它们剔除。•一般情况下,由于抽样框中存在非目标总体单位,容易造成估计量的高估。(单位电话)丢失目标单位和包含非目标单位共存:•是指在抽样框中既有丢失目标单位,也有包含非目标单位。•在实际调查中,丢失目标单位不易被查觉和发现,具有较大的隐蔽性,相比之下,包含非目标单位的抽样框误差的威胁性要小些。因为在调查过程中,非目标单位容易被发现,并予以剔除。•如果丢失目标单位和包含非目标单位数量相当,也相互抵消,估计量是否会产生偏差也难以断定。这要取决于丢失目标单位和非目标单位的数量特征是否有显著差异。复合连接:•是指抽样框单元与目标总体单元不完全一一对应,而是存在一对多、多对一或是多对多模式的现象。•在前一种模式中,若进行简单随机抽样,能保证每个目标总体单位以同等的可能性被抽中。•在后两种模式中进行简单随机抽样,每个目的总体单位被抽中的概率是不同的,从而使估计量产生偏斜。•例如:若某银行想了解其客户的情况进行一次抽样调查,则该行所有客户构成目的总体。选择的抽样框是银行的来往帐目,这就构成了多对一模式。若在这个框中进行抽样,则来往帐目多的客户被抽中的可能性则较大,反之来往帐目少的客户被抽中的可能性很小,而两种客户通常会有较大差异,从而造成样本的偏斜,使估计量产生偏差。抽样框老化:•又称为“抽样框过时”或“不准确的抽样框”,是指随着时间的推移,抽样总体与目标总体产生极大的偏差,即原来的抽样框不符合实际情况,必须进行更新。最典型的例子,就是随着城市建设的大规模展开,许多地区已被改造,地址发生了变化,如果仍按以前的抽样框去抽样,那么精度就会难以控制。减少抽样框误差方法:•第一,在抽选样本之前,要对抽样框加以检查,发现可能存在的问题,进行识别、处理,并采取一定措施加以补救。第二,连接遗漏单位法,就是指把抽样样本遗漏的个体和抽样样本中的某个值相连接,其链接规则必须在调查前明确规定。简单随机抽样•例如:要调查居民对某项公共政策的态度,要从100户居民家庭中抽选10户居民代表抽选样本。具体步骤如下:•第一步:将100户居民家庭编号,每一户家庭一个编号,即01~00。(每户居民编号为2数,00代表100),•第二步:在附录的随机数表随机确定抽样的起点和抽样的顺序。假定从第1行,第9列开始抽,抽样顺序从左往右抽。•第三步:依次抽出号码分别是:92、45、42、05、94、96、05、37、36、02,共10个号码。由于05号码被抽了两次。再补充1个号码:22。由此产生10个样本单位号码为:92、45、42、05、94、96、37、36、02、22。•编号为这些号码的居民家庭就是抽样调查的对象。系统抽样•系统抽样(systematicsampling)是系统化地选择完整名单中的每第K个要素组成样本。如果名册包含10000个要素,而需要1000个样本时,选择每第10个要素作为样本。系统抽样方法潜藏的危机•例一,•研究人员从名册中每隔10个士兵抽出一个来进行研究。然而士兵的名册是依下列的组织方式来编排的:首先是中士,接着是下士,其后才是二等兵;用一班一班的方式进行编排,每个班10个人。•因此,此名册中每隔10个便是一位中士。如此系统抽样可能会取得一个完全是中士的样本,同样的理由,此方式也可能会取得一个完全不含中士的样本。例二•假设我们想在一栋公寓建筑物内选择公寓样本。•如果样本是从每个公寓的编码(如101,102,103,104,201,202等等)中抽出的话,那么所使用的抽样间隔,可能刚好等于每层楼的户数或是每层楼户数的倍数。如此所选到的样本有可能都是属于西北角的公寓或都是接近电梯的公寓。•假设这些形态的公寓有一些共同的特性(如月租费较高),样本就会产生偏误。分层抽样•分层抽样是在抽样之前将总体分为同质性的不同群。•原理:•抽样设计中有两个因素可以减少抽样误差。•首先,大样本比小样本产生的抽样误差小。•其次,从同质(homogeneous)总体中抽取样本比从异质(heterogeneous)总体中抽取样本所产生的抽样误差要小。分层抽样便是基于上述抽样理论第二个影响因素的方法。基本步骤•首先将总体分成互不交叉的层,然后按一定的比例,从各层次独立地抽取一定数量的个体,将各层次取出的个体合在一起作为样本。•分层抽样的特点是将科学分组法与抽样法结合在一起,分组减小了各抽样层变异性的影响,抽样保证了所抽取的样本具有足够的代表性。一个例子•一个单位的职工有500人,其中不到35岁有125人,35岁至49岁的有280人,50岁以上的有95人.为了了解这个单位职工与身体状况有关的某项指标,要从中抽取一个容量为100的样本,由于职工年龄与这项指标有关,决定采用分层抽样方法进行抽取.因为样本容量与总体的个数的比为1:5,所以在各年龄段抽取的个数依次为125/5,280/5,95/5,即25,56,19。多级整群抽样•前面讨论了直接从要素名单中进行抽样的方法。然而许多研究都需要从一个不易获得抽样名单的总体中抽样。•例如:一个城市、一个国家的人口、全国的大学生