第三讲抽样原理和方法一、抽样原理问题1:抽样调查与全面调查各有什么优缺点?(民意调查实务P178-179)比较适用于所给条件的调查方式抽样调查全面调查经费预算低高时间要求短长总体大小大小总体特征的方差小大抽样误差可能造成的损失小大非抽样误差可能造成的损失大小测量(实验)的性质毁灭性的非毁灭性的是否需要特别注意各个个案是不是问题2:抽样的理论根据是什么?(传播研究调查法P31-33)1、统计长性法则(LawofStatisticalRegulation):无论何种事情,在其全部内任选一部分来观察,平均来说,这一部分必有全部的普遍特质。2、大数惰性法则(LawofInertiaofLargeNumbers):无论何种现象,当大量观察时,其间偶然发生的现象,恒可互相抵消,而成为普遍的中庸现象。除非发生特殊情况,变化常极小。3、少数恒少原则(LawofPermanenceofSmallNumbers):无论何种事物,其罕见的现象,或具有非常的性质者,常为少数。抽样分布定理(中心极限定理)正态近似定理在容量为n的非常简单随机样本中,样本均值X以n/的标准误差围绕着总体均值μ波动。随着n的增大,X的分布也就围绕着其目标波动得越来越小,它也就越来越接近于正态(铃状)。近似地)/,(~2nNX正态分布:铃状的、对称的分布正态分布曲线如果从总体中重复抽取了许多许多容量为n的非常简单随机样本,那么:有90%左右的样本的平均值会落入μ1.64SE的范围之内有95%左右的样本的平均值会落入μ1.96SE的范围之内有99%左右的样本的平均值会落入μ2.58SE的范围之内问题3:样本中的偏差是怎样产生的?随机误差和非随机误差偏差(系统误差):抽样框偏差、有意挑选、回收率低等问题4:如何避免得到有偏的样本?随机抽样完整的抽样框严格的质量控制问题5:抽样调查具有哪些特点?随机性原则(按概率规律抽选样本)可以从样本(的数量特征)估计总体抽样误差可以计算(控制)二、抽样的基本概念◆元素(element)收集资料中的一个单位一个人、一个家庭、一个电台、一个广告、一个文章、一个单词◆总体(population)与样本(sample)总体由研究所界定的元素(个体)的全体所组成样本是总体的一部分,是按一定的程序从总体中抽取的每个抽中进入样本的单元叫做入样单元◆研究单位(studyunits)研究单位(单元)涉及到实际的测量过程是根据研究内容的要求确定的研究单位可以细分成四种类型抽样单位(samplingunits)记录单位(recordingunits)关系单位(contextunits)分析单位(analysisunits)1.抽样单元在抽样的某些阶段中,所考虑的总体的元素或元素的集合理论上可以将总体划分为互不重迭又穷尽的有限多个部分每个这样的部分就是一个抽样单元:由一个元素或多个元素组成按抽样的过程将抽样单元由大到小(或由先到后)分级一级抽样单元(初级单元)、二级抽样单元(次级单元)、三级抽样单元,最后一级(或最小一级)也叫做基本抽样单元例如在一项报纸广告内容分析的研究中总体是1997年至1998年的200份国内报纸一级抽样单元:报纸二级抽样单元:版面基本抽样单元:四分之一以上版面的广告例如在全国性的受众调查中总体是全国9岁以上的中国公民一级抽样单元:省(直辖市、自治区)二级抽样单元:市(县)为二级抽样单元三级抽样单元:街道(乡、镇)四级抽样单元:居委会(家委会、村委会)五级抽样单元:住户基本抽样单元:家庭成员2.记录单位编码过程中归类的内容单位,是内容分析中最基本的单位可以与抽样单位相同,也可以不同例如在Olson(1994)的一项关于性和肥皂剧的研究中记录单位:一个具体的性举止恋爱的触摸、性交往的视觉、语言的描写然后再按性举止的动作归成几个类别一项内容分析中,记录单位可能是多个3.关系单位将内容分类时,能够提示研究者应该考察哪些上下文的单位关系单位可能与记录单位相同,也可能大于记录单位,但不会小于记录单位例如为了对电视人物的社会经济状况进行分类需要考察人物所在的环境、特征(服装、语言等)和行为等环境、特征、行为就是需要编码的上下文关系单位例如在Olson(1994)的关于性和肥皂剧的研究中评价某特定的性举止的性质时关系单位:所在的场景(scene)考察场景可以帮助对性举止作分类一个场景可能包含一个以上的性举止(记录单位)4.分析单位进行假设检验或回答研究问题等统计分析时所用的单位记录单位可能就是分析单位,也可能不是分析单位分析单位不可能小于记录单位例如在一项电视节目暴力的研究中记录单位:人物的动作是记录单位分析单位:每个电视节目中侵略性动作要统计侵略性动作的次数或所占的百分数一项研究中分析单位可能是多个◆抽样框(samplingframe)包含所有抽样单元的详细名单、地图或其它形式的资料在抽样框中,每个抽样单元都有自己的对应位置或顺序抽样单元的位置一般通过编号来规定理想的抽样框应该是完备的抽样框中的抽样单元既没有重复,也没有遗漏◆总体参数(populationparameters)也叫做总体指标或调查的目标量是根据研究的目的和内容确定的、需要通过样本数据进行估计的、描述总体特征的某些未知的常数1.总体均值(populationmean)例如:某市居民平均日收看电视的时间某电视台平均日播放的卫生巾广告条数我国居民的平均年收入2.总体中具有某种特征的元素(个体)所占的比例(populationmean)例如:某市居民中每天收看栏目A的忠诚观众的比例某电视台播出的卫生巾广告条数占全部播出广告量的比例我国居民中年收入超过万元的人数的比例3.总体总量(populationtotal)例如:某市利用新媒体(互联网)的居民的总数某电视台一年中所播放的主旋律电视剧的总时数观看CCTV黄金时段广告节目的观众总人数和总人次◆抽样误差(samplingerrors)随机抽样抽出的样本,虽然对总体有一定的代表性,但并不等于总体。因此用样本估计总体肯定会产生误差,这一类误差就叫做抽样误差。抽样误差是可以根据统计理论估计出来并加以控制的。◆非抽样误差(non-samplingerrors)非抽样误差指的是在抽样和收集数据过程中,由于人为的差错所造成的误差。这一类的误差是无法测量的,只能通过一定的措施尽量减少它们的出现。◆置信水平(confidentlevel)置信水平(置信度)是估计抽样误差时必须用到的重要概念在抽样设计或宣布抽样调查的结果时,一般都会同时给出两个数例如,宣布某个抽样的结果其置信度为95%,误差不超过3%问题6:抽样方案设计中应包括哪些内容?◆明确研究的目的,确定研究所要估计的主要目标量在一般的受众研究中,需要了解相关媒体的受众总量、受众的结构、受众的媒介接触行为、对现有媒介产品的意见、态度要估计的总体目标量:总体总量、均值和比例等在一项研究黄金时段电视节目中暴力行为的内容分析中要估计的目标量:“有暴力行为的节目所占的比例”“各种类型的暴力行为所占的比例”“平均每天播出暴力行为的个数”,等等◆定义研究的总体,明确抽样单元在一般印刷媒体的读者研究中总体:某个地区所有9岁以上的居民(包括读者和非读者)最小的抽样单元:个人在印刷媒体的可读性研究中总体:该地区的所有9岁以上的读者在一项报纸新闻的内容分析中总体:1998年1月1日至1999年12月31日期间“人民日报”、“光明日报”和“文汇报”的头版新闻报道最小的抽样单元:根据研究目的可能是报纸,也可能是文章◆确定或构造抽样框定义一项研究的抽样框是容易的但是要得到抽样框却经常是困难的受众研究中全体居民的名单几乎是不可能得到的儿童电视节目人物研究中,要列举某个时期内播出的所有儿童电视节目中的人物也是不现实的解决办法之一:采用多级抽样法例如受众研究中:准备前几级元的抽样框(如城市名单、居委会名单等)最后一级或两级的抽样中,仅对抽中的单元准备“抽样框”只对抽中的居委会列出住户的名单、或画出该居委会的结构图◆选择适当的抽样方法抽样设计的难点和关键根据:研究目的、内容、总体的情况、研究的精度要求、经费的多少原则:适用性、科学性、可操作性◆确定样本量的大小影响样本量大小的因素是复杂的从统计理论来考虑:抽样方法、对主要目标量的精度要求、置信度一般还需给出总体参数的估计式、抽样误差估算式等◆制定抽样方案的实施细节例如,最后一级抽样中采用等距抽样法具体规定:如何排列住户顺序如何抽取第一户拒访或家中无人时如何处理必要时如何调换样本等三、抽样技术的分类问题7:抽样技术分成哪几类?(民意调查实务P183)非概率抽样抽样单元的抽取依赖于研究者的个人判断也可能对总体特征给出很好的估计但不可能对估计的精度作客观评价概率抽样抽样单元是随机地抽取的可以预先规定抽取到每个样本的概率可以确定样本估计量的精度可以计算置信区间因此可以对总体进行估计和推断四、随机抽样技术问题8:常用的概率抽样技术有哪些?各有什么优缺点?(民意调查实务P185-195)(调查研究中的统计分析法P315-348)简单随机抽样系统抽样(等距抽样)分层抽样整群抽样多级抽样1、简单随机抽样(simplerandomsampling)是最基本的随机抽样方法考虑总体中有N个元素,要从中抽取一个由n个元素组成的样本。假定抽样是不放回的,那么共有CNn种不同的抽取方法。如果每个可能的样本被抽到的概率都相等(1/CNn),则称这种抽样为简单随机抽样(SRS)。如果抽样是有放回的,称非常简单随机抽样(VSRS)。例从以下由N=5个元素X1=10,X2=15,X3=20,X4=25,X5=30组成的总体中(总体的均值μ=20,方差σ2=50,标准差σ=7.07),抽取一个由n=2个元素组成的简单随机样本。试给出所有可能的抽样结果。解:从5个元素中抽取2个元素,共有C52=10种不同的抽取方法。下表给出了这10个可能样本的情况。显然,每个样本被抽到的概率都等于1/10。而且这10个样本均值的总平均(期望值)就等于总体均值μ=20。表从N=5个元素的总体中抽取n=2个元素的10个可能样本样本编号样本元素编号样本数值样本均值与期望值的偏差11,210,1512.5-7.521,310,2015.0-5.031,410,2517.5-2.541,510,3020.00.052,315,2017.5-2.562,415,2520.00.072,515,3022.52.583,420,2522.52.593,520,3025.05.0104,525,3027.57.5平均20.00.0如何实现SRS?◆抽签法◆随机数字表法例试从N=500个居民户中抽取一个n=10户的简单随机样本,试用随机数字表说明抽样的过程。解:将总体抽样框中的500户按001-500(或按000-499)编号,从表中的一个随机位置(画框的位置)开始,向右(或向下)连续地以三个数字为一组摘取数字,从而得到10个三位数字组的简单随机样本,其中样本的前4个元素所对应的三位数字组为:414,120,143,(659),254,┄┄┄注意,顺序读出的第四组659(括号内的数)超出了001-500的范围,把它去除就是了。随机数字表(部分)......................................855383299556270924432178550982....377949123848139355964192457151....890939592400064141201436592547....766216486858761714865953115221....718213504127551024922804675344....341804523574133935226895239235....112099451876519484861379933755....273783287179579513910961872521....106581925977316195462044903264....5971741732