社会经济调查研究方法西安财经学院经济学院经济学系王宗鱼第一章导论第一节调查研究概述一、社会调查研究方法的界定:就是通过向被访者询问问题来搜集资料,并对资料进行统计分析的一种量化的社会研究方法。理解其内涵需注意以下三点:1、询问-作为调查研究的基本要素,是一个科学测量过程。2、选取有代表性的被访者,是调查研究成功的关键。抽样调查-现代调查最常用的技术。抽样误差-抽样调查特有误差,影响抽样质量。第一节调查研究概述(1)随机原则(2)增加样本数目(3)选择恰当抽样方式3、统计分析-是完成调研的必要环节。总之,社会经济调查研究—是通过对事实的考察,现状的了解,材料搜集来认识社会经济问题,或探讨社会经济现象之间联系的研究方法。第一节调查研究概述二、调查研究发展简史(一)近代调查研究_主要包括行政和社会问题调查。公元前21世纪夏朝华夏大地分九州人口1355万人土地约2438万顷1676年英国威廉.配第《政治算术》首次以数字资料为基础用计算和对比方法,系统地比较了英、法、荷三国经济、军事、政治等方面的实力。并提出用图表形式概括数字资料的理论和方法。政治算术学派是采用计量方法研究社会经济问题,应用大量观察法、分类法、通过对比、综合、推算等方法解释与说明社会经济活动,构建了初具规模的社会经济统计的研究方法体系。第一节调查研究概述(二)现代调查研究-民意测验、市场调查和研究性调查。从调查研究发展简史中可以看出,调查研究是一项综合了多项技术的研究方法,抽样和统计分析技术的完善,进一步扩展了调查的应用范围。三、社会经济调查研究的局限性1、缺乏弹性2、无法了解被访者具体的生活情境3、易受人为因素影响第二节调查研究分类一、按调查对象的范围分类:1、普查:人口普查(53、64、82、90、2000)2、抽样调查二、按调查目的要求分类1、探索性调查2、描述性调查3、解释性调查三、按执行方式分类:1、自填问卷2、当面访问3、电话访问(2009年底,中国电话用户数10亿6千万户,其中移动7.5亿户)第二节调查研究分类四、按时间维度分类:1、单一时点的横剖调查2、多重时点的纵贯调查五、按应用领域分类:1、人口调查2、抽样调查3、民意调查4、市场调查5、社会问题调查6、居民家计调查7、学术性专业调查第三节调查研究的一般过程一、调查设计(一)调查工作的总体规划(二)抽样设计(三)资料搜集和处理方案二、实际抽样三、资料搜集四、资料处理五、撰写报告—调查研究的最后一步第二章抽样设计第一节抽样概述一、抽样的概念:抽样是指根据某种既定规则从一个总体中选取一组元素的过程,由此产生的元素集合称为样本。抽样方法大体可分为两类:1、非概率抽样—依据主观愿望、判断或方便与否选取。2、概率抽样—按随机原则选取样本。两种方法的最大差别是:非概率抽样无法估算出抽样误差第一节抽样概述二、非概率抽样(一)方便抽样(任意抽样)又称为偶遇抽样—是指研究者使用对自己最为便利的方法抽样,它是非几率抽样中最简便、费用最省的一种方法,多用于市场初步调查,或对市场情况不甚明了时采用,正式调查较少采用。(二)判断抽样—是根据研究目的或专家判断来选取样本。其对研究者的研究素质有较高要求。市场调查实践中常用的典型调查、重点调查,其实质属于判断抽样法的具体应用。(三)配额抽样—是指市场调查总体按某些属性特征进行分层,对分层后的副次母体样本,按一定的特征规定样本配额,配额内的样本则由调查人员主观判断选定。(四)雪球抽样—也称网络抽样,是一种根据已有研究对象的介绍,不断辨识和找出其他研究对象的累积抽样方法。第一节抽样概述三、概率抽样设计特点(一)编制抽样框:进行概率抽样,必须先找到一份近似涵盖所有总体元素的清单,然后从中抽取部分元素,这份元素清单被称为抽样框。(二)选择抽样方法:概率抽样是按照随机原则从总体中抽取部分要素构成样本来推断总体数量特征的方法。所谓随机原则是指抽样时总体的每个元素都有一个已知的、非零的被抽取的概率。常见的抽样方法有:简单随机抽样、系统抽样、分层抽样、整群抽样和多级抽样等。(三)估计抽样误差统计值与参数值之间的差异被称为抽样误差(四)确定抽样规模由于样本规模的大小直接影响到抽样变异性,因此抽样设计需要事先估计有效样本规模。第二节总体与抽样框一、总体定义编制抽样框工作的第一步是定义总体,只有对总体构成及边界有一个清晰的认识,才能最大限度的使抽样框与总体保持一致。具体来说,总体可划分为目标总体和抽样总体。1、目标总体:是理论上具有研究者所考察特征的总体元素。2、抽样总体(调查总体):有那些有机会被抽取到的总体元素构成的集合体,就是抽样总体或调查总体。如对某市大学生择业倾向调查中的“大学生”二、编制抽样框对于抽样而言,真正具有操作意义的是确定抽样框,没有抽样框实际抽样就无法进行。抽样框有两类:1、名单抽样框2、区域抽样框第三节概率抽样一、简单随机抽样:也叫纯随机抽样。它是概率抽样的最基本形式,其他概率抽样方法都是在此基础上派生出来的。常用的抽样方法包括两种:(一)抽签法:当总体数目N不大时,可以采用之。(二)随机数法:当总体单位很多时,通常采用随机数法。具体操作可以利用随机数表、随机数骰子、计算机产生的伪随机数等进行抽样。其中最常用的是随机数表。随机数表是由范围在00001~99999内的五位数的随机数排序构成。(若N﹤100000,可随机抽取样本)第三节概率抽样用随机数表产生随机数,需解决以下问题:1、确定随机数的位数。如N=900即需要3位数的随机数。2、决定从5位数组中选择那几位数字。左~右,右~左或中间3位。3、确定在表中选择数字的顺序。上~下,下~上,左~右,右~左,对角线4、确定开始选择的5位数组起点。5、处理大于总体规模或重复的随机数(跳过或舍弃这个数)第三节概率抽样二、系统抽样实际抽样中经常采用的是系统抽样,又称机械抽样。由于等间距抽取,是最常用的规则,故又称为等间距抽样。常用的等距抽样方法包括:直线等距抽样和循环等距抽样,两者的区别在于总体规模N是否为样本规模n的整数倍。(一)整数抽样间距(直线等距抽样):当N是n的整数倍,间距k=N÷n为整数,先在1~k的范围内抽取一个随机数r作为起点,然后每隔k个单位抽出一个单位,直到抽足n为止。(二)非整数抽样间距:当N不是n的整数倍时,可采用以下两种方法抽样:第三节概率抽样1、循环等距抽样:先将N单位,首尾相接,排成一个封闭园,间距K取最接近N/n的整数,再从1~N中随机抽取一个起始单位,然后每隔K抽取一个单位,直到抽足n单位为止。2、调整直线等距抽样:先将非整数K的小数点后移,使其称为整数K,然后再1~K之间选定一个整数随机起点,接下来再将r的小数点移回来,成为非整数随机起点,由其开始每隔K各单位抽出一个单位,直到抽足n个单位,再将小数部分略去,便相应得到入样单位号码。注意排队方法。无关标志排队;有关标志排队。第三节概率抽样三、分层抽样(也叫类型抽样)(一)定义:也叫类型抽样,是先将总体N个单位,按某种特征划分成若干个子总体,称为层,然后在每个层中分别独立的进行抽样,最后将抽出的子样本合起来构成总体样本。(二)适合条件:分层抽样要遵循:“层内同质性,层间差异性。”这种方法适用于母体范围大,母体中各子体间差异大且分布不均匀时抽取样本。(三)样本量在各层的分配方法1、分层比例抽样(最常见):依各层占母体的比例确定应抽样本数。第三节概率抽样ni=(Ni÷N)×n如:调查某市居民家用电器用品潜在需求量。已知该市有居民户100万户,计划抽取样本1000个(1‰),居民家庭按收入划分为高、中、低三层,其中高收入户15万户,中等收入户65万户,低收入户20万户,若采取分层比例抽样,各层应抽取样本数分别是:高收入层应抽取=(15÷100)×1000=150户中收入层应抽取=(65÷100)×1000=650户低收入层应抽取(20÷100)×1000=200户2、分层最佳抽样法(也叫非比例抽样法):它不仅按各层占母体中的比例来分配样本数,而且还根据各层的样本标准差的大小,调整各层的样本数目的抽样方法。它采取同时兼顾层的大小和差异程度大小来抽样。各层样本数计算公式为:ni=(NiSi÷∑NiSi)×n若S高=300元S中=200S低=50因为∑NiSi=15×300+65×200+50×20=4500+13000+1000=18500所以,n高=(4500÷18500)×1000=243户n中=(13000÷18500)×1000=703户n低=(1000÷18500)×1000=54户3、最低成本抽样法:如果各层单位调查费用差异较大,样本量最优分配原则是:单位调查费用越低的层,抽样越多。这时抽样比与层内单位平均调查费用的平方根成反比。样本量的确定公式为:ni=【(NiSi/√Ci)÷∑NiSi/√Ci】×n例如调查一个市的市场情况,从地理位置上分为城区、近郊区、远郊区县。如果各地区之间水平差异不大,抽取一定样本都能反映母体情况,而远郊区县调查费用较高,可适当调低选样数目,以便降低调查费用。实际抽样中,除非各层的标准差相差非常大,一般大多采用按比例分配的方式确定样本数。四、整群抽样(一)含义:是先将总体划分成若干个群,然后按随机原则从总体中抽取一部分群,由抽取的群构成总体样本。通常情况下,其抽样误差大于简单随机抽样,但其抽样框编制容易,样本单位分布较集中。(二)群的性质:经常用到的是“自然群”。即由行政或地域区划形成的群。如学校、企业、区县、村镇、省市。群的划分应遵循以下原则:群内方差尽可能大,群件方差尽可能小。即群内差异性,群间相同性。与分层原则恰好相反:异质的群,同质的层。第四节抽样误差与样本规模实际抽样中,影响样本代表性的有两类误差:抽样误差和非抽样误差。其中抽样误差是一种随机误差,只要进行抽样调查,都会产生抽样误差。但在概率抽样中,抽样误差是可以事先估算出来的。一、简单随机抽样的抽样误差(一)重复抽样方法下1、平均数的抽样平均误差(ux)2、比率的抽样平均误差(up)(二)不重复抽样方法下1、平均数的抽样平均误差(ux)2、比率的抽样平均误差(up)第四节抽样误差与样本规模从上述计算公式中可以看出:不重复抽样方法下的抽样平均误差总是小于重复抽样,所以,实际中为了提高样本代表性,通常采用不重复抽样方法抽取样本。二、简单随机抽样的样本规模(样本容量)计算确定(一)影响样本规模的因素:1、总体标准差大小2、抽样推断概率保证程度3、抽样允许误差即抽样精度的高低4、抽样方式的不同5、抽样方法不同第四节抽样误差与样本规模(二)样本规模的计算1、重复抽样方法下平均数和比率的样本规模计算2、不重复抽样方法下平均数和比率的样本规模计算注意问题:1、上面公式计算的样本规模是最低的,也是最必要的样本。2、一般总体方差是未知的,在实际计算时往往利用有关资料代替。在比率的方差完全缺乏资料的情况下可采用比率方差最大值0.25来代替即p=0.53、如果进行一次抽样调查,同时对总体平均数和比率进行区间估计,可计算两个样本容量n1和n2,一般情况下,为了同时满足两个推断的要求,一般在两个样本容量中选择较大的一个。第四节抽样误差与样本规模•4、计算的样本容量不一定是整数,如果带小数,一般不采取四舍五入的办法化成整数,而是用比这个数大的邻近整数代替。如n=64.03,则样本容量应确定为65个。第三章抽样实务及问题第一节区域抽样区域抽样是一种实用的抽样方法,它能为抽选居民住户提供很好的抽样方法。一、按户籍资料PPS抽样(按规模大小成比例的概率抽样)步骤如下:(一)计算总的抽样比(二)确定各级抽样单位和计划样本规模(三)对PSU(初级抽样单位)分层和确定层内样本规模(四)在层内抽取PSU(五)在PSU内抽取次级抽样单位第一节区域抽样二、从住户中抽取被访者—户内抽样一般说来,多阶段抽样的最后一级抽样单位往往是居民住户,但所抽到的居民住户大多是由多名成员构成的。在实际调查中,通常需要从这些成员中按一定规则抽取一位成年人作为调查对象,这就是所谓的户内抽样。当前抽样调查中比较常用的是K