社会科学研究领域的定量分析过程与方法

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

本讲的主要内容1.1.理论的作用1.2.提出问题1.3.生成假定1.4.收集数据1.5.分析数据1.6.假定检验1.7.分析结果陈述导论经济学实证研究:(1)探究宏微观经济的运行及其结果(2)评估政府政策对经济运行的影响合适的理论、科学的方法和合理的步骤有助于有效地发掘事物之间关联的显性和潜在机制一个普遍的问题:理论、方法和与经验材料分析的脱节:对理论理解的欠缺对研究方法掌握的不足对研究过程和方法本身的不了解,等等目的勾勒出经济学实证分析的研究过程探讨在此过程中需要遵循的行为规范;寻求整合研究理论与数据处理的最优途径演绎法(deduction)和归纳法(induction)演绎法从一般到个别,即从(1)逻辑或理论上预测的模式到(2)观察检验预期的模式是否确实存在;换言之,演绎法是从“为什么”推延到“是否”归纳推理从个别到一般,从一系列特定的观察中,发现一种模型,在一定程度上代表所有给定时间的秩序两种途径的结合可以寻求人们对事物更有力、更完整的理解研究过程与方法研究过程:探求事物原理和关联时遵从的一系列行为;研究方法:研究过程实施的手段。方法寓于过程之中,也指导研究过程和步骤的实施。通过这些行为和方法,研究者最终得以回答研究问题定量研究的5个基本步骤和过程:提出问题、生成假定、收集数据、分析数据、检验假定与理论互动,既被理论影响,也验证理论的适应性理论:科学的逻辑层面数据:观察层面检验假定:比较预期的逻辑和实际观察之间的吻合度提出问题生成假定理论检验假定分析数据收集数据图1.科学研究流程注释:双向箭头表示相互影响,单向箭头表示先后顺序理论理论关心的是是什么(whatis)和为什么(why)、而不是应该(shouldbe)如何。理论不是价值判断,而是对事物之间联系的系统的、言之成理的客观描述、总结和解释理论与方法论关系:车之两轮、鸟之双翼因研究、解释的对象和构建的不同可以分为三个层次:宏观理论,中层理论和微观理论经济理论宏观经济学理论、微观经济学理论应用经济学理论:1.劳动经济学理论2.环境经济学理论3.卫生经济学理论4.交通经济学理论5.其它步骤I:提出问题研究工作的起点是研究问题的提出,包括:研究问题的提出研究内容的确定研究对象的选择研究概念的界定如何提出研究问题研究问题的好坏直接影响研究的意义和价值,成果去向、用途和影响研究问题:具有明确的实际意义和(或)学术意义如何提出新颖且有价值的研究问题?能否提出问题、提出怎样的问题?如何弥补资料积累不多、阅历不深的不足呢?用眼观察,用心感受形形色色的社会现象从新闻媒体、个体体验和直觉中获得启示从与他人的交谈中开启思路从文献的检索中得到灵感,帮助提出合适的研究问题主观问题和客观问题客观问题,描述客观现象之间的关联(是/否)。比如:父母的收入水平影响子女的教育程度吗?限制性的生育政策导致了出生性别比的失衡吗?客观问题不能只靠推理、设想、道德判断等方法来回答;实证研究方法主观问题,表达个人的价值判断(好/坏)。比如:城市的生活方式比农村的生活方式更好吗?男性比女性更适合担任领导工作吗?“更好”、“更适合”:主观成分,不能被直接检验;需要重新定义通过将主观问题客观化,带有个人主观价值判断的问题就演变成对客观事物之间关系的描述了,也成为可经实证检验的科学研究问题了确认研究总体(Population/Universe)在提出研究问题的过程中,同时也确定了(1)研究目的;(2)研究内容;(3)研究总体总体:理论上研究要素的特定集合体以人为研究对象的总体:社会科学和行为科学领域的主要研究对象是人人们为什么会做出这样的举动,而不是其它举动为什么有的育龄妇女子女众多,而有的很少,甚至不生孩子为什么男性的收入高于女性全体人群、所有育龄妇女、全体男性和女性=总体以非人为研究对象的总体:组织机构、制度、物品等定义概念概念指物体(如,书本)、行为(如,犯罪)、观点(如,成绩好)或现象(如,年轻),等等概念化缩小研究范围,使研究更具有可行性和操作性概念可大可小。有的相对抽象、较为模糊若是想对某个事情(物)获得一个“思想把手”,从而更清楚地将自己的观点对他人表达出来的话,这样的概念多比较模糊个体“经济成功”:为什么有些人经济上取得很大成就,而其他人却未能成功概念也可以是比较具体、容易被观察或体验,比如生育率不是所有的研究问题或与此相关的概念都与人有关。“大学”、人口的年龄分布、犯罪率、职业机会量化概念变量:概念的可衡量指标。概念相对抽象;变量具体、能被观察和衡量;被观察到的特性即属性。比如:将年收入在10万元以上的个体定义为经济成功。“经济成功”=概念,“年收入”=变量,具体的收入水平=属性“大研究机构”:什么是“大”?学生的数量、老师的数量、校园的面积?概念变量属性成绩好平均成绩每个学生的成绩介于A-F之间智力IQ测试每个个体都有一个介于某个区间的数值年轻年龄青年、中年、老年经济成功年收入$50000-100000等表1.“概念、变量、属性”之间的关系步骤II:生成假定研究背景的回顾理论模型的构建理论假定的生成假定的生成假定是两个变量之间关系的陈述,也即是未经检验的、对研究问题的回答假定是尝试性的,尚未经过实证的检验或核实假定不必是正确的,但必须是可以经过检验的假定关注事物之间的因果关系。例如:教育程度越高,收入越高男性的收入高于女性的收入女性占绝大多数的职业的收入水平低于男性占绝大多数的职业的收入水平因果关系存在的条件相关关系——二者同变(co-vary)。一个因素的变化必然导致另一个因素的变化。换言之,两个因素之间必须存在直接或间接的逻辑关系,而不是风马牛不相及的。然而,同变(co-variation)虽是因果关系的必要条件,但不是充分条件。因果关系的存在还必须满足以下前提:时间顺序(timeorder):假定之因必须发生在假定之果之前;真实关系(nonspuriousness):两个因素之间的关系必须是真实的,不能被其它因素所取代。只有排除因素之间的虚假关系(spuriousness)——两个变量之间巧合性的统计关系,实际上是由第三个变量引起的——后,才能真正建立两个因素之间的因果关系因果关系的类型直接因果关系。一个因素对另一个因素发生直接作用。如父母的收入与子女的教育机会间接因果关系。一个因素对另一个因素的影响是通过第三个(中间)因素实现的。如温度与犯罪之间的关系直接和间接因果关系。一个因素通过直接和间接双重路径对另一个因素发生影响。如性别对收入的作用受到调节的因果关系虚假的因果关系。一个因素对另一个因素的影响实际上并不存在。相反,这两个因素都是由一个共同因素而决定的直接关系间接关系直接和间接关系职业温度户外活动时间犯罪率性别收入调节关系虚假关系性别观念派出救火车的数量生育政策的强弱火灾规模社会经济损失大小出生性别比失衡其它因素现代科技父母的收入水平子女的教育机会假定的类型假定描述两个变量之间的关系,且通常是因果关系:“是什么引起了什么”。假定的“引起变量”即为自变量,而假定的“被引起变量”为因变量自变量和因变量之间的关系可以表现为不同的性质正关系:指自变量水平的增加(因)导致因变量相应的增加(果),反之亦然;在正关联中,自变量和因变量的变化的方向一致:负关系:指自变量水平的增加导致因变量相应的降低,反之亦然;在负关联中,自变量和因变量的变化的方向相反性质不明确:有时,在生成假定时,我们并不明确因果的正负方向。但这并不意味着两个变量之间缺乏联系,而只表明,我们不知道他们是如何相关的步骤三:收集收据省略步骤IV:数据的分析样本的确定变量的定义描述性统计推断性统计在这个阶段,统计分析在研究过程中扮演十分重要的角色样本(sample)与总体在提出研究问题的同时,需要认定研究总体总体与样本样本不同于总体,但来自于总体,是总体的一部份。比如一位老师想知道大学一年级学生的平均年龄。如何获得相关资料?一位研究生打算检验婚姻市场上“甲女丁男”的现象是否成立。如何获得相关资料?根据样本得出的特征不一定完全等同于总体特征,但若样本选择恰当、具有代表性的话,其分析结果可能十分接近总体特征,并可推断到全部人群——从样本中发现的规律也就是整个人群的特征和规律变量按因果关系区分:自变量vs.因变量按衡量方式区分:连续变量(continuousvariable)和离散变量(discretevariable)(属性互不相连,完全和排斥的类别)按存在方式区分:内生变量(endogenousvariable)或外生变量(exogenousvariable):例如自变量:按研究问题区分:主要自变量vs.控制变量变量的内生关联性(endogeneity)I变量的内生关联性之源包括双向因果关系遗漏变量偏误(omittedvariablebias)选择性偏误(sampleselectionbias)以教育与收入的关系为例:其中,y=收入;x1=教育水平;x2=其它因素x1与y可能存在内生关联性,因为被忽略的第三者(比如“智力”)可能同时影响教育和收入,即个人的智力同时导致了教育水平的高低和收入的多寡,而不是教育影响收入如果不对内生关联性问题进行处理的话,分析结果可能产生偏误exbxby2211**变量的内生关联性(endogeneity)II解决自变量与因变量之间内生关联性问题的主要途径:使用工具变量(instrumentvariable)采用固定效果模型(fixedeffectmodels)局限:在一般的数据中,很难找到“工具变量”;“固定效果模型”也仅仅适用于某些类型的数据工具变量法:选定一个与有内生关联的自变量关系密切、却与误差项无直接关系的“工具变量”来预测自变量,并利用预测的数值来预测因变量“工具变量”的使用有时与“2stageleastsquares”(2步骤最小方乘)方法相当,虽然后者不全是前者变量的内生关联性(endogeneity)III假如变量Z代表从家里到学校的距离。假定Z与教育水平有关,却与收入无关。因此,到学校的距离越近,教育程度越高,但到学校的距离不会影响收入。于是,首先分析:(阶段1)然后,利用预测的数值,预测(阶段2)在该公式中,是预测的。基本原理就是利用变量Z随机分布x1完美的工具变量是试验:将教育水平随机指定到不同个体,再利用随机指定的教育水平预测收入;使用工具变量即是创造一个虚假的试验uZcx*11exbxby2211*ˆ*1ˆx描述性方法通过一系列的程序帮助组织、归纳、总结样本的基本特征常见的方法包括:频数的分布;均值和标准误差;中数,众数,最大值和最小值;二元或多元交叉表,二元相关关系;相关系数描述数据是数据分析的第一步,也是必不可少的一步。帮助研究者熟悉、认识和了解数据的分布特征,变量之间的关系,从而决定是否有必要对数据作进一步的分析处理局限:研究者无法判断变量之间的关系是否为独立关系描述性的分析结果也不能直接地用于揭示整体人群特征描述性方法是不够的,必须采用推断性统计分析方法推断性方法应用概率理论,根据观察到的样本特征预测和推断总体特征若样本代表全体人群,则总结性的推断也具有很高的可信性,即便不是100%的自信统计上的重要性检验帮助判断假定关系实际发生的概率只有推断性方法,才能检验假定是否成立置信水平:常用的包括90%,95%,99%置信水平的选定受多种因素的影响,包括样本量的大小。通常情况下,样本量越大,置信水平的要求越高(如,99%)。若数据的样本量较小,置信水平可适当放宽模型的选定标准?数据的结构因变量的属性一般情况下,虚拟变量:使用binarylogistic模型;连续变量:使用线性模型图2不详尽其它模型问题1:职业与生育关系研究问题2:生育水平决定因素研究问题3:中国家庭经

1 / 41
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功