定量资料分析一、资料的定量化有些资料天生就是数值型的:年龄和收入有一些资料很容易转化为数值:性别有一些资料可以轻易地被指派为数值:宗教从属关系、政治党派、国家地区二、编码将一些问题转换,以便电脑能够读懂,这个过程就是“编码”,也称为“编码过程”。选择编码的要求:要和研究中使用的理论概念相符。虽然编码方案必须配合研究的特别需要,但是其中有一个总的原则,即使在编码时把资料分得很细,一旦不再需要这么细的分类时,仍然可以把这些资料进行重新的归并;但若资料一开始便粗略地编入少数的类别中,那么分析时有很多细节性的信息将因此而完全丧失。因此,建议你们在编码过程中,最好将资料分得详细一些。(一)设计编码类别1.可以根据研究需要,设计出一种相对容易的编码方案;2.编码方式来源于你的资料。例如:问题:学校里面临的最大问题是什么?学费太高停车位不够教员不知所为找不到辅导员课程不够宿舍里有蟑螂规制太多自助食物不干净书本开销太高财政帮助不够针对这10个回答,有好几个编码方案。“学费太高”:显示的是“财政关注”,是否还有其他回答可以放在其中呢?发现:书本开销太高财政帮助不够这两项属于“财政关注”问题。“学费太高”:也可以显示这是一种“非学术关注”。被编码为“学术的”和“非学术的”学生关注为:学术的非学术的学费太高X停车位不够X教员不知所为X找不到辅导员X课程不够X宿舍里有蟑螂X规制太多X自助食物不干净X书本开销太高财政帮助不够X被编码为“管理”和“设施”的非学术关注学术的管理设施学费太高X停车位不够X教员不知所为X找不到辅导员X课程不够X宿舍里有蟑螂X规制太多X自助食物不干净X书本开销太高X财政帮助不够X对一套资料的编码,有多种可行的方案可供选择,只是你的选择要和你的研究目的相匹配,并反映资料本身所呈现的逻辑。(二)建立编码簿编码的最终产物,便是将资料中所有项目转换成数字码。每个数字码代表了每个变量的不同属性,然后以卡片或者列表的形式把它们归总为资料文档。一本编码簿实际上就是相关变量的记录本,从中你们可以查到自己所需要的变量,包括每个变量中的属性号码。编码簿是编码过程中的基本指南;在分析的时候,告诉你们每个变量在资料文档中的位置以及每个号码所代表的意思。如果你想看看某两个变量之间的关系,只要在编码簿中检索你们想要知道的变量,就能得到每个变量所代表的信息。编码簿范例:政治观点最近我们听到了许多关于自由党与保守党的谈论。我给你们一张分成七个等级的量表,分别用来表示人们可能持有的不同的政治态度,从“极度自由派的”——1分,到“极度保守派的”——7分。请问,你们的观点是属于其中的哪一种呢?1.极度自由派的2.自由派的3.偏向自由派的4.中立的5.偏向保守派的6.保守派的7.极度保守派的8.不知道9.无所谓参与你们多久做一次礼拜?0.从不1.一年不到一次2.一年大概一两次3.一年几次4.大概一个月一次5.一个月2-3次6.几乎每周7.每周8.一周几次9.不知道,没有回答(三)数据登录将资料转化为机读格式,电脑才可以读取并处理资料;究竟采用什么方法,取决于资料的原始形式和你所采用的电脑程序。例如:通过调查问卷收集资料,你可以在问卷上进行编码。然后,录入Excel或者SPSS资料矩阵。还可以用光学扫描单来收集资料;还可以资料收集和录入同步进行。电脑辅助的访谈就是如此。一旦资料完全量化并且登录进电脑,那么研究者就可以开始定量分析了。三、单变量分析单变量分析:出于描述的目的,对单个变量进行分析。频次分布、平均值、离散趋势测量都是单变量分析。单变量分析是一次只检验一个变量的分布情形,尤其是属性分布。分布:单变量资料最基本的形式是将所有的单个样本都报告出来,也就是按照问题中的变量列出研究每一样本的属性。子群比较单变量分析描述了研究的分析单位。如果它们是一个来自某一更大规模的人群,那么我们可借此对这个更大的人群做出描述推论。双变量和多变量分析的主要目的则在于解释。在进入解释之前,必须考虑到对子群的描述。2000年不同政治倾向的子群对大麻合法化的反应应该合法化(%)不应该合法化(%)100%=极端自由5545(69)自由5446(199)稍自由4159(172)中立3268(649)稍保守3070(244)保守2080(280)极端保守2575(57)四、双变量分析为了决定两个变量之间的经验关系而同时对两个变量进行分析。一个简单的百分比表格或者一个简单的相关系数的计算,都是双变量分析的例子。双变量分析集中在变量及其相互关系上。此表可以被视为子群比较的范例,但同时也可以被视作解释性双变量分析,反映了一些不同的关系。该表表示,性别变量对“上教堂”变量有影响。上教堂行为在此是因变量,它部分地被自变量——性别所决定。经过适当的转变,我们不再把男性和女性当作不同的子群来讨论,而是将性别当作一个变量:一个对另一变量有影响的变量。男性与女性于2000年上教堂的情况男性(%)女性(%)每周去2533不常去7566100%=(1199)(1538)变量间因果关系的逻辑,对于构建和理解百分比表格有重要意义。两个问题:如何确定表格正确的“百分比的方向”?注意:每个表格中百分比的方向是主观确定的,有一些研究人员喜欢用横向百分比,有人喜欢用纵向百分比。如何“解读”百分比表格?如果各类加总为100%,那么表就是纵向百分比,如果是各行总和为100%,那就是横向百分比。规则如下:如果表格是纵向百分比,按行横向来读;如果表格是横向百分比,按列纵向来读。这个表格假设社区规模可能影响给地区报纸社论对该问题的立场,而不是社论立场影响社区规模。有关报纸社论对大麻合法化立场的假设性数据报纸社会对大麻合法化立场社区规模小于100000多于100000赞成1132中立2940反对6028100%(127)(438)制作解释性双变量表格的几个步骤:1.按照自变量的属性将样本分组;2.按照因变量的属性来描述这些分组好的子群体;3.最后,按照因变量属性将自变量的子群相比较,以解读这个表格。按照上述的步骤,可以分析“性别和对待两性平等的态度”间的关系按照前述的理由,性别应该是自变量,对于两性平等的态度则是因变量。继续如下:1.样本区分为男性和女性;2.按照对两性平等赞成或反对的态度来描述每个性别子群;3.按照赞成两性平等的比例来比较男、女性别差异。在社论对大麻合法化策略的例子中,社区规模是自变量,而报纸社论立场是因变量。表格则如下步骤建立:1.依报纸发行地的社区规模将社论分成子群;2.按照对大麻合法化持赞成、中立或反对立场的百分比来描述这两个社论的子群;3。按照赞成大麻合法化的比例大小来比较这个个社论子群。双变量分析往往表现很典型的因果解释。以上两个例子便内含了社会科学家所说因果关系的本质。前面的表格一般被称作列联表(contingencytable):因变量值必须依靠自变量值而定。一般而言,只要表格容易解读,并没有理由一定要标准化。但有一些基本的原则必须遵守:1.表格必须要有表头或标题,以简洁地描述表中的内容;2.变量原来的内容必须清楚说明——如果可能的话,可呈现在表格中,或者现在正文中,再外加一段赋于表中。当变量是取自于对态度问题的回答时,这个信息尤其重要,因为答案的意义主要取决于问题的问法。3.每一个变量的属性必须清楚地说明。4.当在表格中使用百分比时,必须要说明计算基准。5.若因资料缺失而必须将某些样本删除,其数量必须标示于表格中。四、多变量分析多变量分析:对几个变量之间的关系的同时分析。建立表格的第一步:1.按照两个自变量的属性,将所有样本分成几个子群:年轻男性、年轻女性、年老男性、年老女性2.按照因变量“上教堂次数”来描述这些子群,同时做一些比较。“你们多久上一次教堂?”小于40岁40岁及以上男性女性男性女性大约每周20233038不常80777062100%=(504)(602)(695)(936)当因变量一分为二的时候,只要知道其中一个顺行,读者便可很容易计算出另一个。也就是说,假如我们知道40岁以下女性中有23%每周上教堂,那么我们可以马上知道有77%很少上教堂。因此,根本没有必要报出那些不常上教堂的百分比。所以,可以有另外一种多变量分析表示的形式。百分比之下括号里的数字,则表示百分比基础的样本总数。五、社会诊断分析多元技术可以成为诊断社会问题的强大工具。它们可以用事实代替观点,用资料分析平息意识形态的分歧。举例:性别和收入的问题(对此表进行分析,影响男女工资差异的原因是什么?)1984年性别、工作年限和收入(21-64岁全职职工)现职的工作年限平均每小时收入(美元)男女女性与男性的工资比少于2年8.466.030.712-4年9.386.780.725-9年10.427.560.7310年或以上12.387.910.64除了现职工作年限,他们所考虑到的变量包括:担任现职的年数就业总年数是否经常是全职工作婚姻状况所居住城市规模是否有工会的保护行业类别公司的员工人数是私人还是公有的雇主是否非自愿地离开前一份工作现在职业和前一份工作间隔时间的长短种族是否有残疾健康状况小孩的年龄在高中时是否修过学术课程高中时修过多少数学、科学和外语课程上私立或公立高中教育程度高低该行业中女性所占百分比大学的专业上述每一个变量都有可能影响收入,而且男性和女性在这些方面有差别,也能解释男女收入的差异。当所有这些变量都被纳入考虑范围时,研究人员就可以解释男女工资差异60%的原因。而剩余40%的差异,可可能是因为有其他合理的解释变量,或者纯粹是偏见所致。一些人认为教育水平影响了收入,在过去,女性受教育程度比男性低。因此,我们可以检查教育程度是否可以解释女性从总体上比男性收入更低。教育、性别和收入年平均收入(美元)教育水平男女女性与男性的工资比少于9年24692173130.699-12年28832190630.66高中毕业36770249700.68专科44911292730.65大学肆业46226316810.69本科及以上77963472240.61