1第九章调查资料的统计分析作为社会调查研究对象的社会现象有其质和量两方面,我们对整理好的资料也必须展开定性和定量两方面的分析,缺一不可。但是,定性分析是以研究者的理论功底为基础,主要靠个人的悟性。定量分析就不同了,它是我们每个人通过学习都可以统一掌握的技术。所以学习社会调查研究方法,课堂教学在资料分析方面重点讲得是统计分析,定性分析所需要的悟性则留给学习者平时逐步积累。9.1统计调查资料及其整理经过调查收集上来的资料虽然是大量的,却很可能是杂乱无章的,用它来直接做分析往往有困难。统计整理是对调查数据资料的条理化、系统化和有序化,通过它,社会调查研究才能进入统计分析阶段。因此,资料整理是沟通社会调查和资料分析的桥梁。不过,资料整理在很多情况下是一个自然过程,并非一定先要专门学习不可。但调查来的数据资料有所不同,它的整理有一套规范的做法,这是需要专门学习的。所以与统计分析相匹配,课堂教学在资料整理方面重点讲得是调查数据资料的整理,主要是指统计调查资料的整理,简称统计整理。当然其他调查资料的整理也能触类旁通,由此受到启发。一、统计分组和频数分布统计整理是与统计分组相联系的。所谓统计分组,就是将情况相同或相近的数据资料加以分门别类的归并,使之简单明晰,以便为统计分析中提取各种有用信息打下基础。频数分布是统计分组的结果,它是指众多的调查数据在各个组(各类别、各等级或各区间)出现或发生的次数。频数分布是对客观事物自然形成的分布状态的集中反映和描述。如一个学校的学生的性别有男也有女,而且男同学和女同学的人数不尽相同,我们将这种情况如实地描述出来,便得到该校学生性别的频数分布。将原始资料编排成序列资料,再把序列资料编制成为频数分布表(频数用f表示)。这样一来,学生总体中的性别分布状况就清晰地呈现出来了。原始资料次序资料分组资料,这反映了对资料进行整理和简化的顺序。这三种形式是依次逐步简化和条理化的,使人们看起来越来越容易、越来越清楚。二、频率分布与总体内部结构分组资料虽然简单明了,但不能直接显示出总体内部结构。为了实现这个要求,就要在分组资料的基础上派生出频率分布表(频率用P表示)。频率就是各组人数占总体人数的比重,即P=f/N。比重都小于1,经常用百分数来表达,它反映了对象总体的内部结构。而累计频数或频率,我们便得到向上累计(F↑)或向下累计(F↓)频数表或频率表。这2也是我们常常应用在资料整理之中以便描述的方法之一。三、图示法把无序的原始资料整理成频数分布表,是表示统计资料的一种有效方式,我们可以称为列表法。其实,用图示法来表示统计资料比列表法更能一目了然。我们可以根据整理好的频数分布(或频率分布和累积百分数分布)绘制出相应的统计图。最常用的有直方图、条形图、折线图、曲线图等。9.2统计分析一:描述统计调查数据资料经分类整理后,已经使杂乱无章的原始数据资料成为有系统、有条理的数据资料,这就为统计分析中提取各种有用信息打下了基础。而在社会调查的定量研究中,描述统计是基础。所谓描述统计就是讨论范围仅以搜集资料本身为限,而不予以扩大。包括推论统计在内,没有描述统计作为基础,想要运用好也是不可能的。描述统计所用数学较少,实用性又很强,因此在社会调查研究中使用的机会很多。一、集中趋势统计量1.算术平均数(X)·简单算术平均数统计原始资料,计算简单算术平均,其公式为X=NXNXXXXN321(9.1)·加权算术平均数统计分组资料,计算加权算术平均,其公式为X=NXfXfXfXfnn332211=NfX(9.2)式中f代表频数,由于各变量值Xi对于总体的影响要由各组频数fi所决定,所以fi也称为权数。这样一来,在统计分析中,凡对应于分组资料的计算式,都被称为加权式。而对应于未分组资料的计算式,则被称为原始式。值得注意的是,在统计计算中,权数不仅用来衡量总体中各变量值在总体中作用,同时也反映了对象总体的内部结构,所以它有两种表现形式:绝对数(频数)和相对数(频率)。这样一来,加权算术平均数也可以依据频率分布来计算,(9.2)式也可以写成3X=XNf=PX(9.3)(注:分组资料有单项式和组距式两种。对组距式分组资料要做近似处理,即用每组的组中值mi来权充该组划一的变量值Xi。)2.中位数(Md)用中位数作为集中趋势统计量,在许多场合能发挥很好的作用。所谓中位数,是把一组数据分成相等的两部分,一半数值比它小,一半数值比它小,它居中。所以中位数也是一种反映现象一般水平和集中趋势的有代表性的数值。·原始资料的中位数对于原始资料求中位数,只要先将各个数值按大小排序,再将居中的那个数值拿出来就行了。·分组资料的中位数对于组距式分组资料求中位数,首先按排序的方法找出中位数组,再按下面的公式近似求得中位数hfFNLMmmd12(9.4)式中的L代表中位数组下限,N代表总体单位数,Fm-1代表低于中位数组下限的累积频数,fm代表中位数组的频数,h代表中位数组的组距。(注:对于单项式分组资料,不用近似计算,可很简单得到中位数。)3.众数(M0)“众”即多的含义。众数是在一组数据中,出现次数“最多”的那一个(或几个)数值。众数只与数值出现的次数有关,因而它可以用于定距资料,也可以用于定类、定序资料。应该指出,众数有时不存在,有时有两个以上。·原始资料的众数对于原始资料的众数,一般情况下只要按众数的定义直接识别就可以了。·分组资料的众数对于组距式分组资料求众数的方法,是先按最高频数找出众数组,再按下面的公式近似求得众数。021100hLM(9.5)式中△1为众数组频数与前一组频数之差,△2为众数组频数与后一组频数之差,h0为众4数组的组距。(注:对于单项式分组资料,不用近似计算,可很简单得到众数。)二、离中趋势统计量所谓离中趋势,是指各数据之间的差距和离散程度。离中趋势统计量有全距、异众比、标准差等,它们不仅可以综合地显示数据的离散程度,还可以用来判别平均数的代表性。离势小,平均数的代表性高;离势大,平均数代表性低。1.全距(R)全距,也称极差,它是一组数据中最大值(XN)与最小值(X1)之差,说明变量值的最大变动范围,其分式为1XXRN(9.6)2.异众比率(VR)所谓异众比率,是指非众数的频数与总体单位数的比值。很显然,它可以用于定距资料,也可以用于定类、定序资料。异众比率的公式如下NfNVmR0(9.7)式中0mf为众数的频数,N为总体单位数。3.标准差(S)在统计分析中,对于定距变量,用标准差来作为离中趋势统计量是最基本的做法。这是指在一组数据中,各数值之间的差距是不相等的,有的差距大,有的差距小,以它们之间平均相差多少作为标准来衡量一组数据的离散程度,即标准差。更准确地讲,标准差用于衡量各数值相对于算术平均数的平均偏离程度。·原始资料的标准差一个数据与该组数据的算术平均数X的差叫离差。当一个数据大于X时,离差是正值,反之则为负值。为了消除离差正负号的影响,可求所有离差平方的算术平均,这是所谓的均方差,简称方差(S2)。将方差开平方后所得的值就是标准差。方差:NXXS22)((9.8)标准差:NXXSS22)((9.9)(注:标准差的公式展开后可以写成22NXNXS,用此式算起来较快。)·分组资料标准差与加权算术平均的道理相同,当我们要处理分组资料时,计算标准差需用加权式5NXXfS2)((9.10)值得注意的是,计算分组资料的标准差,也可以依据频率分布来进行,(9.10)式由此可以写成2)(XXPS(9.11)或者22)(PXPXS(9.12)9.3统计分析二:推论统计在社会调查研究中,抽样调查被公认为是一种最完善、最有科学根据的调查方法。由于大数规律起作用,只要样本是随机产生的,且容量足够大,计算出来的样本统计量就和总体参数非常接近。这样一来,在调查对象很多、范围很大而不可能对每个单位都进行调查的情况下,往往采用抽样调查的方法来认识问题和研究问题。抽样调查不仅有其他非全面调查省时间与经费的优点,同时又有普查能够了解总体的优点。然而抽样调查也有一个缺点,就是它在数学上要求比较高。也就是说,用样本统计量来推论总体参数,我们不仅要学习描述统计,还要学习推论统计。推论统计是对抽样调查来讲的。描述统计固然对处理样本资料也有效,但样本能否代表总体,能在多大的程度上代表总体,只有推论通过统计才能得出结论。所以抽样调查一定要有推论统计。推论统计涉及到概率论、抽样分布、假设检验、参数估计等一些比较深奥的知识。一、概率与概率分布在描述统计中,频率的概念是非常重要的,因为频率分布包含着关于统计对象的几乎所有重要信息。与此相对应,在推论统计中概率的概念是非常重要的,因为概率分布包含着关于统计对象的几乎所有重要信息。在推论统计中,概率又是与随机现象相联系的一个概念。所谓随机现象,是指事先不能精确预言其结果的现象,所有这些现象都有一个共同的特点,那就是在给定的条件下,观察所得的结果不止一个。而相应地,变量X在推论统计中也被频繁地称为随机变量。随机变量可能实现的结果不止一个,但内中也有一定的规律性。如大量观察,我们会发现妇女生男生女的可能性几乎一样大,都是0.5,这就是概率。对随机变量而言,可能的某一结果发生的频率随试验次数增大而逐步稳定到某一数值这个经验事实,在概率论中便是大数定律。在推论统计中,概率和概率分布有着如同在描述统计中频率和频率分布那样的联系。现在我们了解了概率,但作为随机现象的全面研究这还很不够。概率仅仅告知了随机现象某一局部结果发生的可能性有多大,概率分布则要在满足完备性(穷举)和互不相容性(互斥)的前6提下,回答随机现象一共会出现多少种结果,以及每种结果所伴随的概率是多少,如著名的二项分布。把概率分布与前面所讲的频数分布、频率分布作一比较,就会发现它们(特别是频率分布与概率分布)非常相像。当然概率分布与频率分布也有重要区别:频率分布是经资料整理而来的,概率分布却是先验的;频率分布随样本不同而有所不同,概率分布却是唯一的;频率分布有对应的频数分布,概率分布则没有。因此频率分布被称为随机变量的统计分布或经验分布,而概率分布则被称为随机变量的理论分布。二、分布函数对于离散型随机变量,X的取值是可数的,可以对X的每个可能取值xi计算其实现的概率Pi,我们便得到了离散型随机变量的概率分布,即P(X=xi)=Pi(9.13)二项分布是最著名的离散型随机变量的概率分布,它的数学表达式是P(X=x)=xnCpxqn-x(9.14)连续型随机变量X的取值充满某一区间,甚至可以是一切实数。所以讨论X取一指定值xi的概率是没有意义的,其概率分布也无法用表的形式表示出来。为此,我们引进概率密度(x)的概念来表达连续型随机变量的概率分布。(x)=xxxXxxPox)(lim(9.15)这样一来,连续型随机变量X在区间{x1,x2}上的概率等于概率密度曲线(x)下面x1与x2两点之间面积,即P(x1≤X≤x2)=21)xxdxx((9.16)由于上述问题的存在,在推论统计中,为了能把对随机变量的概率的研究在数学上统一起来,人们引入了分布函数F(x)的概念,并把它定义为F(x)=P(X≤x)(9.17)它表示随机变量X小于某一取值x的概率,即随机变量从最远的起点(―∞)到我们所取的x点的所有概率的总和。有了分布函数,就可以很容易得到随机变量X取值在任意区间{x1,x2}上的概率,即P(x1≤X≤x2)=F(x2)-F(x1)(9.18)对于离散型随机变量,如果它的概率分布是已知的,那么很容易求出它的分布函数F(x)=P(X≤x)=xXXP)((9.19)①①对于离散型随机变量,分布函数也可以写成F(x)=P(X≥x)=xXXP)(上式是对大于等于x的一切P(X)求和,表示随机变量X的取值大于等于x的概率是多少。7上式是对小于等于x的一切P(X)求和,表示随机变量X的取值小于等于x的概率是多少。对于连续型随机变量,如果它的概率密度函数是已