第十章调查资料的统计分析•第一节统计分析概述•第二节单变量统计分析•第三节双变量统计分析•第四节推论统计第一节统计分析概述一、统计分析的含义与作用二、统计分析的特点一、统计分析的含义与作用•统计分析,就是指运用统计学的方法,对调查所得资料的数量特征进行描述,并用各种数学模型揭示调查资料中所隐含的关系、规律及发展趋势。•统计分析就是从量的方面来分析事物之间的相互关系和相互作用,并通过对事物量的规定性的分析,来把握和认识事物质的规定性。•事实说明,正确恰当的统计分析,已成为现代社会调查研究中不可缺少的一个环节,成为人们认识社会现象的一种重要分析手段。•统计分析的作用:1.统计分析能为社会调查研究提供一套精确的形式化语言。2.统计分析使抽样调查成为可能。3、统计分析有助于揭示社会现象的规律。4、统计分析有助于我们较为精确地预测社会现象的发展趋势。二、统计分析的特点1.统计分析要以定性分析为基础。2.统计分析必须与理论分析方法相结合。•统计分析的内容可分为两个大的方面,即描述统计和推论统计。–描述统计的主要目的在于用最简单的概括形式反映出大量数据资料所容纳的基本信息。它的基本方法包括集中趋势分析、离散趋势分析、相关分析、回归分析等。–而推论统计的主要目的,则是要用从样本调查中所得的数据资料来推断总体的情况。它的基本内容包括区间估计和假设检验两部分。第二节单变量描述统计一、频数分布与频率分布二、集中趋势分析三、离散趋势分析一、频数分布与频率分布•所谓频数分布,就是指一组数据中取不同值的个案的次数分布情况,它一般以频数表的形式表达。•例如,某班有25名学生,其年龄情况如下:20,19,18,19,18,20,21,17,18,18,19,19,20,19,19,17,18,20,19,19,21,21,19,20,19。则该班学生的年龄分布则为下表(见表1)•频数分布表的作用主要有两方面:–一是简化资料,即将调查所得到的一长串原始数据,以一个十分简洁的统计表反映出来;–二是从频数分布表中,我们可以更清楚地了解调查数据的众多信息。•所谓频率分布,则是指一组数据中不同取值的频数相对于总数的比率分布情况,这种比率通常以百分比的形式表达,而频率分布情况同样以频率表的形式出现。下表2就是上例对应的频率分布表。•频率分布表除具备频数分布表的优点外,还能反映各类所占的比重,便于不同总体或不同类别之间的比较。这种分布的应用更为普遍。二、集中趋势分析•所谓集中趋势分析,指的是用一个典型值或代表值来反映一组数据的一般水平,或向这个典型值集中的情况。•最常见的集中趋势统计量有平均数、众数和中位数三种。1.平均数(算术平均数)是用总体各单位数值之和除以总体单位总数的商。平均数又称为均值或均数。以下是计算公式及应用举例。–①由原始数据计算平均数。设总体单位总数为n,总体各单位的数值为xi(i=1,2,…,n),则计算公式为:–②由单值分组资料计算平均数。首先要将每一个组的量值乘以所对应的频数(得出各组的数值之和);然后将各组的数之和全部相加,最后除以单位总数(也即各组频数之和∑f)得出平均数。其计算公式为:nxXni1mimiiffxX11–③由组距分组资料求平均数。先计算出各组的组中值Xm,然后再按照单值分组资料计算平均数的公式计算。也就是说,用组距分组资料求平均数的公式与用单值分组资料求平均数的公式基本相同,只是需要事先将组距转化成单值。计算公式为:•例题–例1某班10名学生的年龄分别为20岁、21岁、19岁、19岁、20岁、20岁、21岁、22岁、18岁、20岁,求他们的平均年龄。mimiimffxX11–例2调查某年级150名学生的年龄,得到下列结果(左表),求平均年龄。(19.33)–例3调查某厂100名职工的收入情况如下(右表),求他们的平均收入。(212)年龄(岁)人数(f)17181920212210255040205合计150收入(元)职工数(人)100-140140-180180-220220-260260-3001010402020合计1002.众数众数是一组数据中出现次数最多(即频数最高)的那个数值。通常用M。表示。众数与平均数一样,也可用来概括反映总体的一般水平或典型情况。根据不同资料,众数的求法分为以下两种形式:–①由单值分组资料求众数。由于单值分组资料中已将各标志值及其所对应的频数都一一列出,故我们只需采用直接观察的方法就可求得众数。具体做法是,首先在频数一栏中找出最大的频数,假定为fm;然后根据fm找到它所对应的标志值Xm,则众数即为Xm。–②由组距分组资料求众数。由组距分组资料求众数的方法有两种:一种是组中值法,另一种是摘补法。前者比较简单,后者较为复杂。由于众数在社会调查研究中的使用远不象平均数那样广泛。故我们只需了解组中值法即可。用组中值法求众数分为三步:首先也是通过直接观察找出最高的频数;然后根据最高的频数找到它所对应的组;最后求出该组的组中值即是众数。•需要说明的是,求众数往往要求数据具备一定的条件,即只有当总体单位数目较多且其数据有明显的集中趋势时才能计算众数。而当总体数目较少,或总体数目虽多但无明显集中趋势时,不宜计算众数。•举例:—以前面例2为例,首先我们在人数(频数)一栏中找出最大的频数50,再从50找到所对应的年龄19岁。则例2资料中的众数为19岁。•需要注意的是,众数是最大的频数所对应的那个标志值,而不是最大的频数本身。—又,若以前面例3为例来求众值,我们首先在职工数(即额数)一栏中,找到最大的频数40;然后找到40所对应的组:180~220;最后计算该组的组中值,计算结果为200元。因此,该例中的众数为200元。3.中位数•什么是中位数呢?当我们把一组数据按值的大小顺序排列起来,处于中央位置的那个数值就叫中位数。中位数通常用Md表示,它将整个数据资料一分为二,其中一半的数值比它大,而另一半的数值比它小。当数据为偶数个时,取中间两数的平均数。•需要注意的是,计算中位数时常常要求数据是定距以上的变量。而对定序的或定类的变量通常不用来计算中位数。•关于计算方法(参见教材)三、离散趋势分析•与集中趋势分析相反,离散趋势(又称离中趋势)分析指的是用一个特定的数值来反映一组数据相互之间的离散程度。•作用:它与集中趋势一起,分别从两个不同的侧面描述和揭示一组数据的分布状况,共同反映出资料分布的全面特征;同时,它还对集中趋势的统计量(如平均数、众数、中位数)的代表性作出补充说明。•为了理解离散趋势分析的这两种作用,我们先来看看下面的例子。•例4某校三个系各选5名同学,参加智力竞赛,他们的成绩分别如下:中文系:7879808182X=80数学系:6572808895X=80政治系:35788998100X=80–无论是从团体总分来看,还是从平均得分来看,这三个系代表队的成绩都是相同的。因此,如果仅以集中趋势统计量(平均数)来衡量,那么,三个系代表队的水平一样高,不存在什么差别。但从直观上我们不难发现,三个代表队中五名队员的成绩相互之间的差跟程度(离散程度)很不一样。中文系成绩十分接近;数学系成绩比较分散;而政治系队成绩则相差十分悬殊。–不难理解,这个80分对中文系队同学的代表性最高,而对政治系队同学的代表性最低。•因此,离散趋势的各种统计量,一方面揭示出数据相互分离的程度;另一方面又对相应的集中趋势统计量的代表性作出判断。•结论:集中趋势统计量的代表性与所对应的离散趋势统计量是反比关系,即离散趋势统计量越大,则所对应的集中趋势统计量的代表性就越小;反之,则越大。•离散趋势统计量有全距、标准差、异众比率、四分位差、离散系数等。其中,标准差、异众比率、四分位差分别与平均数、众数、中位数相对应。1.全距•也叫极距,它是一组数据中最大值与最小值之差。•全距是离散趋势统计量中最简单的一种。–在原始数据资料条件下,只需将全部数据按大小颀序排列,然后用最大值减去最小值即可。如上面所举例6,三个代表队成绩的全距分别为:中文系:82-78=4(分)数学系:95-65=30(分)政治系:100-25=65(分)–在组距分组资料的条件下,只需将最大组的上限减去最小组的下限即可。如前面例3中的全距九300-100=200(元)•全距的意义在于,一组数据的全距越大,在一定程度上说明这组数据的离散趋势越大,而集中趋势统计量的代表性越低。反之,一组数据的全距越小,则说明这组数据的离散趋势越小,集中趋势统计量的代表性就越高。从上面三个代表队的例子中,我们不难认识到这一点。•应该注意到,由于全距仅仅依靠两个极端值,因而带有很大的偶然性,它对于大量的处于两个极端值之间的数值分布情况.以及在中心点周围的集中情况,都无法提供任何信息。•比较粗糙。2.标准差•标准差的定义是:一组数据对其平均数的偏差平方的算术平均数的平方根。它是用得最多、也是最重要的离散趋势统计量。通常用符号S来表示,其计算公式根据资料的形式不同而稍有差别。–①由原始数据计算标准差。公式为:例4的结果:S中文=1.414,S数学=10.8,S政治=23.8。由此可见,标准差大,离散程度就大,反之,就小。nXxSni12)(–②由单值分组资料计算标准差。公式为:这里f为X所对应的频数。–③由组距分组资料计算标准差。其方法与上述单值分组资料计算标准差的方法相似,唯一不同的是需要先计算出各组的组中值,然后采用下述公式:imiijffxxS12)(nfXXSmi2)(3.异众比率•所谓异众比率,指的是一组数据中非众数的次数与总体全部单位数的比率。公式为:这里fmo为众数的次数。在例2中,众数的次数为50,总体单位的总数为150,故异众比率为:VR=(150-50)/150=67%•异众比率的意义是指众数所不能代表的其他数值(即非众数的数值)在总体中的比重。因此,异众比率越大,即众数所不能代表的其他数值的比重越大,则众数在总体中所占的比重自然就越小,这样众数的代表性也就越小。nfnVRm04、四分位差•四分位差是先将一组数据按大小排列成序,然后将其四等分,去掉序列中最高的四分之一和最低的四分之一,仅就中间的一半数值来测定序列的全距。•四分位差的符号通常用Q表示。Q=Q3—Q1而Q1、Q3分别表示第一个四分位点和第三个四分位点。如下图所示:Q1Q2Q35.离散系数•上述各种离散趋势统计量都属于绝对量测量,其单位与原资料的单位相同。这种特征对调查研究中进行比较带来了一定的困难。离散系数则是一种相对的离散趋势统计量,它使我们能够对两种不同单位的离散趋势统计量,或者对两个不同总体的离散程度进行比较。•离散系数的定义是:标准差与平均数的比值,用百分比表示。其计算公式为:%100XSCV•在平均数不为零的条件下,离散系数越大,表明数据的离散程度越大,而所对应的集中趋势统计量的代表性就越小;反之,则数据的离散程度越小,集中趋势统计量的代表性就越大。•应用举例:1)一项调查得到下列结果,某市人均月收入为92元,标准差为17元;人均住房面积7.5米’,标准差为1.8米’。试比较该市人均收入和住房情况哪一个差异程度比较大。计算结果:人均收入的离散系数为18.5%,人均住房面积的离散系数为24%可见人均住房面积的差异情况比人均收入的差异情况要大。–以上是同一总体不同指标间的比较,下列则是同一指标不同总体间的比较。2)某校学生的平均年龄为20岁,标准差为2岁;该校教师的平均年龄为28岁,标准差为4.5岁。试比校学生年龄与教师年龄哪一个差异程度更大。–计算结果:学生年龄的离散系数为10%,教师年龄的离散系数为11.8%可见教师年龄间的差异程度更大一些。第三节双变量统计分析•前节所介绍的单变量描述统计。•在社会调查研究中,我们常常要讨论两个甚至多个因素或现象之间的关系问题,因此,本节介绍两个变量统计分析的基本内容。一、交互分类二、相关与回归一、交互分类1.交互分类的定义与作用所谓交互分类,简单地说,就是将一组数据按照两个不同变量的类型进行综合的分类。交互分类的结果通常以交互分类