8社会调查研究方法-统计分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

资料的统计分析重点:资料统计分析方法资料的统计分析调查所得的原始资料经过审核,整理,与汇总后,还需要进行系统的统计分析,才能解释除掉查资料所包含的众多信息,才能得出调查的结论,因而,统计分析是现代社会调查方法中十分重要的一部分.统计分析方法的内容可以根据变量的多少划分为单变量分析,双变量分析和多变量分析,前两者可称为初等统计,后者可称为高等统计.我们只对初等统计进行简单的介绍.本章主要内容:第一节.单变量描述统计第二节单变量推论统计第一节.单变量描述统计单变量统计分析可分为两大方面,即,描述统计和推论统计.描述统计的主要目的在于用最简单的概括性反映出大量数据资料所容纳的基本信息.它的基本方法包括集中量数分析和离散量数分析等.推论统计的主要目的使用从样本调查中所得到的数据资料来推断总体的情况,主要包括区间估计和假设检验等一.频数分布与频率分布1.频数分布(FrequencyDistribution)频数分布是指一组数据中取不同值的个案的次数分布情况.它一般是以频数分布表的形式表达.(见表1.)频数分布表的作用:A.简化资料.将调查得到的杂乱的原始数据,以十分简洁的统计表反映出来.B.清楚地了解调查数据的众多信息.表1.97年统计学历分布学历人数小学以下1中学72高中44中专13大专52大学58硕士4博士7Missing49Total3002.频率分布1)频率分布(percentagesdistribution)频率分布是一组数据中不同屈指的频数相对于总数的比率分布情况.这中比率在社会调查中经常是以百分比的形式来表达.(见表2)频率分布表试不同类别在总体中的相对数量分布.她十分方便于不同总体会不同类别之间的比较.因此这种分布表的应用更为普遍.表1.97年学历分布学历人数Percent小学以下1.3中学7224.0高中4414.7中专134.3大专5217.3大学5819.3硕士41.3博士72.3Missing4916.3Total300100(n=300)二.集中量数分析集中量数分析指的使用一个典型值来反映一组数据的一般水平,别的树值围绕在它的周围.最常见的集中量数有算术平均数,(简称平均数,也称为均值),众数和中位数三种.1.平均数(mean)平均数是使用得最多的集中量数.平均数数是指总体各单位数值之和除以总体单位数目所得之商。统计分析中习惯以X来表示.其计算公式如下∑XnX=1.1从原始数据计算平均数1.2从单值分组资料计算平均数首先要将每一个变量值乘以对应的频数f,得出各族的数值之和,然后将各族的数值之和全部相加,最后除以单位总数.∑Xf∑Xf∑fnX==例题:调查某年级150名学生的年龄得到下列结果:表3.某年级学生的年龄分布年龄人数(频数)17101825195020402120225合计1501.3从组距分组资料计算均值在调查收入年量等方面情况时,常常得到组距分组形式的资料,如我们知道各年龄段的人数,若要计算平均年龄就需要计算出各组的组中值,然后在按照单值分组资料计算平均数的公式计算.组中值的计算公式为:上限+下限2组中值=例:调查某企业100名职工的收入得到如下资料,请计算平均收入.表4.某企业百名职工收入分布收入(元)职工数(人)组中值X100-199101501500200-299102502500300-3994035014000400-499204509000500-5992055011000合计10038000注意:开口组的组中值前面缺下限的开邻组组距口组的组中值2=上限-后面缺上限的开口邻组组距组的组中值2=下限+2.众数(Mode)众数是一组数据中出现次数最多(即频数最高)的那个数值,众数与平均数一样也可用来概括反映总体的一般水平或典型情况.2.1单值分组资料先在频数栏中找出最大的频数,然后找到最大频数所对应的标志值,这一标志值即为众数.(以表3为例)2.2组距分组资料(组中值法)首先通过直接观察找出最高的频数,然后根据最高的频数找到它所对应的组:最后求出该组的组中值即为众数.(以表4为例)3.中位数(Median)把一组数据按值的大小顺序排列起来,处于中央位置的那个数值就叫中位数.它描述的是定序变量以上层次的变量.它的含义是整个数据中有一半数值在她之上,另一半数值在它之下.公式为:Md=(n+1)÷23.1原始资料计算中位数例:调查五个工厂的职工人数,按规模由小到大依次为200人,300人,500人,800人,1000人.依据公式(5+1)÷2=3为中间位置.即所对应的数值500人即为中位数.★当数据为偶数时中位数处于中间两个数值之间,这时一般以中间两个数值的平均数作为中位数.3.2单值分组资料计算中位数当资料为单值分组数据时,也是先求出数据组的中间位置,然后再找出其对应值,但寻找方式需要注意(以表3为例).先计算中间位置:(n+1)÷2=(150+1)÷2=75.5即,中间位置在第75个数值与76个数值之间,为了赵找到这个位置,需要列出累计频数.表3.某年级学生的年龄分布年龄人数(频数)累计频数↓累计频数↑1710101501825351401950851152040125652120145252251505合计1503.3由组距分组资料求中位数具体方法是:先列出累计频数,然后按同样的方法确定中位数所在的组,最后利用下述公式计算出中位数的值.中位数=L+n/2-cf(m-1)fmL为中位数所在组的下限值.cf(m-1)为中位数所在组以上的累计频数,为fm为中位数所在组的频数,I为中位数所在组的组距.(以表4为例)×表4.某企业百名职工收入分布收入(元)职工数(人)组中值X100-199101501500200-299102502500300-3994035014000400-499204509000500-5992055011000合计100380004.中位数与平均数的比较平均数要求计算所有的数值,而中位数只用到数值的相对位置,一般说来平均数利用了更多的信息,更全面和准确.平均数容易受到极端值的影响,中位数则不会受到这种影响.平均数是一种比中位数更为稳定的量度,它随样本的变化比较少.当资料是定序,定类测量或者是有开口组的定居测量时,中位数能够拟补不足.三.离散量数分析离散量数分析指的是用一个特别的数值来反映一组数据相互之间的离散程度.它与集中量数一起分别从两个不同的侧面描述和揭示一组数据的分布情况.共同反映出资料分布的全面特征,同时它还兑现各级重量数的代表性做出补充说明.为了理解离散量数分析的作用请见下例:某校三个系各选5名同学参加竞赛.他们的成绩分别如下:中文系:78,79,80,81.82X=80数学系:65,72,80,88,95X=80外语系:35,78,89,98,100X=80如果仅以集中量数来衡量,这三个队的水平一样高,但是很明显.这80分对中文系队的同学代表性最高,而对外语系的同学代表性最低.常见的离散量数统计量有全距,标准差,异众比率,和四分位差.1.全距(Range)全距也叫极差,它是一组数据中,最大值与最小值之差.全距的意义在于:一组数据的全距越大,在一定程度上说明一组数据的离散量数越大,而集中量数统计量的代表性越低,反之一组数据的全距越小,则说明这组数据的离散量数越小,集中量数统计量的代表性越高.2.标准差(StandandDeviation)标准差是指一组数据对其平均数的偏差平方的算术平均数的平方根.它是用得最多的,也是最重要的离散量数统计量.其公式为:δ=2.1原始资料计算标准差.(以上例为例)∑(Xi—X)2n2.2单值分组资料计算标准差公式为:(见例题和表1.)2.3由组距分组资料计算标准差先计算出各组的组中值,然后按照单值分组资料计算标准差的公式和方法计算.表1.200户家庭规模资料家庭规模户数X-X(X-X)2(X-X)22人10-1.41.9619.63人120-0.40.1619.24人500.60.36185人201.62.5651.2合计200108例题:调查200户家庭的规模得到下列资料,求标准差.3.异众比率(VariationRatio)异众比率指的是一组数据中非众数的次数相对于总体全部单位的比率,异众比例通常用VR表示.其计算公式为:(计算表2中的异众比率)异众比率的意义是指众数不能代表的其他数值,在总体种的比重,因此异众比率越大则众数在总体中所占的比重越小,代表性越小,反之异中比率越小,众数的代表性越大n-mVR=n表2.某年级学生的年龄分布年龄人数(频数)17101825195020402120225合计1504.四分位差(InterquartileRange)四分位差是先将一组数据按大小排列成序,然后将其四等分,去掉序列中最高的四分之一,和最低的四分之一,仅就中间的一半数值来测定序列的全距.四分位差的符号通常用Q(seita)来表示,用Q1,Q3来表示第一个四分位点和第三个四分位点所对应的数值.例题:调查11位同学的年龄如下;17岁,18,18岁,19岁,19岁,20岁,20岁,21岁,21岁,22,22岁,求其四分位差.5.离散系数(Coefficientofariation)离散系数也称偏差系数,她是一种相对的离散量数统计量,它使我们能够对同一总体中的两种不同的离散量数统计量进行比较.离散系数是标准差与平均数的比值,用百分比表示,符号为CV.计算公式为:SCV=X×100%例题:根据调查某市100户职工家庭人均月收入为73,75元,标准差6.52元,人均住房面积8.21平方米,标准差3.09平方米.请比较收入和住房情况哪一个差异程度表较大职工收入的离散系数=×100%=8.8%职工住房的离散系数=×100%=37.6%住房情况的差异程度比较大.6.5273.753.098.21练习题:1.调查100名学生的成绩,得到下列资料,求成绩的平均数,众数和中位数.成绩人数41-602061-805081-100302.一项调查得到下列结果,某市人均月收入为92元,标准差为17元,人均住房面积7.5平方米,标准差为1.8平方米,试比较该市人均收入和人均住房情况哪一个差异程度比较大.3对广州和沈阳两地居民生活质量调查发现,广州居民平均收入为680元,标准差位120元,沈阳居民平均收入为360元,标准差为80元,问广州居民相互之间在收入上的差异程度与沈阳居民相互之间在收入上的差异程度哪一个更大一些?4.调查100名工人和100名教师的收入,得到下列资料,问:工人组收入的差别与教师组收入的差别那个更大?收入工人数教师数3003020400203050030406002010第二节单变量推论统计推论统计就是利用样本的统计值对总体的参数值进行估计的方法.推论统计的内容主要包括两个方面:区间估计和假设检验一.区间估计(IntervalEstimation)1.区间估计的概念区间估计是指在一定的可信度(置信度)下,用样本统计值的某个范围(置信区间)来“框”住总体的参数值.范围的大小反映的是这种估计的精确性问题,而可信度高低反映的则是这种估计可靠性或把握性的问题.区间估计的结果通常可以采取下述方式来表述:我们有95%的把握认为,全市职工的月收入在182元至218元之间,或者“全市人口中,女性占50%至52%的可能性为99%.区间估计中的可靠性或把握性是指用某个区间去估计总体参数值时,成功的可能性有多大.它可以这样来解释,如果从这个总体中重复抽样100次,约有95所抽样本的统计值都落在这个区间,说明这个区间估计的可靠性为95%.对于同一总体和同一抽样规模来说①所给区间的大小与做出这种估计所具有的把握性形成正比.②区间大小所体现的是估计的精确性,区间越大,精确性程度越低,区间越小精确性越高,二者成反比.③从精确性出发,要求所估计的区间越小越好,从把握性出发,要求所估计的区间越大越好,因此人们总是需要在这二者之间进行平衡和选择.在社会统计中,常用的置信度分别为90%,95%和99%.与他们所对应的

1 / 54
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功