1第九讲资料的统计分析主讲教师:王怀明山东大学管理学院人力资源研究所2一、单变量统计分析二、双变量统计分析本讲主要内容3一、单变量统计分析1.单变量描述统计描述统计的目的在于用最简单的概括形式反映大量数据资料所容纳的基本信息,包括集中量数分析和离散量数分析。4(1)频数分布与频率分布频数分布:一组数据中取值不同的个案的次数分布情况,它一般以频数分布表的形式表示。(P170)频数分布表的作用:第一、简化资料第二、从频数分布表中,可以更清楚地了解调查数据的众多信息5频率分布一组数据种不同取值的频数相对于总数的比率分布情况,常以百分比的形式表示。(P170)频数分布表示不同类别在总体中的绝对数量分布,频率分布表是不同类别在总体中的相对数量分布。6(2)集中趋势分析集中量数分析是用一个典型值或代表值来反映一组数据的一般水平,或反映这组数据向这个典型值的集中情况。常见的集中量数有算术平均数、众数和中位数三种算术平均数:总体各单位数值之和除以总体单位数目之商。统计学中习惯以表示。XX∑xnX∑xfn78众数:一组数据中出现次数最多的数值中位数:把一组数据按值大小顺序排列起来,处于中央位置的那个数值。9(2)离散变量的分析离散变量指用一个特别的数值来反映一组数据之间的离散程度例1:某校三个系各选5名同学,参加智力竞赛,他们的成绩分别如下:中文系:7879808182X=80S=1.414数学系:6572808895X=80S=10.8英语系:35788998100X=80S=23.810离散变量常见的离散变量统计量有:全距、标准差、异众比率、四分位差。标准差:一组数据对其平均数的偏差平方和的算术平均数的平方根。11异众比率一组数据中非众数的次数相对于总体全部单位的的比率。VRn—fmon12四分位差将一组数据按大小排列,然后将其4等分,去掉序列中最高的1/4和最低的1/4,中间的一半数值之间的全距。13离散系数标准差与平均数的比值,用百分比表示。CVSX142.单变量推论统计推论统计指用样本的统计值对总体参数进行估计的方法。推论统计的内容有两个:一是区间估计,二是假设检验。区间估计指在一定的可信度下,用样本统计值的某个范围来估计总体的参数值。范围的大小反映的是这种估计的精确度,可信度的高低反映的是这种估计的可靠性或把握性。15(1)总体均值的区间估计1617(2)假设检验假设检验是先对总体的某一参数作出假设,然后用样本的统计量去进行验证,以决定假设是否为总体所接受。。假设检验所依据的是概率论中的小概率原理,即“小概率事件在一次观察中是不可能出现的”原理。研究者将原假设作为虚无假设,将与之相对立的假设作为研究假设,然后用样本的数据计算统计量,并与临界值相比较,当临界值大于统计值的绝对值时,接受虚无假设,拒绝研究假设,否则,接受研究假设。18假设检验的步骤建立虚无假设和研究假设根据需要选择适当的显著性水平,通常选=0.05和=0.01两个水平;根据样本数据计算出统计值,并根据显著性水平查出对应的临界值;将临界值与统计值比较,若统计值的绝对值小于临界值,则接受虚无假设,否则,接受研究假设。1920二、双变量统计分析1、变量间关系相关关系(1)相关关系的概念:当一个变量发生变化时,另一个变量也随之发生变化。相关关系分析只适合定序以上变量间关系分析。(2)相关关系的方向:分为正相关关系和负相关关系。(3)相关关系的强度:两个变量之间相关关系的强弱或大小,用相关系数来表示。(4)相关关系的类型:线性相关和非线性相关(5)相关关系与散点图。21因果关系分析(1)当一个变量发生变化时,会引起或导致另一个变量也随之发生变化。前一变量叫做自变量,后一变量叫做因变量。(2)因果关系的条件变量X和变量Y之间存在不对称关系变量X和变量Y在发生的顺序上有先后之别变量X和变量Y的关系不是同源于第三变量的影响222。交互分类交互分类(cross-tabulation)是一种专门分析两个定类变量(或一个定类变量,一个定序变量)之间关系的方法。将调查所得的一组数据按照两个不同的变量进行综合的分类,交互分类的结果通常以交互列联表的形式反映出来23交互分类表的作用(1)可以较为深入地描述样本资料的分布状况和内在结构。赞成反对不表态调查人数454510n=2000表1人们对某项政策的态度(%)24交互分类表的作用表2不同性别的人对某项政策的态度统计表(%)态度男女赞成反对不表态851055801525交互分类表的作用(2)通过分组比较可以对变量之间的关系进行分析和解释表3500名工人的工资分布表工资收入人数百分比高中低50250200105040总计50010026表4500名员工文化水平与工资收入交互分类表工资收入文化水平大专以上中学小学及以下合计高中低26145182025563414050250200总计4527518050027表5500名员工文化水平与工资收入交互分类表(%)工资收入文化水平大专以上中学小学及以下合计高中低5831117732031978105040(%)(n)100(45)100(275)100(180)100(500)总计28交互列联表的形式要求每个表的顶端要有标号和标题表格中的线条一定要规范,简洁,最好不用竖线表中百分比号的处理方法在表的下端用括号标出每一纵览所对应的频数,以指出每一栏百分比所具有的基础将自变量放在上层,将因变量放在左侧,表中百分比方向一般按自变量的方向交互分类的两个变量的变量值应有所限制293.2检验交互分类表既可以对样本的分布情况和内在结构进行描述,也可以进行分组比较以及对变量之间的关系进行解释。但这种结论只在所调查的样本范围内成立,我们研究的目的不仅仅是描述和说明样本的情况,更重要的是要通过样本的情况来反映和说明总体的情况,要保证从样本中得出的结果具有统计意义,保证样本中所体现的变量间的关系也反映了总体的情况。必须对样本数据进行2检验。302检验的步骤建立两变量间无关系的假设计算2值•根据自由度df=(r-1)(c-1)和给出的显著性水平(P值),查2分布表,得到该显著性水平下的临界值;•将计算出的2与临界值相比较,若2值≥临界值,则差异显著,即承认两变量间有关系;若2值<临界值,则差异不显著,认为两变量间无关系。314.回归分析相关分析的目的在于了解两个变量之间的关系强度,回归分析则是对有相关关系的现象,根据其关系的形态找出一个合适的数学模型,即建立回归方程,以便依据回归方程对未知的情况进行估计和预测。由于回归分析增加了因果性,并且有了预测的功能,因此,它比相关分析更进了一步,其作用也更大。32回归分析的步骤1.依据理论分析或研究的需要确定两变量中哪一个是自变量,哪一个是因变量2.以自变量为X轴,以因变量为y轴作出表中资料的散点图,以判明两变量之间是否存在线性相关,3.建立回归方程:Y=a+bx;4.用最小二乘法求出常数a和回归系数b;5.对回归系数的显著性水平进行检验;6.用自变量的数据对因变量进行预测。