ShanghaiUniversityofInternationalBusinessandEcnomicsShanghaiUniversityofInternationalBusinessandEcnomics上节回顾一、数据的编码、录入与整理二、数据问卷与编码三、编码类型四、缺失值的处理五、数据处理中的操作术语六、定义变量与SPSS窗口七、数据的录入八、数据的导入九、数据的整理ShanghaiUniversityofInternationalBusinessandEcnomicsShanghaiUniversityofInternationalBusinessandEcnomics第8讲SPSS基本统计分析----描述统计ShanghaiUniversityofInternationalBusinessandEcnomicsShanghaiUniversityofInternationalBusinessandEcnomics一、基本统计分析概念目的通过变量的基本统计分析,能够掌握和了解数据的基本统计特征和总体分布形态,为进一步的数据分析作参考。方法数据计算:计算常见的统计量的值,准确反映样本数据的统计特征。图形绘制:绘制常见的统计图形,通过图形来直观展现数据的分布特征,比较数据分布的异同。通常,两种方法混合使用。SPSS对数据的基本统计分析包括频数分析过程(Frenquencies):描述统计量分析过程(Descriptives):探索性分析过程(Explore):交叉列联表分析过程(Crosstabs):比率分析(Ratio):P-P图Q-Q图ShanghaiUniversityofInternationalBusinessandEcnomicsShanghaiUniversityofInternationalBusinessandEcnomics频数分析ShanghaiUniversityofInternationalBusinessandEcnomicsShanghaiUniversityofInternationalBusinessandEcnomics二、频数分析1.频数概念统计的是每一组中观测点的个数,而不考虑其实际取值。ShanghaiUniversityofInternationalBusinessandEcnomicsShanghaiUniversityofInternationalBusinessandEcnomics二、频数分析2.SPSS中的频数分布表频数分析的基本功能之一:是编制频数分布表频数(Frenquency):变量值落在某个区间或者某个取值点的个数。百分比(Percent):各频数占总样本数的百分比。有效百分比(ValidPercent):各频数占有效样本数的百分比。累计百分比(CumulativePercent):各百分比逐级累加起来的结果,最终取值是100。取值不及格及格中等良好优秀合计取值区间0-5960-6970-7980-8990-1000-100频数1919321677百分比1.30%11.69%24.68%41.56%20.78%100.00%累计百分比1.30%12.99%37.66%79.22%100.00%100.00%返回ShanghaiUniversityofInternationalBusinessandEcnomicsShanghaiUniversityofInternationalBusinessandEcnomics二、频数分析3.频数分析中的统计图频数分析的基本功能之二:是绘制统计图,统计图能非常清晰直观地展示变量的取值状况,包括以下三种图:条形图或柱形图(BarChart):用宽度相同的条形的高度或长短来表示频数分布或百分比饼图(PieChart):扇形面积表示频数或百分比直方图(Histograms):用矩形的面积来表示频数分布ShanghaiUniversityofInternationalBusinessandEcnomicsShanghaiUniversityofInternationalBusinessandEcnomics条形图与直方图区别条形图1.用条形的长度表示各类别频数的多少,其宽度是固定的2.各矩形通常是分开排列的;3.横轴上是一个点,主要用于展示分类数据。直方图1.用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率宽度表示各组的组距;2.由于分组数据具有连续性,各矩形通常是连续排列;3.横轴上是一个范围,主要用于展示数值型数据。ShanghaiUniversityofInternationalBusinessandEcnomicsShanghaiUniversityofInternationalBusinessandEcnomics示例1•如果想了解语文成绩的分布情况,可以使用什么方法呢?–频数分布表?–饼图?–直方图?ShanghaiUniversityofInternationalBusinessandEcnomicsShanghaiUniversityofInternationalBusinessandEcnomics4.SPSS操作及案例(数据文件:3-StudentScore.sav)例一:绘制语文成绩频数分布表及饼图步骤1:对“语文”成绩进行分段Transform→RecodeIntoDifferentVariables…或者:Transform→VisualBinning(可视化分段)二、频数分析ShanghaiUniversityofInternationalBusinessandEcnomicsShanghaiUniversityofInternationalBusinessandEcnomics二、频数分析4.SPSS操作及案例步骤2:对“分数分段”进行统计Analyze→DescriptiveStatistics→Frequencies…ShanghaiUniversityofInternationalBusinessandEcnomicsShanghaiUniversityofInternationalBusinessandEcnomics二、频数分析4.SPSS操作及案例输出结果可以保存为.spv或pdf或word或文本格式ShanghaiUniversityofInternationalBusinessandEcnomicsShanghaiUniversityofInternationalBusinessandEcnomics二、频数分析—扩展功能注:主要针对于定距型变量计算分位数分位数是变量在不同分位点上的取值分位数从侧面刻画了变量的取值分布状态,分位数差越大,表示离散程度越大计算其他基本统计量集中程度离散趋势分布形态ShanghaiUniversityofInternationalBusinessandEcnomicsShanghaiUniversityofInternationalBusinessandEcnomics二、频数分析4.SPSS操作及案例例二:输出三门成绩4分位数由四分位差知道中间50%的数据中数学成绩的分布比英语和语文离散程度高。ShanghaiUniversityofInternationalBusinessandEcnomicsShanghaiUniversityofInternationalBusinessandEcnomics基本描述统计量ShanghaiUniversityofInternationalBusinessandEcnomicsShanghaiUniversityofInternationalBusinessandEcnomics三、基本描述统计量1.概念通过频数分析对数据的总体分布状况有了基本了解之后,通常还需要对定距变量的分布特征有更为精确的认识,这就需要通过计算基本描述统计量等途径来实现。常见的描述统计量大致可以分为三类:第一类:描述集中程度(CentralTendency)的统计量第二类:描述离散趋势(Dispersion)的统计量第三类:描述分布形态(Distribution)的统计量变量的值之间可以比较大小,两个值的差有实际意义,这样的变量叫定距变量。在调查被访者的“年龄”和“每月平均收入”,都是定距变量。ShanghaiUniversityofInternationalBusinessandEcnomicsShanghaiUniversityofInternationalBusinessandEcnomics三、基本描述统计量2.描述集中程度的统计量指一组数据向某一中心集中的程度,即在某一中心附近观测值数目较多,远离该中心的观测值数目较少。有如下统计量:平均值(Mean):即算术平均值(=(X1+X2+…+Xn)/n)。易受极端值影响。中位数(Median):把变量的值有序排列,位于中间位置的值即中位数。是位置平均置,不易受极端值的影响。众数(Mode):样本中出现次数最多的值,代表数据的集中程度。例如:鞋厂制定生产计划;评价社会的老龄化程度ShanghaiUniversityofInternationalBusinessandEcnomicsShanghaiUniversityofInternationalBusinessandEcnomics三、基本描述统计量3.描述离散趋势的统计量与“集中趋势”相反,“离散趋势”反映的是一组资料中各个观察值之间的差异或离散程度。即考察所有数据相对于“中心值”分布的疏密程序。有如下统计量:方差(Variance):样本方差越大,说明变量值之间的差异越大,样本方差没有单位。标准差(std.deviation):样本标准差越大,说明变量的观测值之间的差异越大,距离均值这个“中心”的离散程度越大。极差(Range):也称全距或跨度或范围,R=最大值-最小值极差不考虑最大值与最小值之间的观测值,仅仅依靠端点值来确定,因而稳定性差。ShanghaiUniversityofInternationalBusinessandEcnomicsShanghaiUniversityofInternationalBusinessandEcnomics三、基本描述统计量3.描述离散趋势的统计量均值标准误差(S.E.Mean,StandardErrorofMean,简称标准误):样本数据是从总体数据中抽取出来的。虽然在一定程度上,样本数据可以反映总体数据的特征。但在不同次抽样中所得的样本均值是不同的,并且它们与总体均值间存在差异。均值标准误差:就是描述这些样本均值与总体均值之间平均差异程度的统计量。即:样本均值的标准差(也即:样本均值的离散程度)ShanghaiUniversityofInternationalBusinessandEcnomicsShanghaiUniversityofInternationalBusinessandEcnomics三、基本描述统计量4.描述分布形态的统计量考察数据分布形态特征的统计量,例如,数据分布是否对称、偏斜程度以及陡缓程度,主要有如下两种统计量:偏度(Skewness):偏度值0,为正偏或右偏,表示均值右边的数较少;偏度值0,为负偏或左偏。峰度(Kurtosis):峰度值0,数据分布比标准正态分布更陡峭,为尖峰分布,表示极端值较多;峰度值0,数据分布比标准正态分布更平缓,为平峰分布。返回ShanghaiUniversityofInternationalBusinessandEcnomicsShanghaiUniversityofInternationalBusinessandEcnomics三、基本描述统计量5.SPSS操作及案例分析(数据文件:3-StudentScore.sav)例三:计算全部学生各门成绩的平均值、标准差、最大值和最小值,并考察学生成绩的分布形态。思考语文成绩均值右边数据多还是左边数据多?思考哪门课程的极端值较多?Sha