SPSS统计分析基础教程北京理工大学珠海学院吴浩然1.连续变量的统计描述概述2.集中趋势的描述指标3.离散趋势的描述指标4.实例操作Part2:第四章连续变量的描述统计学习要求掌握SPSS软件中用于连续变量统计描述的Explore、Frequencies、Descriptive过程学习要求理解连续变量的均值、方差等统计描述指标4.1连续变量的统计描述概述统计描述的工具统计图统计表统计描述指标数据分布的特征集中趋势(位置)离中趋势(分散程度)偏态和峰度(形状)连续变量统计描述的常用指标均值众数中位数极差四分位差方差统计描述指标集中趋势离散趋势4.2集中趋势的描述指标一组数据向其中心值靠拢的倾向和程度;测度集中趋势就是寻找数据一般水平的代表值或中心值;集中趋势测度-均值集中趋势的测度值之一;最常用的测度值;一组数据的均衡点所在;设一组数据为:x1,x2,…,xn,简单算术平均数的计算公式为:nxnxxxxniin121集中趋势测度-中位数集中趋势的测度值之一;排序后处于中间位置上的值:Me50%50%集中趋势测度-众数集中趋势的测度值之一;出现次数最多的变量值;数据类型与集中趋势测度值数据类型和所适用的集中趋势测度值数据类型定类数据定序数据定距数据定比数据适用的测度值※众数※中位数※均值※均值—四分位数众数调和平均数—众数中位数几何平均数——四分位数中位数———四分位数———众数4.3离中趋势的描述指标数据分布的另一个重要特征;离中趋势的各测度值是对数据离散程度所作的描述;反映各变量值远离其中心值的程度从另一个侧面,从令一侧面说明了集中趋势测度值的代表程度;离中趋势测度-极差离散程度的测度值之一;一组数据的最大值与最小值之差,计算公式为:R=max(xi)-min(xi)离中趋势测度-方差离散程度最常用的测度值;反映了各变量值与均值的平均差异;计算公式:nxxnii122)(离中趋势测度-四分位差离中趋势的测度值之一;排序后处于75%和25%位置上的值的差QU-QL:QLQMQU25%25%25%25%数据类型与离中趋势测度值数据类型和所适用的离散程度测度值数据类型定类数据定序数据定距数据或定比数据适用的测度值—※四分位差※方差或标准差——※离散系数(比较时用)——平均差——极差——四分位差4.4数据分布的形状测度扁平分布尖峰分布峰度左偏分布右偏分布与标准正态分布比较!偏态数据分布的形状测度-偏态数据分布偏斜程度的测度;计算公式:偏态系数=0为对称分布;偏态系数0为右偏分布;偏态系数0为左偏分布。3113niiniiiffxx算例【例】已知2007年我国农村居民家庭按纯收入分组的有关数据如下表。试计算偏态系数。2007年农村居民家庭纯收入数据按纯收入分组(元)户数比重(%)500以下500~10001000~15001500~20002000~25002500~30003000~35003500~40004000~45004500~50005000以上2.2812.4520.3519.5214.9310.356.564.132.681.814.94计算过程农村居民家庭纯收入数据偏态及峰度计算表按纯收入分组(百元)组中值xi户数比重(%)fi(xi-x)fi3(xi-x)fi45以下5—1010—1515—2020—2525—3030—3535—4040—4545—5050以上2.57.512.517.522.527.532.537.542.547.552.52.2812.4520.3519.5214.9310.356.564.132.681.814.94-154.64-336.46-144.87-11.840.1823.1689.02171.43250.72320.741481.812927.154686.511293.5346.520.20140.60985.492755.005282.948361.9846041.33合计—1001689.2572521.25计算结果根据上表数据计算得:将计算结果代入公式得:结论:偏态系数为正值,说明农村居民家庭纯收入的分布为右偏分布。956.07339.176625.1689089.12429.21311133113iiiniiniiifxffxx429.21.11niiiniiffxx089.12.11niiiniiffx农村居民家庭纯收入数据的直方图1000500←15002000250030003500400045005000→结论:说明农村居民家庭纯收入的分布为右偏分布,即收入较少的家庭占据多数,而收入较高的家庭则占少数。按纯收入分组(元)252015105户数比重(%)数据分布的形状测度-峰度数据分布扁平程度的测度;计算公式:峰度系数=3扁平程度适中;峰度系数3为扁平分布;峰度系数3为尖峰分布。4114niiniiiffxx4.5连续变量的统计描述实例操作【例】:某班30名学生《统计学》期末考试成绩如下,试对该考试进行统计描述分析。117122124129107117130122110118123126127123118112100125117122126122118108112127123119113120描述统计过程SPSS软件中用于连续变量统计描述的工具主要有Frequencies、Descriptive、Explore三大过程。Frequencies过程频数分布表是描述性统计中最常用的方法之一,Frequencies过程就是专门为产生频数表而设计的。Frequencies过程不仅可以产生详细的频数表,还可以按要求给出百分位点的数值,以及常用的条图、圆图等统计图。《统计学》成绩【例】:某班30名学生《统计学》期末考试成绩如下,试对该考试进行分析。117117123112126127122130126100122123124122127125118119129110123117108113107118118122112120主对话框选择要分析的变量选定频数表格式做统计图定义需计算的统计量Statistics子对话框离散趋势集中趋势百分位数分布结果输出-表格Statistics成绩300119.231.290121.001227.06549.909-.828.427.511.833301001303577116.00121.00124.25ValidMissingNMeanStd.ErrorofMeanMedianModeStd.DeviationVarianceSkewnessStd.ErrorofSkewnessKurtosisStd.ErrorofKurtosisRangeMinimumMaximumSum255075PercentilesFrequencies过程的表格输出不仅主要有均值、中位数、众数、标准差等等常用的描述统计指标。Charts子对话框条图正态曲线直方图饼图Charts子对话框主要是定义输出的图形类型:条图、饼图、直方图。结果输出-直方图Format子对话框限制分组数选择两个以上变量作频数表定义频数表排列顺序Format子对话框主要是定义输出频数表的格式。Descriptive过程它可对变量进行描述性统计分析,计算并列出一系列相应的统计指标,这和其他过程相比并无不同。该过程可将原始数据转换成标准正态分值,并以变量的形式存入数据库供以后分析。主对话框选择要分析的变量Options子对话框Options子对话框主要是选择需要输出的描述统计指标:均值、中位数、众数、标准差等等。DescriptiveStatistics30301001303577119.231.2907.06549.909-.828.427.511.83330成绩ValidN(listwise)StatisticStatisticStatisticStatisticStatisticStatisticStd.ErrorStatisticStatisticStatisticStd.ErrorStatisticStd.ErrorNRangeMinimumMaximumSumMeanStd.DeviationVarianceSkewnessKurtosis结果输出-表格Explore过程可对变量进行更深入详尽的描述性统计分析,主要用于对资料的性质、分布特点等完全不清楚时,故又称为探索性分析。在常用的描述性统计指标的基础上,它增加了有关数据详细分布特征的文字与图形描述,如茎叶图、箱式图等。主对话框选入所需分析变量选定分组变量选定标签变量选定结果中包括的内容Statistics子对话框所有以上两个过程有的指标集中趋势输出5个最大与最小值百分位数Plots子对话框箱式图的绘制方式茎叶图和直方图正态图和正态检验判断离散程度是否相同(比较合适的变量变换方法)结果输出-表格CaseProcessingSummary30100.0%0.0%30100.0%成绩NPercentNPercentNPercentValidMissingTotalCases结果输出-表格Descriptives119.231.290116.60121.87119.59121.0049.9097.065100130308-.828.427.511.833MeanLowerBoundUpperBound95%ConfidenceIntervalforMean5%TrimmedMeanMedianVarianceStd.DeviationMinimumMaximumRangeInterquartileRangeSkewnessKurtosis成绩StatisticStd.Error结果输出-直方图结果输出-箱图离群点最小值最大值中位数上四分位数下四分位数小结本章主要阐述SPSS软件中用于连续变量统计描述的Explore、Frequencies、Descriptive三大过程。在实际的数据分析工作中,首要的工作就是去了解数据的整体情况,随后才能考虑作更深入的分析和推断。Thankyou!