第三章SPSS的基本统计分析基本统计分析•通过基本统计分析,能够使分析者掌握数据的基本统计特征,把握数据的总体分布形态。基本统计分析的结论对今后进一步的数据建模,将起到重要的指导和参考作用–频数分析–计算基本描述统计量(分布特征测度)–列联分析(交叉分组下的频数分析)–多选项分析–比率分析•两种方式–数值计算–图形绘制基本统计分析在Analyze--DescriptiveStatistics菜单中,包括:Frequencies:频数分析过程,特色是产生频数表(主要针对分类变量)Descriptives:数据描述过程,进行一般性的统计描述(主要针对数值型变量)Explore:数据探察过程,用于对数据概况不清时的探索性分析Crosstabs:多维频数分布交叉表分析(列联表分析)Ratiostatistics:比率分析频数分析•目的了解变量取值的状况,粗略把握变量值的分布状况–研究被调查者的特征(如:性别、年龄、职业)•通过这些分析,能够在一定程度上反映出样本是否具有总体代表性,抽样是否存在系统偏差等,并以此证明以后相关问题分析的代表性和可信性•方法–编制频数分布表:包括计算频数、百分比、累计百分比–绘制统计图形:条形图、饼图、直方图频数分布表•内容–频数(Frequency)变量值落在某个区间(或某个类别)中的次数–百分比(Percent)各频数占总样本量的百分比–有效百分比(ValidPercent)各频数占总有效样本量的百分比有效样本量=总样本-缺失样本量在不包含缺失值个案的所有个案中各变量取值频数的比例–累计百分比(CumulativePercent)各百分比逐级累加起来的结果。最终取值为百分之百统计图•柱形图或条形图(BarChart)–用宽度相同的条形的高度或长短来表示频数分布变化的图形–适用于定序和定类变量的分析–柱形图的纵坐标或条形图的横坐标可以表示频数,也可以表示百分比–分为单式图和复式图等形式•饼图(PieChart)–用圆形及圆内扇形的面积来表示频数百分比变化的图形–有利于研究事物内在结构组成等问题–饼图中圆内的扇形面积可以表示频数,也可以表示百分比•直方图(Histograms)–用矩形的面积来表示频数分布变化的图形–适用于定距型变量的分析–可以在直方图上附加正态分布曲线,便于与正态分布的比较频数分析基本操作(1)菜单选项:analyze-descriptivestatistics-frequencies(2)选择几个待分析的变量到variables框.(3)按chart选项,选择所需要绘制的统计图形(4)按Format按钮,调整频数分布表中数据的输出顺序输出百分位数:输出四分位数,显示25%、50%、75%的百分位数;将数据平均分为所设定的相等等份,可输入2—100的整数,如键入4则输出第25、50、75百分位数自定义百分位数,可输入0—100的整数。离散趋势分布形态栏集中趋势栏输出统计量对话框Format对话框控制频数表输出的分类数量。默认为10多变量框中可设定多变量表格输出的格式设置频数表输出的格式选择频数表中排列顺序按变量升序排列,此为默认按变量降序排列按变量各种取值发生的频数的升序排列按变量各种取值发生的频数的降序排列•multiplevariables单选框组–如果选择了两个以上变量作频数表,则comparevariables可以将所有变量的结果在同一个频数表过程输出结果中显示,便于互相比较–organizeoutputbyvariables则将结果在不同的频数表过程输出结果中显示,每一个变量一张表频数分析中的扩展功能—计算分位数•分位数是变量在不同分位点上的取值。分位点在0~100之间•一般使用较多的是四分位点(Quartiles),即将所有数据按升序排序后平均等分成四份,各分位点依次是25%,50%,75%。于是,四分位数分别是25%,50%,75%分位点对应的变量值•此外,还有八分位数、十六分位数等计算分位数适用于定序数据–数据按升序排序后,找到若干个分位点上的变量值–quartiles:计算四分位数25%(QL)、50%(中位数)、75%(QU)–cutpointsfornequalgroups:n等份–percentile:自定义百分位点•分位数的应用–在排除极端值影响的条件下,通过计算分位数差,比较两组样本数据的离散程度–例:(QL=50,QU=80)和(QL=70,QU=75)的比较例题3.1•利用住房状况问卷调查数据–分析被调查家庭中户主的从业状况和目前所住房屋的产权状况–分析人居住房面积的分布状况,并对本市户口和外地户口家庭进行比较目标一:分析从业状况和目前所住房屋的产权状况(1)产权状况和从业状况两个变量都是定类型变量,可通过基本频数分析实现。(2)职业变量的取值(分类)数目较多,为使频数分布表更一目了然,应对内容的输出顺序进行调整,单击Format按钮,选择Descendingcounts按频数的降序输出。(3)单击Chart按钮指定输出产权变量的饼图和职业变量的柱形图。目标二:分析人均住房面积的分布状况,并对本市户口和外地户口家庭进行比较。1、分析思路:(1)由于人均住房面积数据为定距型变量,直接采用频数分析不利于对其分布形态的把握,因此考虑依据第三章中的数据分组功能对数据分组后再编制频数分布表。(2)进行数据拆分,并分别计算本地户口和外地户口的人均住房面积的四分位数,并通过四分位数比较两者分布上的差异。2、分析过程:(1)数据分组,将人均住房面积重新分成四组,四组区间分别为,少于10平方米,10-20平方米,20-30平方米,30平方米以上。分组后进行频数分析并绘制带正态曲线的直方图。(2)利用SPSS的频数分析计算所有样本的人均住房面积的四分位数;然后,按照户口类型对数据进行拆分(Splitfile)并重新计算分位数,分别得到本地户口和外地户口的人均住房面积的四分位数。基本描述统计量•目的–精确把握变量的总体分布状况,了解数据的集中趋势、离散趋势、对称程度、陡峭程度•常见的基本描述统计量有三大类:–刻画集中趋势的统计量–刻画离散趋势的统计量–刻画分布形态的统计量刻画集中趋势的描述统计量•集中趋势是指一组数据向某一中心值靠拢的倾向•计算刻画集中趋势的描述统计量正是要寻找能够反映数据一般水平的“代表值”或“中心值”–均值(Mean):即算术平均数,是反映某变量所有取值的集中趋势或平均水平的指标。如某企业职工的平均月收入。其计算公式为•适用于定距数据。•特点:利用了全部数据,易受极端值的影响11niixxn刻画集中趋势的描述统计量•中位数(Median):即一组数据按升序排序后,处于中间位置上的数据值。如评价社会的老龄化程度时•众数(Mode):即一组数据中出现次数最多的数据值。如生产鞋的厂商在制定各种型号鞋的生产计划时应该运用众数刻画离散程度的描述统计量•离散程度反映各变量值远离其中心值的程度(离散程度),它从另一个侧面说明了集中趋势测度值的代表程度。–如果数据都紧密地集中在“中心值”的周围,数据的离散程度较小,说明这个“中心值”对数据的代表性好–如果数据仅是比较松散地分布在“中心值”的周围,数据的离散程度较大,则此“中心值”说明数据特征是不具有代表性的刻画离散程度的描述统计量•全距(Range):也称极差,是数据的最大值(Maximum)与最小值(Minimum)之间的绝对离差。•方差(Variance):各变量值与算数平均数离差平方的算术平均数。其计算公式为•标准差(StandardDeviation:StdDev):表示变量取值距离均值的平均离散程度的统计量。其计算公式为211()niisxxn2211()niixxn均值标准误差(StandardErrorofMean)•样本均值作为抽样样本的平均数也与总体均值之间存在差异。若干次抽样后会得到若干个不同的样本均值,当样本容量足够大时,这些均值服从正态分布,即X~N(μ,σ2/n)•可见,样本均值与总体均值的平均差异(离散)程度(方差)为/n。于是,均值标准误差的数学定义为:•因此,均值标准误差是描述样本均值与总体均值之间平均差异程度的统计量。•样本数越大,样本均值的离散程度越小,对真值的估计越准确22()...[()]xXSEofMeanMxExMn刻画分布形态的描述统计量•数据的分布形态主要指数据分布是否对称,偏斜程度如何,分布陡峭程度等•偏度(skewness):描述某变量分布形态的偏斜程度和方向的统计量–偏度为0表示对称;–大于0表示正偏差大(右偏)–小于0表示负偏差大(左偏)–偏度绝对值越大,表示数据分布形态的偏斜程度越大3311()/niiSkewnessxxn刻画分布形态的描述统计量•峰度(kurtosis):描述某变量所有变量值分布形态陡缓程度的统计量–峭度为0表示与标准正态分布峭度相同–大于0表示比标准正态分布陡,尖峰–小于0表示比标准正态分布缓;平峰4411()/3niiKurtosisxxn扁平分布尖峰分布偏态峰态左偏分布右偏分布与标准正态分布比较!计算基本描述统计量的操作(1)菜单选项:analyze-descriptivestatistics-descripive(2)选择将参加计算的数值型变量名到variables框。(3)按Options按钮指定计算哪些基本描述统计量,选择相应的选项Options对话框基本统计量当Variables框中有多个变量时,此框确定其输出顺序:按Variables框中的排列顺序输出按各变量的字母顺序输出按均值的升序排列按均值的降序排列分布例题3.2•利用住房状况问卷调查数据,对人均住房面积计算基本描述统计量,并分别对本市户口和外地户口家庭进行比较–分析:首先按照户口对数据进行拆分(Splitfile),然后计算人均住房面积的基本描述统计量数据标准化处理•用于对异常值的判断•新变量被称为标准化值或Z分数,反映的是样本值与均值的差是几个标准差单位•小于0表示在平均水平下,大于0反之•3σ准则:如果标准化值的绝对值大于3,则认为是异常值SxxZii数据标准化处理•正态分布的数据标准化后呈标准正态分布–数值分布在正负一个标准差之内的可能性为68.2%–数值分布在正负两个标准差之内的可能性为95.4%–数值分布在正负三个标准差之内的可能性为99.7%•如果异常数的总比例大于0.3%,则认为该组数据存在一定的不均衡•savestandardizedvaluesasvariables选项–将变量作标准化后,结果存入名为“Z+原变量名”的新变量中例题3.3•利用住房状况问卷调查数据,分析人均住房面积是否存在不均衡现象–分析:假设人均住房面积服从正态分布,跟据3σ原则,异常值通常为3个标准差范围之外的值,可通过对数据的标准化处理来判断–通过标准化可以得到一系列新变量值–对新变量进行排序并浏览其标准化值的取值情况,可以发现z分数值得绝对数大于3的家庭是存在的。对其分组为三组:z人均面积-3,-3z人均面积3,z人均面积3。并进行频数分析交叉分组下的频数分析(列联表分析)•例:户口状况与购买意向之间有关联吗?(两变量)•例:学习成绩与性别有关联吗?(两变量)•例:职业、性别、爱逛商店有关联吗?(三变量)•目的–了解多个变量在不同取值下的分布情况,掌握多变量的联合分布特征,进而分析变量之间的相互影响和关系•基本任务–根据收集到的样本数据编制交叉列联表–在交叉列联表的基础上,对两两变量间是否存在一定的相关性进行分析编制交叉列联表•交叉列联表是两个或两个以上的变量交叉分组后形成的频数分布表文化程度合计职称123411113213432136433合计445316行变量列变量频数行标题列边缘分布列联表(contingencytable)1.由两个以上的变量交叉分类的频数分布表2.行变量的类别用r表示,ri表示第i个类别3.列变量的类别用c表示,cj表示第j个类别4.每种组合的观察频数用