第4章spss描述性统计分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1第4章描述性统计分析描述性分析有两方面功能:数值计算,即通过计算常见统计量值,反映样本数据的统计特征;图形绘制,即通过绘制常见统计图形,直观展现数据的分布特征,比较数据分布的异同。实现描述性统计分析功能在Analyze→DescriptiveStatistics菜单。2SPSS的描述性分析功能模块有:1)Frequencies:频数分析,描述统计数据的频数分布特征2)Descriptive:基本描述统计,对单变量计算基本描述统计量3)Explore:探索性分析,考察一些极端值和奇异值;考察变量与变量间分布的差异是否显著4)Crosstabs:交叉列联表,讨论变量间的频数关系及各种测度(定类、定序、定距、定比)间的相关关系5)Ratio:比率分析,对两变量间变量值比率变化的描述分析3进行频数分布表的分析,适合于定性资料,以及部分定量资料,不能分组进行。对数据的分布趋势进行初步分析。基本概念:频数(Frequency):百分比(Percent,频率):有效百分比(ValidPercent):各频数占有效样本数(除去缺失样本数)的百分比。累计百分数(CumulativePercent):最后累积取值100。4.1Frequencies(频数分析)4频数分析中常用的三种基本统计图:特点:宽度(类别)相同,高度表示频数或频率,常分开排列。适于定类、定序资料条形图(柱形图BarChart)饼图(PieChart)直方图(Histograms)特点:扇形面积表示频数或百分比。适于研究内在的结构组成。特点:矩形面积表示频数或频率,宽为组距,高为密度,可附正态线,也称质量分布图。适于定距资料。5【实例4.1】计算全部学生英语、数学及语文三门成绩的均值、标准差、极差和四分位数,并生成语文成绩各区间的频数分布表和显示频数的饼图。6Statistics按钮:四分位数按输入值定义等分位数按输入不同值定义分位数7Charts按钮:8结果:Statistics18181800087.3983.3374.785.8737.63912.06622275283.5075.7569.7587.0085.0076.5092.0089.0079.00ValidMissingNMeanStd.DeviationRange255075Percentiles英语数学语文语文15.65.65.615.65.611.115.65.616.715.65.622.215.65.627.815.65.633.315.65.638.915.65.644.415.65.650.015.65.655.6211.111.166.7316.716.783.315.65.688.915.65.694.415.65.6100.018100.0100.0435568697072747576777879859495TotalValidFrequencyPercentValidPercentCumulativePercent94.2Descriptive(基本描述统计)对变量进行整体描述性统计分析,但不能分组进行,包括集中趋势值,离散趋势值,偏度系数,峰度系数等。最适合服从正态分布的定量资料,使用频率最高,且可将原始数据转换成标准Z分值并存入数据库。常见基本描述统计量大致有三类:描述集中趋势:反映一组数据的共同趋势,即反映数据一般水平的中心值或代表值。如样本均值、中位数、众数、总和等。10nSSE/描述离散趋势:反映一组数据的各观测值距离中心的离散程度。如样本方差、标准差、极差、最大值、最小值及均值标准误差等。描述分布形态:考察数据分布是否对称、偏斜程度及陡缓程度。主要指偏度和峰度。偏度系数:反映数据形态对称性。峰度系数:反映分布形态陡缓程度。niiSxxnSkewness133)(113)(11144niiSxxnkurtosis11【实例4.2】计算全部学生三门成绩的均值、标准差、最大值及最小值,并考察学生成绩的分布形态。12Options按钮:13结果:144.3探索性分析(Explore)能分组进行分析,适用于对资料的性质、分布特点完全不清楚情况,有助于确定对数据进行进一步分析的方案。主要对数据进行三方面考察:考察数据真实性:找出偏离主体较远的数据,如非正常值和极端值,分析之,并判断其正确性。考察数据的分布特性:主要考察数据的正态性。考察变量间数据的相互关系:考察变量间相关性及方差齐性。15考察变量列表分组变量16主要功能:1、通过茎叶图(StemandleafPlots)描述频数分布茎(Stem):整数部分,其值为Stem乘以Stemwidth,可以多位,表示该行出现数的相同部分叶(Leaf):小数部分,其值为Leaf乘以Eachleaf,只能一位,表示该行出现数的不同部分茎叶图可以观察出现同茎,不同叶组成数出现的频数。如第三行数据表示:总共3个case,其中一个9x10+0=90,2个9x10+2=92172、通过箱图(Boxplots)描述数据分布箱图主体:图中个案数占50%(大于25%且小于75%的百分位数)箱图本体:矩形部分,上下边对应上下四分位数奇异值(上下)o:超过箱图本体高度1.5倍的数据。极端值(上下)﹡:超过箱图主体高度3倍的数据。中位数箱线图是利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法,它也可以粗略地看出数据是否具有有对称性,分布的分散程度等信息正常值分界点183、通过Q-Q概率图描述数据分布的正态性Q-Q概率图有两种:(1)正态概率图(NormalProbabilityPlots)-直观反映实际分布和理论分布的差异。如图,纵坐标为Z分数值,斜线为Z分数期望标准线。点越趋近斜线,则越符合正态分布。19(2)反趋势正态概率图(DetrendedNormalProbabilityPlots)-直观反映实际分布和理论分布的差异。如图,纵坐标为Z分数值-正态分布期望值,水平线为期望标准线。点越趋近水平线,则越符合正态分布。204、检验按分组变量对考察变量分组后,各组间的方差齐性TestofHomogeneityofVariance1.606116.2231.155116.2981.155111.786.3041.545116.232BasedonMeanBasedonMedianBasedonMedianandwithadjusteddfBasedontrimmedmean语文LeveneStatisticdf1df2Sig.21【实例4.3】试考察学生三门成绩的描述统计量与均值的估计区间、极端值、奇异值、及正态分布性、方差齐性。22统计选项解释:(1)Descriptives:一般描述性统计量值,并进行均值的区间估计。(2)M-estimators:用于对集中趋势进行最大稳健估计。当异常值较多时,适合于用该估计值代替平均值来反映数据的集中趋势。通常有四种统计量:Huber、Andrew、Hampel、Tukey。(3)Outliers:输出五个最大值与五个最小值;(4)Percentiles:第5%、10%、25%、50%、75%、90%、95%位数(5)GroupedFrequencytables:输出分组例数与数值范围表。Statistics按钮:用于对均值进行区间估计的置信度23对均值的区间估计24Plots按钮:结果类似功能部分。按各组别分别进行箱图绘制按组别进行综合箱图绘制作茎叶图描述作直方图描述直方图带有趋势线方差齐性检验处理254.4交叉列联表分析(Crosstabs)进行计数资料的列联表分析,在分析中,可对二维至n维列联表(RxC表)资料进行统计描述和χ2检验,并计算相应的百分数指标。此外,还可计算四格表确切概率且有单双侧,对数似然比检验以及线性关系的χ2检验。交叉列联表是两个或多个变量交叉分组后形成的频数分布表,用于分析研究计数变量之间相关关系。而研究计量变量相关关系(称为协变)的方法常用相关分析和回归分析。26主要对数据进行两方面考察:1、利用样本数据,产生二维或多维交叉列联表2、在交叉列联表基础上,分析两变量间的相关性通常采用卡方检验和相关性检验。【注意】(1)交叉列联表单元格中,期望频数不应≤1或不应有大量的≤5。设RT为行频数合计,CT为列频数合计,则nCTRTfe(2)卡方统计量值受样本量大小的影响,常需要修正。27【实例4.4】如表的学生成绩数据,以年龄段为行变量,成绩水平为列变量,计算卡方值、检验行列变量是否独立。同时计算频数、期望频数、行频数、列频数及标准化残差。28操作主界面:29Exact按钮:30计算卡方值,用于行列变量的独立性检验Statistics按钮:计算pearson和spearman相关系数定类资料的行列变量相关性检验定序资料的行列变量相关性检验定序与定距资料的行列变量相关性检验评判内部一致性相关风险比例两相关二项分类变量的非参检验二项分类变量的因、自变量独立性检验31Cells按钮:计算与输出频数计算频数百分比计算残差32年龄段*成绩水平CrosstabulationCount1346014022318241801539717137123年龄段Total优秀良好中等及格不及格成绩水平Total结果:Chi-SquareTests7.246a8.5107.5428.479.0371.84837PearsonChi-SquareLikelihoodRatioLinear-by-LinearAssociationNofValidCasesValuedfAsymp.Sig.(2-sided)13cells(86.7%)haveexpectedcountlessthan5.Theminimumexpectedcountis.22.a.SymmetricMeasures-.032.164-.189.851c-.004.166-.025.980c37Pearson'sRIntervalbyIntervalSpearmanCorrelationOrdinalbyOrdinalNofValidCasesValueAsymp.Std.ErroraApprox.TbApprox.Sig.Notassumingthenullhypothesis.a.Usingtheasymptoticstandarderrorassumingthenullhypothesis.b.Basedonnormalapproximation.c.334.5比率分析(Ratio)比率分析是两个变量之间变量值比率变化的描述分析,适于定距变量。几个相对比描述指标:1、集中趋势指标(central)均数、中位数、加权比率均值(Weightedmean)-两变量均值之比。2、离散程度指标(dispersion)平均绝对离差(AAD)\离散系数(COD)\相关价格微分(PRD)\变异系数(COV)。34【实例4.5】如表是学生使用计算机时间、上网时间及是否受过处分的数据,试分析受处分和没受处分学生的上网时间和使用计算机时间比率情况。35操作主界面:分子变量分母变量36Statistics按钮:集中趋势指数定义相对数区间定义中位数百分比区间37CaseProcessingSummary3183.8%616.2%37100.0%037未受处分受处分处分情况OverallExcludedTotalCountPercent结果:RatioStatisticsfor上网时间/使用计算机时间.368.378.152.38448.8%46.0%.667.664.085.12316.4%16.3%.416.418.166.36848.6%45.6%Group未受处分受处分OverallMeanWeightedMeanAverageAbsoluteDeviationCoefficientofDispersionMeanCenteredMedianCenteredCoefficientofVa

1 / 42
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功