《数学建模素养》基础篇之统计数据分析主讲教师高全胜教授1.基本统计分析1.1基本统计分析概述一、基本统计分析包括的内容①频度分析Frequencies②统计描述Descriptives③探索性数据分析Explore④多维频数分布交叉列联表Crosstable⑤摘要报告表Summarize⑥行形式的输出报告ReportSummariesinRow⑦列形式的输出报告ReportSummariesinColumn二、统计分析的特殊图形箱图Boxplot茎叶图Stem-andLeafPlot1.2单变量的统计描述集中趋势的的描述指标1.2.1算术平均算术平均(ArithmeticMean)是最常用的描述集中趋势的统计量。总体均数(PopulationMean)用希腊字母表示,样本均数常用表示。一、算术平均数的定义和性质XXaaXXXXXnXnXXXXiiiin22210二、均数的意义任何一个平均数值首先是同类现象的平均数。任何一个平均数总是一个平衡点。但平均数在高度概括观测数据从而使问题简化的同时,却丢失了某些有用的信息。一方面它把各个观测数据之间的差异性掩盖了起来,另一方面由于平均数对于个别极端值反应比较灵敏,因而平均数在某些情况下可能具有一定的欺骗性。三、均数的适用范围严格的讲平均数指示用于定距变量。但有时对于定序变量,求平均等级也可以使用平均数。1.2.2中位数中位数(Median)是将总体各单位的标志值按大小顺序排列,处于中间位置的那个标志。对于未分组的原始资料,首先必须将标志值按大小顺序。设排序结果为:则中位数就可以按下列方式确定:中位数的适用范围:具有稳健性。被平均的实例。nXXXX321为偶数时当为奇数时当n2/n12/2/2/1nnnXXMXM1.2.3其他集中趋势指标一、截尾均数由于均数较易受极端之的影响,因此可以考虑将数据排序后,按照一定的比例去掉最两端的数据,只是用中部的数据来求均数。如果截尾均数河源均数相差不大,则说明数据不存在极端值,或者两侧极端值的影响正好抵消;反之,则说明数据中有极端值,此时截为均数更好地反映数据的集中趋势。常用的截尾均数有5%截尾均数,即两端各去掉5%的数据。二、几何均数几何均数适用于原始数据分布不对称,但经过对数转换后称对称分布的资料。nXGXXXXGinnlglg1321几何均数实际上就是对数转换后的数据lgX的算术平均数的反对数。四、调和均数它实际上是观察值X倒数之均数的倒数。三、众数(Mode)众数指的是样本数据中出现频次最多的那个数。众数适用于任何层次的变量,特别适用于单峰对称的情况,是比较两个分布是否接近首先要考虑的参数。xnxxxnnxxxGnn1111111121211.3离散趋势的描述指标1.3.1全距(Range)又称为极差,是一组数据中最大值(Maximun)与最小值(Minimum)之差。极差反映的是变量分布的差异范围或离散程度,在总体中,任何两个标志值之差都不可能超过极差。极差存在两点不足:一是它仅仅取决于两个极端之的水平,不能反映其间的变量分布情况,提供的信息太少。二是它容易受个别极端值的影响,不符合稳健型的要求。minmaxXXR1.3.2方差和标准差方差(Variance)和标准差(StandardDeviation)的定义将离均差平方和(SumofSquaresofDeviationfromMean,SS)除以观察例数N,就得到方差:方差越大,数据分布离散程度越大。对于样本数据而言,方差的计算公式为:将方差开方,就得到标准差。对于同性质的数据来说,标准差越小,表明数据的变异程度越小,即数据越整齐,数据的分布范围越集中;标准差越大,表明数据的变异程度越大,即数据越参差不齐,分布越分散。NXXi22122nXXSi1.3.3百分位数、四分位数与四分位数间距一、分位数分位数:是一种位置指标,用PX表示。一个百分位数PX将一组观测之分为两部分,理论上有x%的观测值比它小,(100-x)%的观测值比它大。四分位数(quartile)、十分位数(decile)、百分位数(percentile),他们分别是用3个点、9个点、99个点将数据4等分、10等分和100等分后各分位点上的值。二、四分位数四分位数:实际上是三个数值的总称,分别是P25、P50、P75分位数。很显然,中间的分位数是中位数,因此通常所说的四分位数是指第一个四分位数(下四分位数)和第三个四分位数(上四分位数)。三、奇异值数据点到主体边缘的距离超过箱高的1.5倍。上奇异值=(75%百分位数-25%百分位数)*1.5+75%百分位数下奇异值=25%百分位数-(75%百分位数-25%百分位数)*1.5四、极端值数据点到主体边缘的距离超过箱高的3倍。上极端值=(75%百分位数-25%百分位数)*3+75%百分位数下极端值=25%百分位数-(75%百分位数-25%百分位数)*31.3.4变异系数当需要比较两组数据离散程度大小的时候,往往直接使用标准差来进行比较并不合适。这可以被分为两种情况:(1)测量尺度相差太大;(2)数据量纲不同在以上情形中,就应当消除测量尺度和量纲的影响,而变异系数(CoefficientofVariance),它是标准差和其平均数的比率。XSCV1、偏(斜)度(Skewness):描述分布偏离正态分布的程度,即偏离对称的程度。SkewnessSkewness0:正偏离,Skewness0:负偏离2、峰(峭)度(Kurtosis)描述单峰频度曲线峰形的尖平程度。KurtosisKurtosis0分布集中趋势强(尖),Kurtosis0分布离心趋势强33)(nxx3)(44nxx1.3.5正态度量指标3、标准分数:Z分数以标准差为单位表示一个分数在群体中所处的相对位置。nxxxxZx1.4.特殊统计图形1.4.1.箱图(Boxplots图)箱图或称箱线图,可以直观地描述变量频度分布特征。箱图Box主体:由大于25%的百分位数到小于75%的百分位数的样本组成。中间的黑色横线表示中位数。箱图Box本体:由上触须线和下触须线包括的范围组成。其意义是除去奇异值和极端值后的全部样本观测值。1.4.2.茎叶图Stem-and-LeafPlotFrequencyStem&Leaf.006.1.006.21.006.53.006.6673.006.8897.007.00011117.007.22233339.007.4444555558.007.6666777712.007.88888999999913.008.000000001111111.008.222223333336.008.4444556.008.6667775.008.889993.009.0012.009.231.009.41.009.61.00Extremes(=98)Stemwidth:10.00;Eachleaf:1case(s)在输出显示窗口Viewer中以字符数字构成的图,用以表达变量的频度分布。例如:第一列频数Frequency:表示样本的频数。第二列茎Stem:表达整数第三列叶Leaf:每片叶表示小数的量级。Stemwidth表示茎宽,即倍率,例如茎宽=10.00当茎stem=9时,表示90Eachleaf表示每片叶表示样本数,例如当Eachleaf=2case(s)时,每片叶子代表的样本数为2个样本。例如在上述例子中,第六行中的数据表示共有七个样本,其中70的样本有三个,而71的样本有四个。第七行中的数据表示共有七个样本,其中72的样本有三个,而73的样本有四个。最后一行中的数据表示共有一个样本,该样本为极端值,大于等于98。1.5.实例1.5.1使用Explore过程进行分析探索分析是对数据进行初步的观察分析,主要的分析项目有:观察数据的分布特征:可通过绘制箱图和茎叶图等图形直观地反映数据的分布形式和数据的一些规律性,包括考察数据中是否存在异常值等。正态分布检验:检验数据是否服从正态分布。方差齐性的检验:用Levene检验比较各组的方差是否相等。1、单击Analyze-Descriptivestatistics-Explore,打开Explore主对话框:一、分析操作(3)在Display栏中选择输出项,依次是Both选择项,输出图形与描述统计量(系统默认),只输出描述统计量和只输出图形。本例中选择默认项。(1)从左侧的变量列表中选出变量”身高”,送入DependentList栏。(2)选择”性别”作为因子变量,送入FactorList栏。有了因子变量,SPSS会把所有的观测个体按照因子变量的取值分成若干各组,再分组考察DependentList中的各个变量,如果不选择因子变量,SPSS会对全部观测来做探索分析。2、单击Statistics统计量按钮,打开Statistics对话框,选择统计输出量。(1)Descriptives基本统计描述。同时指定均值的置信区间的置信度,系统默认为95%。(2)M-估计(M估计在计算时对所有观测量赋予权重,随观测量距分布中心的远近而变化)。(3)Outliers输出分析数据中五个最大值和五个最小值。(4)Percentiles输出百分数。3、单击Plots图形按钮,打开Plots对话框。(1)Boxplot箱图选择栏Factorlevelstogether因变量按因素水平分组(系统默认);Dependentstogether所有因变量生成一个并列箱图(本例中选择项);None不显示箱图。(2)Descriptive描述图形栏Stem-and-leaf茎叶图Histogram直方图(3)Normalityplotswithtest(复选项),正态分布检验并输出Q-Q图。None:不产生回归直线的斜率和方差齐性检验;PowerEstimation转换幂值估计(对每组数据产生一个中位数自然对数及四个分位数的自然对数的散点图)选项;Transformed变换原始数据选择项;Untransformed不变换变换原始数据选择项。(4)SpreadvslevelwithLeveneTest栏,对所有的散布—层次图,同时输出回归直线的斜率以及方差齐性的Levenes检验。4、单击Option按纽,打开Option对话框如图所示。可选择缺失值的处理方式,SPSS提供三种处理方式:(1)Excludecaseslistwies剔除带缺失值的观测量(系统默认)。(2)Excludecasespairwise剔除带缺失值的观测量时还一并剔除与缺失值有成对关系的观测量。(3)Reportvalues输出频数表时同时输出缺失值。5、单击OK,得到相应的输出结果如表所示。二、基本的分析结果CaseProcessingSummary6995.8%34.2%72100.0%14699.3%1.7%147100.0%性别男女身高NPercentNPercentNPercentValidMissingTotalCasesDescriptives174.71.671173.37176.05174.70175.0031.0625.573159188298-.034.289.138.570162.88.430162.03163.73162.83163.0026.9505.191151178277.157.201-.203.399MeanLowerBoundUpperBound95%ConfidenceIntervalforMean5%TrimmedMeanMedianVarianceStd.DeviationMinimumMaximumRangeInterquartileRangeSkewnessKurtosisMeanLowerB