第4章样本描述与数据准备样本数据采集到以后,不能立即用于数据分析,因为样本可能存在错误数据、缺失数据或者异常数据,或者采集的数据不符合要求,不具有代表性,这些情况会直接影响到分析结果的准确性和准确性。所以,进行数据分析以前,需要首先了解一下样本数据的基本特征,并对缺失值和异常值等进行适当的处理。第一节样本的描述一、基本数学知识样本数据采集到以后,常用一些统计量描述原始数据的集中程度和离散状况,对数据的总体特征进行归纳。(1)描述中心趋势的统计量算术平均数:样本数据的总和除以数据个数得到算术平均数,算术平均数是描述样本数据中心趋势最常用的统计量,因为具有计算简便、稳定的优点。中位数:将样本数据(假设有N个数)按照升序或者降序排列,如果N为奇数,则数列中间的数为中位数;如果N为偶数,则中位数为居中两数的均值。中位数不如算术平均数稳定,即在同一总体中取相同大小的不同样本时,中位数的变化比算术平均数大。但是中位数不受极值的影响,因而在经济统计中应用较多。众数:样本数据中出现频数最大的那个数称为众数。众数容易理解,但是不容易确定,与中位数一样,不受极值的影响。截尾平均数:将样本数据进行排序后,按照一定的比率去掉两端的某些数,对剩下的数据求平均值,得到截尾平均数。常用的截尾平均数有5%截尾平均数,即两端去掉5%的数据以后剩余的数求平均数。截尾平均数与算术平均数相比,较少受极值的影响。几何平均数:N个非负数12,,...,Nxxx的几何平均数可以表示为:12...NgNMxxx几何平均数应用于任何两个相邻数之比为常数或者接近常数的数据资料。调和平均数:N个数12,,...,Nxxx的调和平均数可以表示为:12111...NhxxxNM其它中心趋向的度量还有某种四分数、十分数和百分数的平均值。其中,分位数是随机变量的一种数字特征,假设连续型随机变量X的密度函数是()fx,给定常数p(01)p,若pV满足:()pVfxdxp则称pV为x的分位数。(2)描述离散趋势的统计量仅仅利用描述中心趋势的统计量,不能够反映整个数据集合的分布状况,具有不同分布的数据可能具有相同的算术平均数、中位数或者众数等。因此,还需要统计量来反映数据与描述中心趋向统计量之间的离散状况。这样的统计量主要包括以下几种:极差:极差是样本数据中最大值与最小值的差值,极值舍弃了最大值与最小值之间的数据信息,仅仅依靠端点值来确定,因而稳定性差。平均差:样本数据中各数据与均值之间差值的平均数称为平均差。平均差应该为0,用它可以检验平均值的准确性。平均绝对差:样本数据中各数据与均值之间的差值的绝对值的均值称为平均绝对差。221()NiixxN标准差:方差的平方根称为标准差,标准差是最常用的反映数据离散趋势的统计量。(3)偏度与峰度偏度:偏度是反映数据分布不对称的一个数字特征,其公式:3232/Sk式中,3([()])kEXEX,2,3,4,....k为变量X的k阶中心矩。当数据为正态分布时偏度为0。峰度:峰度是以正态分布为标准描述该分布密度的形状为陡峭还是平坦的一个数字特征,计算公式为:242/3Kur当数据呈现正态分布时,峰度为0。二、SPSS实现用鼠标指向Analyze菜单条中的DescriptiveStatistics选项,打开响应的子菜单,该子菜单中提供了多个过程来实现样本数据的描述。下面分别进行介绍。(1)频数分析过程该过程就是通过数据频数分析来达到整理数据的目的,利用该过程,得到一系列描述数据分布状况的统计量。对话框介绍在DescriptiveStatistics子菜单中单击Frequencies选项,打开Frequencies对话框,如下图所示;变量名列表框:对话框左侧的变量名列出了当前数据文件中所有的变量的变量名。Variable(s):在变量名列表框中单击文件名之后,单击对话框中间的箭头按钮,将变量名移到该列表框中。选定变量名后,将对选定变量的数据进行频数分析。Displayfrequencytables:选定此项,将在查看器中显示频数分析表,否则只显示直方图,不显示频数表。Statistics按钮:单击该按钮,打开Frequencies:Statistics对话框,如下图所示,该对话框中各个选项的意义如下:1.PercentileValues方框:选择方框内的选项,计算并显示分位数。※Quartiles核选框计算并显示四方位数。※CutPoints核选框在后面的窗口中输入数值,假设为p(p为2到100之间的整数字),则计算并显示p分位数。※Percentile(s)核选框在后面的窗口中输入数值,可以有选择的显示百分位数。在窗口中可以输入0到100之间的数字,输入后,单击Add按钮,将对应的百分位数添加到方框内的列表框中,利用Change按钮和Remove按钮,可以对列表框中的选项进行修改和删除。2.CentralTendency方框:选择该方框内的选项,计算并显示描述中心趋势的统计量。※Mean核选框计算并显示样本数据的均值;※Median核选框计算并显示样本数据的中值;※Mode核选框计算并显示样本数据的众数;※Sum核选框计算并显示样本数据的累加和。3.Valuesaregroupmidpoints核选框:假设数据已经分组,而且数据取值为初始分组的中点,选择此项,计算百分位数统计量和数据的中位数。4.Dispersion方框:选择方框内的选项,计算并显示描述数据离散趋势的统计量。※Std.deviation核选框计算并显示标准差※Variance核选框计算并显示方差※Range核选框计算并显示极差※Minimum核选框计算并显示样本数据的最小值※Maximum核选框计算并显示样本数据的最大值※S.E.mean核选框计算并显示均值的标准误差5.Distribution方框:设置描述数据分布的统计量※Skewness核选框显示样本数据的偏度和偏度的标准误差※Kurtosis核选框显示样本数据的峰度和峰度的标准误差Charts按钮:单击该按钮,打开Frequencies:Charts对话框,如下图所表示1.ChartType方框:在该方框内进行选择,确定图形输出类型。※None为默认选项,选择此项,不生成和显示图形;※Barchar(s)单选项,生成和显示条形图;※Piechar(s)单选项,生成和显示饼图;※Histogram(s)单选项,生成和显示直方图;※Withnormalcurve核选项,选择Histogram(s)单选项后,本核选框变的可以用,选择此项,在生成和输出直方图时添加正态曲线。2.ChartValues方框:在Barchar(s)和Piechar(s)选择之后,该项目变得可以用。选择此项目,确保生成图形时候的条形或扇区面积的度量。※Frequencies单选项:为默认选项,用分类变量不同取值对应的个数作为度量;※Percentage单选项:用分类变量不同取值对应的个数占总个数的百分比作为度量。Format按钮:单击该按钮,打开Frequencies:Format对话框,如下图所示。利用该对话框,设置频数分析表的输出格式。1.Orderby方框:该方框中的选项设置表中的数据的排列顺序。※Ascendingvalues单选框为默认选项,按照变量的大小进行顺序排列;※Descendingvalues单选框按照变量的大小进行降序排序;※Ascendingcounts单选框按照变量值出现的频数作升序排列;※Descendingcounts单选框按照变量值出现的频数作降序排列。2.MultipleVariables方框:如果Frequencies方框中Variable(s)列表框中有多个变量名,选择该项,可以确定表格的显示方式。※Comparevariables单选框,为默认选项。将对应于各个变量的统计量显示在一张单独的表中;※Organizeoutputbyvariable单选框,将对应于各变量的统计量分别列示显示。3.Suppresstableswithmorethanncategories核选框:选择此项,在后面的窗口中输入数值,确定频数输出的范围,即输出数据的组数不得大于窗口中输入的数值。默认时该数值为10。(2)数据描述过程对话框说明在DescriptiveStatistics子菜单中单击Descriptive…选项,打开Descriptives对话框,如下所表示。该对话框中各个选项的意义如下:在左边的变量名列表中选中变量名后,用箭头按钮移到variable(s)列表框中,将对variable(s)列表框中的数据的分布特征进行描述。Savestandardizedvaluesasvariables核选框:选择该框,对Variable(s)中的数据进行标准化,然后将标准化后的数据保存到一个变量中,变量名字为原变量名字前面添加字母z.新生成的变量和数据保存到当前数据文件中并显示在数据编辑器的最后一列。Options按钮:单击该按钮,打开Descriptive:Options对话框,如下所示。1.Mean核选框,Sum核选框,Dispersion方框内的选项和Distribution内的选项的意义参见前面的Statistics对话框的内容。2.DisplayOrder方框:该方框内的选项设置描述表格中数据的显示顺序。※VariableList单选框为默认选项,按照数据文件的先后顺序排列;※Alphabetic单选框按照变量的字母排序排列;※Ascendingmeans单选框按照变量均值的升序排列;※Descendingmeans单选框按照变量均值的降序排列。(3)数据探察过程对话框说明在DescriptiveStatistics子菜单中单击Explore选项,打开Explore对话框,如下图形所示:变量名列表框:该列表框中列出了当前数据文件中的所有变量名字;Dependent列表框:在该列表框中输入变量名,对应变量为因变量;FactorList列表框:在该列表框中输入变量名,对应变量为分组变量;LabelCases列表框:在该列表框中输入变量名,对应变量为标识变量;Display方框:选择该方框中的选项,确定显示内容。·Both单选项:为默认按钮,选择此项,输出统计表格和图形;·Statistics单选项:选择此项,输出统计表格;·Plots单选项:选择此项,输出图形;Statistics按钮:单击此项,打开Explore:Statistics对话框,如下图形所示。1.Descriptive核选框选择此项,将生成Descriptive表,表中显示样本数据的描述统计量,包括平均值,中位数,5%调整平均数,标准误差,方差,标准差,最大值,最小值,极差,四分位数,峰度,偏度以及误差等等。默认时选择此项。在后面的ConfidenceIntervalfor窗口中输入数值,确定平均值的置信区间,默认为95%。2.M-estimators核选框选择此项,将计算并生成稳健估计量。关于文件估计量的内容将在后面参数估计一章中介绍。3.Outliers核选框选择此项,输出5个最大值和5个最小值,作为异常嫌疑值。在后面的相应部分详细介绍。4.Percentiles核选框选择此项,计算并显示指定的百分位数以及四分位数,指定的百分位数包括5%,10%,15%,25%,50%,75%,90%和95%等。Plots按钮:单击该按钮,打开Explore:plots对话框,如下所示。、1.Boxplots方框在Explore对话框中的Dependent列表框中输入多个变量名(因变量),在该方框中选择此项,确定箱形图的生成方式。※Factorlevelstogether核选框,为默认选项,将为每个因变量创建一个箱形图,在每个箱形图内根据分组变量的不同水平创建箱形单元。※Dependentstogether核选框,将为每个分组变量创建一个箱形图,在每个箱形图内为不同因变量用不同颜色创建箱形单元。※None不创建箱形图。2.D