第三章描述性统计分析

beijingcheba
1 ℃
2020-02-15

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

第3章描述性统计分析描述性统计和推断性统计统计描述单变量统计描述：描述单个变量之分布双变量统计描述：描述两个变量之相关统计推论参数估计假设检验统计量统计分析往往是从了解数据的基本特征开始的。统计上，需要把样本数据所含信息进行概括、融合和抽象，从而得到反映样本数据的综合指标，这些指标称为统计量。描述性统计分析指标统计量可分为两类一类表示数据的中心位置，例如均值、中位数、众数等一类表示数据的离散程度，例如方差、标准差、极差等用来衡量个体偏离中心的程度。描述单变量分布的三种方式用数字呈现一个变量的分布用表格呈现一个变量的分布用图形呈现一个变量的分布FrequenciesDescriptiveExplore1、Frequencies即适用于分类变量，也适用于连续变量能够产生统计值能够产生统计表（频数表）能够产生统计图（饼图、条图和直方图）3.1频率分析频率分析主要通过频率分布表、条形图和直方图，以及集中趋势和离散趋势的各种统计量来描述数据的分布特征SPSS频率分析步骤1：点击Frequencies，弹出对话框步骤2：从左侧变量框，选择分析变量步骤3：点击“OK”，自动出现频数分析Frequencies的三个操作选项带有正态曲线的直方图按变量值升序排按频数降序排设置多变量表输出格式在同一表中输出多个变量的统计结果每个表中只输出一个变量的统计结果3.2中心趋势的描述均值均值标准误差中位数众数均值均值即数据的算术平均数，是数据中心趋势的主要度量指标，设变量有n个测量值，则算术均值为：12,,,nxxx均值的特点最常用的中心位置度量受极端值影响例：1，3，5，7，9和1，3，5，7，14均值标准误差（S.E.mean）均值标准误差（StandardErrorofMean,S.E.mean）就是描述这些样本均值与总体均值之间平均差异程度的统计变量。中位数重要的中心位置度量在递增排序后的数据列中若数据个数为奇数，中位数是正中央的数若数据个数是偶数，中位数是正中央的两数的平均值.不受极端值的影，例如：1，5，7，3，9众数发生频数最高的数据值不受极端值的影响众数可能不存在可能有多个众数（单峰，双峰，多峰）可用于定量或定性数据3.3离散趋势的描述仅仅根据数据的中心趋势指标进行决策是不够的。例如，如果一个国家的不同家庭收入差距很少；而另一个国家的家庭收入差距很大，既存在大量的贫困家庭，也存在许多十分富有的家庭，那么即使这两个国家的中等收入家庭的收入完全一样，其家庭收入情况仍然完全不同。例子假设我们有以下的三组观测值：观测A：11，12，13，16，16，17，18，21观测B：14，15，15，15，16，16，16，17观测C：11，11，11，12，19，20，20，20这三组观测值的均值都是15.5，那么这三组数据是否相似呢？离散趋势离散趋势的描述极差（全距）（range）方差（Variance）标准差（S.d.)分位数(Percentage)极差极差=最大值-最小值受极端值影响较大方差和标准差方差标准差四分位数（Quartiles）四分位数是将一组个案由小到大（或由大到小）排序后，用3个点将全部数据分为四等份，与3个点上相对应的变量为四分位数，分别记为Q1（第一四分位数）、Q2（第二四分位数）、Q3（第三四分位数）。其中Q3到Q1之间的距离的一半又称为四分位差，记为Q。四分位差越小，说明中间的数据越集中；四分位差越大，则意味着中间部分的数据越分散。3.4分布的形状偏度（Skewness）是描述数据分别形态的，它是描述某变量取值分布对称性的统计量。峰度（Kurtosis）是描述某变量所有取值分布形态陡缓程度的统计量。偏度（Skewness）当偏度大于0时，分布为正偏或右偏，布图形在右边拖尾，分布图有很长的右尾，尖峰偏左当偏度小于0，分布为负偏或左偏，即分布图形在左边拖尾，分布图有很长的左尾，峰尖偏右当偏度为0，分布对称峰度（Kurtosis）峰度3，分布为高峰度，即比正态分布的峰要陡峭；3，分布为低峰度，即比正态分布的峰要平坦些；=0，分布为正态峰。标准化Z分数标准分数（stardardscore）也叫z分数（z-score）,是一个分数与平均数的差再除以标准差的过程。用公式表示为：z=(x-μ)/σ。其中x为某一具体分数，μ为平均数，σ为标准差。Z值的量代表着原始分数和母体平均值之间的距离，是以标准差为单位计算。在原始分数低于平均值时Z则为负数，反之则为正数。标准化Z分数Z分数可以用来比较两个从不同单位总体中抽出的变量值。例如：某中学高（1）班期末考试，已知语文期末考试的全班平均分为73分，标准差为7分，甲得了78分；数学期末考试的全班平均分为80分，标准差为6.5分，甲得了83分。甲哪一门考试成绩比较好？标准化Z分数因为两科期末考试的标准差不同，因此不能用原始分数直接比较。需要将原始分数转换成标准分数，然后进行比较。Z(语文)=(78-73)/7=0.71Z(数学)=(83-80)/6.5=0.46甲的语文成绩在其整体分布中位于平均分之上0.71个标准差的地位，他的数学成绩在其整体分布中位于平均分之上0.46个标准差的地位。由此可见，甲的语文期末考试成绩优于数学期末考试成绩。3、Explore三个功能项中最强大的一个适用于性质和分布不明的数据资料，故称为探索性分析在常用描述统计指标基础上，增加了有关数据详细分布特征的数字和图形描述Explore的基本操作Explore的三个操作选项4个不同权重下作中心趋势的粗略最大似然确定数百分位数两组最大5个数和最小5个数，及对应id正态分布的检验结果Sig.0.05数据服从正态分布Sig.0.05数据不服从正态分布方差齐次性检验结果Sig.0.05接受方差相同的假设Sig.0.05拒绝方差相同的假设茎叶图茎叶图分为3大部分：频数（Frequency）茎（Stem）和叶（Leaf）。茎表示数值的整数部分，叶表示数值的个数部分。每行的茎和叶组成的数字相加再乘以茎宽（StemWidth），即茎叶所表示的是实际值的近似值。正态概率图斜线是正态分布标准线，散点是实际数据的取值，散点图组成的曲线越接近直线，表示数据分布越接近正态分布。离散正态概率图散点随机落在中间横线周围，不能拒绝正态分布。箱图箱子中间的黑粗线为中位数箱子上框为上四分位数（75％），下框为下四分位数（25％）箱子上下两个细线分别为去掉极端值以后的最大值和最小值细线外面的圆圈和星号为极端值交叉列联表分析交叉分组下的频数分析又称列联表分析。通过前面的频数分析能够掌握单个变量的数据分布情况，在实际分析中，不仅要了解单个变量的分布特征，还要分析多个变量不同取值下的分布，进而分析变量之间的相互影响和关系。对于这种涉及两个或两个以上变量分布情况的研究通常要利用交叉分组下的频数分析来完成。交叉列联表分析2、基本任务：（1）根据收集到的样本数据，产生二维或多维交叉列联表；（2）在交叉列联表的基础上，对两两变量间是否存在一定的相关性进行分析。5.3.2交叉列联表的主要内容编制交叉列联表是交叉分组下频数分析的第一个任务。交叉列联表是两个或两个以上的变量交叉分组后形成的频数分布表。例：职工基本情况数据按职称和文化程度编制的二维交叉列联表（见下页表）：职称*文化程度Crosstabulation1110333.3%33.3%33.3%.0%100.0%25.0%25.0%20.0%.0%18.8%6.3%6.3%6.3%.0%18.8%1300425.0%75.0%.0%.0%100.0%25.0%75.0%.0%.0%25.0%6.3%18.8%.0%.0%25.0%2013633.3%.0%16.7%50.0%100.0%50.0%.0%20.0%100.0%37.5%12.5%.0%6.3%18.8%37.5%00303.0%.0%100.0%.0%100.0%.0%.0%60.0%.0%18.8%.0%.0%18.8%.0%18.8%44531625.0%25.0%31.3%18.8%100.0%100.0%100.0%100.0%100.0%100.0%25.0%25.0%31.3%18.8%100.0%Count%within职称%within文化程度%ofTotalCount%within职称%within文化程度%ofTotalCount%within职称%within文化程度%ofTotalCount%within职称%within文化程度%ofTotalCount%within职称%within文化程度%ofTotal高级工程师工程师助理工程师无技术职称职称Total本科专科高中初中文化程度Total上表中的职称变量称为行变量（Row），文化程度称为列变量（Column）。行标题和列标题分别是两个变量的变量值（或分组值）。表格中间是观测频数（ObservedCounts）和各种百分比。16名职工中，本科、专科、高中、初中的人数分别为4，4，5，3，构成的分布称为交叉列联表的列边缘分布；高级工程师、工程师、助理工程师、无技术职称的人数分别为3，4，6，3，构成的分布称为交叉列联表的行边缘分布；4个本科学历职工中各职称的人数分别是1，1，2等，这些频数构成的分布称为条件分布，即在行变量（列变量）取值条件下的列变量（行变量）的分布。在交叉列联表中，除了频数外还引进了各种百分比。例如表中第一行中的33.3％，33.3％，33.3％分别是高级工程师3人中各学历人数所占的比例，称为行百分比（Rowpercentage），一行的百分比总和为100％；表中第一列的25.0％，25.0％，50.0％分别是本科学历4人中各职称人数所占的比例，称为列百分比（Columnpercentage），一列的列百分比总和为100％，表中的6.3％，6.3％，12.5％等分别是总人数16人中各交叉组中人数所占的百分比，称为总百分比（Totalpercentage），所有格子中的总百分比之和也为100％。交叉分组下的频数分析的基本操作（1）菜单选项Analyze－DescriptiveStatistics－Crosstabs，出现窗口如下：（2）如果进行二维列联表分析，则将行变量选择到Row(s)框中，将列变量选择到Column(s)框中。如果Row(s)和Column(s)框中有多个变量名，SPSS会将行列变量一一配对后产生多张二维列联表。如果进行三维或多维列联表分析，则将其他变量作为控制变量选到Layer框中。多控制变量间可以是同层次的，也可以是逐层叠加的，可通过Previous或Next按钮确定控制变量间的层次关系。（3）选择Displayclusteredbarcharts选项，指定绘制各变量交叉分组下频数分布条形图。Suppresstables表示不输出列联表，在仅分析行列变量间关系时可选择该选项。（4）单击Cells按钮指定列联表单元格中的输出内容，窗口如下：（5）单击Format按钮指定列联表各单元格的输出排列顺序。Ascending表示以行变量取值的升序排列，是SPSS默认项；Descending表示以行变量取值的降序排列。（6）单击Statistics按钮指定用哪种方法分析行变量和列变量间的关系，窗口如下，其中，Chi-Square为卡方检验。卡方统计检验零假设是：行和列变量之间彼此独立，不存在显著的相关关系。相伴概率小于显著性水平0.05，应拒绝零假设，认为行列变量之间彼此相关。SPSS中列联表分析的其他检验方法对列联表中行列变量的分析，除上述卡方检验方法之外，SPSS还提供了其他测度变量间相关关系的检验方法，包括：适用于两定类变量的方法：Nominal框中列出的方法属该类方法。适用于两定序变量的方法：Ordinal框中列出的方法属该类方法。适用于定类