03_描述统计分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

描述统计分析1.编程方法2.SAS/ANALYST3.SAS/INSIGHT4.SAS/ASSIST基本概念南京财经大学管于华比较案例数据描述统计描述统计学推断统计学统计学1.检验数据的真实性(对“脏”数据进行清洗)2.对大量数据进行压缩(次数分布表、描述统计量)3.表现数据(利用统计图、统计表)次数分布表典型的次数分布表:编制编制步骤编制变量次数分布表的过程可以分解为五步:①排序并求出全距(最大值—最小值);②确定组数和组距;③确定组限;④归组并计算出各组的次数;⑤显示或打印出次数分布表。描述统计量反映集中趋势的描述统计量:数值平均数:算术平均数、调和平均数、几何平均数位置平均数:众数、中位数、分位数反映离中趋势的描述统计量:全距、平均差、标准差(方差)、离散系数、标准误反映分布趋势的描述统计量:偏度、峰度数据标准化SAS中的统计量SAS中的统计量总体与样本标准差nxxnii12)(niiiniiffxxs1121)(1)(12nxxsniiniiiniiffxx121)(简单式加权式总体样本方差是变量值与其算术平均数的离差平方的算术平均数,标准差是方差的平方根,又称均方差,其计量单位与平均数的计量单位相同。离散系数对于平均数不等或计量单位不同的不同组别的变量值,是不能直接用离散程度的绝对指标比较其离散程度的。为了消除变量平均数不等和计量单位不同对离散程度测度值的影响,需要计算离散程度的相对指标,即离散系数,其一般公式是:对应的平均指标离散程度的绝对指标离散系数%100xV偏度偏度(Skewness)是对分布偏斜方向和程度的测度。变量分组后,总体中各个体在不同的分组变量值下分布并不均匀对称,而呈现出偏斜的分布状况,统计上将其称为偏态分布。313133niiiniiffxxv偏度系数的数值一般在0与±3之间,越接近0,分布的偏斜度越小;越接近±3,分布的偏斜度越大。峰度峰度(Kurtosis)是分布集中趋势高峰的形状。在变量数列的分布特征中,常常以正态分布为标准,观察变量数列分布曲线顶峰的尖平程度,统计上称之为峰度。33414144niiiniiffxxv正态分布的峰度系数为0,当>0时为尖峰分布,当<0时为平顶分布。数据标准化标准化数值是变量值与其平均数的离差除以标准差后的值,也称为z分数或标准分数。设标准化数值为z,则有:xxzi标准化后的数列均值为0,方差为1。统计图直观表现数据:条(柱)形图饼图折线图圆环图BarchartPiechartLineChart辅助统计分析:箱形图QQ图PP图Box-&-whiskerplotQuantile-quantileplotProbabilityPlot直观表现数据、辅助统计分析:直方图茎叶图散点图HistogramsStemandleafplotScatterplot直方图直方图与条形图有什么区别?茎叶图procunivariateplotdata=sasuser.data03_02;vara;run;箱形图QQ图PP图统计表简单表:指未经任何分组的统计表又称一览表简单分组表:指只用一个标志分组形成的统计表简称分组表复合分组表:指按两个或两个以上标志进行分组简称复合表一览表分组表复合表五个过程描述性统计指标的计算主要通过以下五个不同的过程来实现:Means过程Summary过程Tabulate过程Univariate过程Freq过程Means过程格式解释Summary过程解释Univariate过程Univariate过程和以上两个过程的格式非常相似,所不同的是某些统计量只能在Univariate过程中计算(如众数),Univariate过程有绘图功能。histogram语句即用来指示对所指定的变量绘制直方图,选项用来指示添加不同类型的拟合图形。解释Tabulate过程解释Freq过程解释案例数据data03_01:40对数据(name,age,gender-男女,height,weight)是按age排序的(又名:class.sas7bdat)data03_02:110名7岁男童的身高(cm)资料(仅一个变量a)(又名:boys.sas7bdat)data03_03:100名学生的考试成绩(x是组中值,f是次数,w是权数)(又名:students.sas7bdat)比较SAS/ANALYST①单击“Solutions”—Analysis—Analyst,或在命令行键入“Analyst”②单击“File”—OpenBySASName,调入数据集文件③单击“Statistics”—Descriptive分:汇总统计量分布频数统计例题:110名7岁男童的身高(cm)资料例题-汇总统计量例题:110名7岁男童的身高(cm)资料执行Means过程例题-分布例题:110名7岁男童的身高(cm)资料执行Univariate过程例题-频数统计例题:110名7岁男童的身高(cm)资料执行Freq过程SAS/INSIGHT①单击Solutions—Analysis—InteractiveDataAnalysis②单击Open按钮,调入数据集文件③单击“Analyze”—Distribution(Y)例题:110名7岁男童的身高(cm)资料例题例题:110名7岁男童的身高(cm)资料SAS/ASSIST①单击Solutions—ASSIST②选择DataAnalysis-ElementarySummaryStatistics,FrequencyTables③填写完后提交例题:110名7岁男童的身高(cm)资料例题例题:110名7岁男童的身高(cm)资料执行Freq过程执行Means过程

1 / 42
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功