武汉大学计算机学院第二章SAS的描述统计功能2.1描述性统计的基本概念2.2在SAS中计算统计量2.3统计图形武汉大学计算机学院2.1.1统计学的基本概念1.总体与样本总体(population):总体是指所研究对象的全体组成的集合。抽样(sampling)是指从总体中抽取部分的做法。样本(sample):样本是指从总体中抽取的部分对象(个体)组成的集合。样本中包含个体的个数称为样本容量。武汉大学计算机学院2.参数与统计量对总体概括度量值和对样本概括度量值所用的方法及名称是不同的。总体的度量值称为参数(parameters),样本的度量值称为统计量(statistics)。通常,总体参数是未知的,SAS系统给出的描述统计量适用于样本。武汉大学计算机学院2.参数与统计量参数(parameter):参数是用来描述总体特征的概括性值。如总体平均值(μ)、总体方差(2)、总体比例(π)等。统计量(statistics):统计量是用来描述样本特征的概括性值。如样本均值()、样本方差(s2)、样本比例(P)等。x武汉大学计算机学院如果要用简单的数字来概括一组观测数据x1,...,xn,可以使用“位置统计量”来作为数据的总体代表,常见的位置统计量有:均值、中位数、分位数、众数等。1.均值(Mean)均值是所有观测值的平均值,是描述数据取值中心位置的一个度量:缺点:容易收到极值的影响nxxxnxnnii1112.1.2表示数据位置的统计量武汉大学计算机学院2.中位数(Median或Med)中位数是描述观测值数据中心位置的统计量,大体上比中位数大(小)的数据为观测值的一半。中位数的一个优点是它不受个别极端数据的影响,具有稳健性。中位数的计算方法是:首先将数据从小到大排序为:x(1),...,x(n),然后计算为偶数为奇数中位数nxxnxnnn)(21)12()2()21(武汉大学计算机学院3.众数(Mode)观测值中出现最多的数称为众数。4.百分位数(Percentile)分位数也是描述数据分布和位置的统计量。0.5分位数就是中位数,0.75分位数和0.25分位数又分别称为上、下四分位数,并分别记为Q3和Q1。武汉大学计算机学院均值(mean),中位数(median),众数(mode),百分位数是对统计数据集中趋势的度量。问题:5955525150504948454110090807050503020100武汉大学计算机学院2.1.3表示数据分散程度的统计量1.极差(Range)与半极差(Interquartilerange)极差就是数据中的最大值和最小值之间的差:极差=max{xi}–min{xi}上、下四分位数之差Q3–Q1称为四分位极差或半极差,它描述了中间半数观测值的散布情况。2.方差(Variance或Var)方差是由各观测值到均值距离的平方和除以观测量减1:1)(...)()(11221122nxxxxxxnsnnii武汉大学计算机学院SAS计算样本方差的步骤计算样本均值计算每个观测值同均值的差值把这些差值分别平方再求这些平方的和把平方和除以n-1,n为差值的个数(样本容量)假设样本值分别为10,11,12,15,方差按下式计算:s2=(10-12)2+(12-12)2+(11-12)2+(15-12)2)/(4-1)=4.67武汉大学计算机学院3.标准差(Standarddeviation或StdDev)方差的开方称为标准差:方差和标准差所反映的是数据对其均值的某种离散程度。标准差(或方差)较小的观测数据一定是比较集中在均值附近,反之则是比较离散的。2ss武汉大学计算机学院思考:一个总体的标准差是10,均值是100。另有一个总体的标准差是20,均值是2000。如果直接用标准差来进行比较,后一总体的标准差是前一总体标准差的2倍,那么结论是:前一总体的分布集中而后一总体的分布分散。上述结论合理吗?武汉大学计算机学院4.变异系数(CoefficientofVariation或CV)变异系数是将标准差表示为均值的百分数,是观测数据分散性的一个度量,它在比较用不同单位测量的数据的分散性时是有用的:正常年轻男子的身高变异大还是体重变异大?均数标准差CV身高170(cm)6(cm)3.35体重60(kg)7(kg)11.67(%)100xsCV武汉大学计算机学院2.1.4表示数据分布形状的统计量偏度和峰度是描述数据分布形状的指标。1.偏度(skewness)偏度是刻画数据对称性的指标。偏度的计算公式为:在SAS中:●关于均值对称的数据其偏度为0;●左侧更为分散的数据,其偏度为负,称为左偏;●右侧更为分散的数据,其偏度为正,称为右偏。niisxxnnnSK13)()2)(1(武汉大学计算机学院2.峰度(kurtosis)峰度描述数据向分布尾端散布的趋势。峰度的计算公式为:利用峰度研究数据分布的形状是以正态分布为标准(假定正态分布的方差与所研究分布的方差相等)比较两端极端数据的分布情况,若●近似于标准正态分布,则峰度接近于零;●尾部较正态分布更分散,则峰度为正,称为轻尾;●尾部较正态分布更集中,则峰度为负,称为厚尾。)3)(2()1(3)()3)(2)(1()1(214nnnsxxnnnnnKnii武汉大学计算机学院2.1.5其它统计量1.均值的标准误(StdErrorMean或StdMean或Stderror)2.校正平方和(Correctedsumofsquares)niixxnnns12)()1(1MeanStdniixxCSS12)(武汉大学计算机学院3.未校正平方和(Uncorrectedsumofsquares)4.k阶原点矩其中A1即为均值。5.k阶中心矩niixUSS12,...2,1,11kxnAnikikx,...3,2,)(11kxxnBnikik武汉大学计算机学院2.2在SAS中计算统计量2.2.1用INSIGHT计算统计量2.2.2用“分析家”计算统计量2.2.3编程实现描述性统计武汉大学计算机学院2.2.1用INSIGHT计算统计量1.实例数据【例2-1】表2-1为两个不同地区居民家庭收入和支出情况的抽样调查(单位:元),试分别统计收入和支出情况。将表2-1中数据通过Excel导入到SAS数据集Mylib.sryzc中,4个变量名分别为:ID、R_ID、Income和Outgo,相应的标签名为家庭编号、地区编号、家庭总收入和家庭总支出。武汉大学计算机学院家庭编号地区编号家庭总收入家庭总支出家庭编号地区编号家庭总收入家庭总支出1217941550162220020602217161365171273022363134102730181249614554217651530191176010405221841900201282023666220502050212225019667224602184221317024008119761170232120012509128502496242177613501014275276025219801794112201012752612455255012122361810272108013801313305282028219861200141240019762913369230515222501970302153013162.2.1用INSIGHT计算统计量武汉大学计算机学院2.在INSIGHT中打开数据集在菜单中选择“Solution(解决方案)”→“Analysis(分析)”→“InteractiveDataAnalysis(交互式数据分析)”,打开“SAS/INSIGHTOpen”对话框,在对话框中选择数据集:Mylib.sryzc,单击“Open(打开)”按钮,即可在INSIGHT中打开数据窗口,如图所示。2.2.1用INSIGHT计算统计量武汉大学计算机学院3.计算统计量•选择菜单“Analyze(分析)”→“Distribution(Y)(分布)”,打开“Distribution(Y)”对话框。在数据集sryzc的变量列表中,选择Income为分析变量,选择R_Id,为分组变量。••单击“Output(输出)”按钮,在打开的对话框中包含描述性统计量选项。2.2.1用INSIGHT计算统计量武汉大学计算机学院选择选项矩统计量和分位数,取消默认的选项:“BoxPlot/MosaicPlot”和“Histogram/BarChart”,单击“OK”按钮,即可得到变量Income按“R_Id”分组的各种矩统计量(Moments)和分位数(Quantiles),如图所示。2.2.1用INSIGHT计算统计量武汉大学计算机学院2.2.2用“分析家”计算统计量1.启动“分析家”选择主菜单“Solutions(解决方案)”→“Analysis(分析)”→“Analyst(分析家)”,打开“分析家”窗口。选择主菜单“File(文件)”→“OpenBySASName”,打开“SelectAMember”对话框,选择数据集Mylib.sryzc。武汉大学计算机学院2.通过SummaryStatistics菜单计算描述性统计量选择主菜单“Statistics(统计)”→“Descriptive(描述性统计)”→“SummaryStatistics(汇总统计量)”,打开“SummaryStatistics”对话框,选择变量列表中的Income,单击“Analysis”按钮,选定分析变量,如图所示。2.2.2用“分析家”计算统计量武汉大学计算机学院单击“Statistics”按钮,打开“SummaryStatistics:Statistics”对话框。对话框中列出可以计算的所有统计量(如右图所示)。描述性统计量如下图所示2.2.2用“分析家”计算统计量武汉大学计算机学院3.通过Distributions菜单计算描述性统计量选择主菜单“Statistics(统计)”→“Descriptive(描述性统计)”→“Distributions(分布)”,打开“Distributions”对话框,选择变量列表中的Income,单击“Analysis”按钮,选定分析变量。单击“OK”按钮,即可得到关于变量Income的矩统计量和基本统计测度2.2.2用“分析家”计算统计量武汉大学计算机学院2.2.3编程实现描述性统计SAS提供有多个不同的过程来实现统计量的计算,它们在功能范围上有许多的重复,下面介绍用FREQ、MEANS和UNIVARIATE这三个过程来计算简单的描述统计量。FREQ过程常用来计算分类变量取值的频数,而MEANS和UNIVARIATE过程则对数值型变量计算均值、标准差等统计量。武汉大学计算机学院1.FREQ过程FREQ过程包括多个控制频数输出与检验的语句和选项,格式如下:PROCFREQDATA=数据集;[TABLES变量1变量2…;][FORMAT变量1输出格式1.变量2输出格式2.…;]RUN;•其中PROCFREQ语句调用FREQ过程,标志FREQ过程的开始;•TABLES语句用于创建有关变量所构成的各种表格并进行相应的假设检验和计算,可以多次使用。2.2.3编程实现描述性统计武汉大学计算机学院例如,统计数据集Mylib.sryzc中变量R_Id和Income频数的代码如下:procfreqdata=mylib.sryzc;tablesR_IdIncome;RUN;显示结果如图所示。2.2.3编程实现描述性统计procformat;valueFR_ID1='numberone'2='numbertwo';valueFincome900-1500='900-1500'1500-2100='1500-2100'2100-2700='2100-