第五章描述性统计分析5.1统计常用的名词术语5.2描述性统计分析练习5.1常用的名词术语总体:根据研究目的而确定的、符合指定条件的全体观察对象所构成的集合称为总体。1.总体与样本样本:在抽样调查中观察的所有个体的集合称为样本。样本容量:样本中的个体数称为样本容量,记为n。连续型随机变量在定义域范围内可以取任意实数值的变量是连续型随机变量离散型随机变量在定义域范围内只可以取一些不连续实数值的变量是离散型随机变量。2.变量反映总体某一性状的数量标法叫变量。其测定数值叫观察值。变量分两类型:数值型变量:用数值进行记录字符型变量:用字符进行记录数值型变量又分:3.参数与统计量参数:指由总体的全部观察值而算得的总体特征数。统计量:指由样本的全部观察值而算得的样本特征数。统计分析的核心在于由样本的情况推断集团的信息,保证一定精确度、可靠度。计算统计量描述抽样推断总体样本统计量4.常用的统计量(1).表现数据的集中趋势-----平均数(2).反映资料变异度(离散特性)的统计量---极差、方差、标准差、变异系数等(3).描述分布形状的量---峰度系数和偏度系数几何平均数(G):是n个数值乘积的n次方根。对计算平均增长率具有独特的应用价值。中位数(Md):如果一组数据按大小顺序排列,中间位置的数值即为中位数。众数(Mo):是样本里具有次数最多的那个数值。算术平均数:nxx(1).表现数据的集中趋势的量-----平均数应用最普遍的是算术平均数。(复习)(2)反映资料变异度(离散特性)的统计量---极差、方差、标准差、变异系数复习:1.标准差:11)(2nssnxxsS:刻画平均到每一独立数据的变异度,估计试验误差。%100XSCVCV:比较两个样本的变异度(由于单位不同或均数不同)2.变异系数:3.标准误:nssx反映同一个集团内抽样所得的样本平均数间的差异。xs实例(3)描述分布形状的量2.峰度系数(Kurtosis)分布在均值两侧极端数据有多少的度量。峰度0两侧极端数据较多,呈偏平式分布.峰度0两侧极端数据较少,呈尖峰式分布偏度系数≈0--分布对称右偏分布的偏度为正数;左偏分布的偏度为负数。(复习)1.偏度系数(Skewness)是以正态分布为标准来描述样本数据对称性的统计量。一、常用SAS过程1、MEANS过程格式:procmeans选项;var分析变量表;by分组变量;class分类变量表;freq频数变量;outputout=数据集;例:procmeansmeanstdmaxdec=2;varx1;2、UNIVARIATE过程格式:procunivariate选项;var分析变量表;3、两过程比较:UNIVARIATE过程除可计算基本统计量外,重点在于描述变量的分布。其中选项:freq产生频数和累积频数分布表。normal进行正态性检验plot生成统计图4、MEANS过程所计算的统计量(关键词)及其含义:关键词统计量关键词统计量MinMaxRangeSumMeanVarStdStderrCssuss最小值最大值极差和均值方差标准差标准误平方和平方总和NNmissCVKurtosisskewnesstPrtClmUclmLclm样本容量缺值个数变异系数峰度系数偏度系数在H0:μ=0时的t值t值概率μ的95%置信区间单侧可信区间上限单侧可信区间下限1、DATA=(SAS数据集):指出SAS数据集的名称,若省略,则使用最近产生的数据集。2、MAXDEC=(数字):指出所输出的结果中,小数部分的最大位数(0-8),缺省时为8位。3、FW=(域宽):指出打印的结果中每个统计量的域宽,缺省时为12。在PROCMEANS语句中几个主要选项如下:二、应用举例例5.3:某单位对100名健康的女大学生测定了血清总蛋白含量(g/L),试做单变量描述性统计分析。p52dataaa;inputx@@;cards;74.378.8……70.4;procmeans;procmeansnminmaxmeanstdstderrcvmaxdec=2;procunivariatefreqnormal;procchart;/*制作次数分布表、图*/hbarx;run;SAS程序例5.3MEANS过程分析变量:xN均值标准偏差最小值最大值10073.66000003.940081564.300000084.3000000procmeans;默认的5个统计量其SAS输出结果与说明procmeansnminmaxmeanstdstderrcvmaxdec=2;输出结果:MEANS过程分析变量:xN最小值最大值均值标准偏差标准误差偏差系数10064.3084.3073.663.940.395.35过程3输出:UNIVARIATE过程变量:x矩N100权重总和100均值73.66观测总和7366标准偏差3.94008153方差15.5242424偏度0.06007521峰度0.03386864未校平方和544116.46校正平方和1536.9变异系数5.34901103标准误差均值0.39400815基本统计测度位置变异性均值73.66000标准偏差3.94008中位数73.50000方差15.52424众数73.50000极差20.00000四分位极差4.60000位置检验:Mu0=0检验----统计量------------P值---------学生tt186.9504Pr|t|.0001符号M50Pr=|M|.0001符号秩S2525Pr=|S|.0001正态性检验检验----统计量-------------P值---------Shapiro-WilkW0.990367PrW0.6943Kolmogorov-SmirnovD0.065517PrD0.1500Cramer-vonMisesW-Sq0.061361PrW-Sq0.2500Anderson-DarlingA-Sq0.362469PrA-Sq0.2500W=0.990367,P=Pr(W)=0.69430.05,接受H0,说明该资料服从正态分布。分位数(定义5)分位数估计值100%最大值84.3099%82.9595%80.5090%79.1575%Q375.8050%中位数73.5025%Q171.2010%68.405%67.301%64.650%最小值64.30频数统计值计数百分比单元格累积64.311.01.065.022.03.067.211.04.067.344.08.068.022.010.068.833.013.069.733.016.0……84.311.0100.0例测得某地3岁儿童10人的体重与体表面积的数据如下表将数据资料建成一个Excel电子表格文件,然后导入成SAS数据文件。体重(x)11.011.812.012.313.1体表面积(y)5.2835.2995.3585.2925.602体重(x)13.714.414.915.216.0体表面积(y)6.0145.8306.1026.0756.411导入外部数据(略,自学)实例理解反映资料变异度的统计量组别年龄平均甲组24252625乙组1492525单位:岁标准差124葡萄品种果穗上有许多性状,其平均数、标准差及单位各不相同,判断以下性状变异大小。性状平均数标准差一穗上小穗数一穗上果粒数一穗果粒重18小穗42粒6.8g2穗8粒2.0g变异系数11.1%19.0%29.4%分析结果:以全穗重的变异最大,其次是果粒重,再则为果粒数。