CollegeofManagementDescriptiveStatisticsⅡ:NumericalMethods描述统计Ⅱ:数值方法Chapter3CollegeofManagement主要内容MeasuresofLocation位置的度量(数据集中趋势的度量)MeasuresofVariability变异程度的度量(数据离散趋势的度量)•MeasuresofRelativeLocationandDetectingOutliers相对位置的度量和异常值的检测CollegeofManagement•ExploratoryDataAnalysis探索性数据分析•MeasuresofCorrelationBetweenTwoVariables两变量间关系的度量•TheWeightedMean&GroupedData加权平均数与分组数据主要内容CollegeofManagementMeasuresofLocation位置的度量(数据集中趋势的度量)Mean平均数Median中位数Mode众数Percentiles百分位数Quartiles四分位数CollegeofManagementMean平均数平均数衡量数据集的中心程度如果数据来自于一个样本,平均数定义为如果数据来自于一个总体,平均数定义为xxnixxnixNixNi称为样本平均数称为总体平均数平均数易受极端值的影响CollegeofManagementMedian中位数将所有数据按上升排序,位于中央的数据为中位数如果数据个数为奇数,中位数为位于中央的数据如果个数为偶数,中位数为中央两位数的平均CollegeofManagement众数是在数据集中发生频率最高的数据值Mode众数CollegeofManagementPercentiles百分位数第P百分位数是指,至少有P%的数据项小于或等于这个值。递增排序计算指数i=(p/100)n若i不是整数,将其向上取整若i是整数,则p分位数为第i项与第i+1项的数据的平均值CollegeofManagement四分位数是特定的百分位数第一个四分位数为25%百分位数(下四分位数)第二个四分位数为50%百分位数(中位数)第三个四分位数为75%百分位数(上四分位数)Quartiles四分位数CollegeofManagementMeasuresofVariability变异程度的度量(数据离散趋势的度量)Range全距Inter-quartileRange四分位点内距Variance方差StandardDeviation标准差CoefficientofVariation变异系数CollegeofManagementRange全距(极差)全距是数据中最大与最小间的差距是衡量数据变异程度最简单的描述全距易受极端值的影响CollegeofManagementInterquartileRange四分位点内距(IQR)四分位点内距是第三与第一四分位数间的差距是中间50%的数据的全距它能够克服极端值的影响CollegeofManagementVariance方差方差是各数据值与平均值之间的差异如果数据集为样本,样本方差为如果数据集为总体,总体方差为sxixn221()sxixn221()22()xNi22()xNiCollegeofManagementStandardDeviation标准差如果数据集是样本,样本标准差为如果数据集为总体,总体标准差为ss2ss222CollegeofManagementCoefficientofVariation变异系数变异系数是标准差相对于平均数的大小的度量如果数据集为样本,公式为V=如果数据集为总体,公式为V=sx()100sx()100()100()100CollegeofManagement已知甲乙两组工人的平均工资和标准差如下:甲组:=100元=10元乙组:=80元=9.6元如果直接比较两组工人工资的标准差,就会得出甲组工人工资水平差异大于乙组的错误的结论。正确的比较是先计算两组工人工资的变异系数0.120.10,说明乙组工人工资水平间差异较大。CollegeofManagementMeasuresofRelativeLocationandDetectingOutliers相对位置的度量和异常值的检测z–Scoresz分数Chebyshev’sTheorem切贝晓夫定理TheEmpiricalRule经验法则DetectingOutliers异常值的检测CollegeofManagementz–Scoresz分数z分数通常称为标准化数值被解释为数据值xi偏离平均数标准差的个数z分数大于0的数据是那些比平均数大的数据值z分数小于0的数据是那些比平均数小的数据值z分数等于0的数据是那些与平均数相等的数据值zxxsiizxxsiiCollegeofManagementChebyshev’STheorem切贝谢夫定理至少(1-1/z2)个数据与平均数的距离在z个标准差范围内,其中:z是大于1的任何数值例如至少75%的数据与平均数的距离在z=2个标准差范围内至少89%的数据与平均数的距离在z=3个标准差范围内至少89%的数据与平均数的距离在z=4个标准差范围内CollegeofManagementEmpiricalRule经验法则具有钟形分布的数据:大约68%的数据落在平均数的1个标准差范围内大约95%的数据落在平均数的2个标准差范围内几乎所有的数据落在平均数的3个标准差范围内CollegeofManagementDetectingOutliers异常值的检验异常值:一个数据集中的一个或多个非常大或非常小的数据值z分数小于-3或大于+3的数据值可能是异常值异常值的出现可能是由于记录的错误异常值的出现可能是由于该数据不属于这个数据集异常值的出现也可能是记录正确的非正常数据值CollegeofManagementExploratoryDataAnalysis探索性数据分析Five-NumberSummary五数概括BoxPlot箱图CollegeofManagementFive-NumberSummary五数概括SmallestValue最小值FirstQuartile第一四分位数Median中位数ThirdQuartile第三四分位数LargestValue最大值CollegeofManagement下限:Q1-1.5(IQR)上限:Q3+1.5(IQR)上、下限以外的数值为异常值375400425450475500525550575600625BoxPlot箱图CollegeofManagementMeasuresofCorrelationBetweenTwoVariables两变量间关系的度量Covariance协方差CorrelationCoefficient相关系数CollegeofManagementCovariance协方差样本协方差记为sxy.总体协方差记为sxxyynxyii()()1xyixiyxyN()()xyCollegeofManagementCorrelationCoefficient相关系数如果数据集是样本,相关系数记为rxy.如果数据集为总体,相关系数记为相关系数在-1and+1.值接近-1表示完全负线性相关值接近+1表示完全正线性相关.rsssxyxyxyxyxyxyxyCollegeofManagementTheWeightedMean加权平均数GroupedData分组数据TheWeightedMean&GroupedData加权平均数与分组数据CollegeofManagementTheWeightedMean加权平均数样本加权平均数总体加权平均数CollegeofManagementMeanforGroupedData分组数据平均数样本数据总体数据xfMniifMNiiGroupedData分组数据CollegeofManagementVarianceforGroupedData分组数据方差样本数据总体数据sfMxnii221()22fMNii()CollegeofManagementChapterSummary本章小结数值方法是对数据进行统计描述的方法,可对数据的集中程度、分散程度进行分析.CollegeofManagementTheEndofChapter3