3描述统计2:数值方法

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

CollegeofManagementDescriptiveStatisticsⅡ:NumericalMethods描述统计Ⅱ:数值方法Chapter3CollegeofManagement主要内容MeasuresofLocation位置的度量(数据集中趋势的度量)MeasuresofVariability变异程度的度量(数据离散趋势的度量)•MeasuresofRelativeLocationandDetectingOutliers相对位置的度量和异常值的检测CollegeofManagement•ExploratoryDataAnalysis探索性数据分析•MeasuresofCorrelationBetweenTwoVariables两变量间关系的度量•TheWeightedMean&GroupedData加权平均数与分组数据主要内容CollegeofManagementMeasuresofLocation位置的度量(数据集中趋势的度量)Mean平均数Median中位数Mode众数Percentiles百分位数Quartiles四分位数CollegeofManagementMean平均数平均数衡量数据集的中心程度如果数据来自于一个样本,平均数定义为如果数据来自于一个总体,平均数定义为xxnixxnixNixNi称为样本平均数称为总体平均数平均数易受极端值的影响CollegeofManagementMedian中位数将所有数据按上升排序,位于中央的数据为中位数如果数据个数为奇数,中位数为位于中央的数据如果个数为偶数,中位数为中央两位数的平均CollegeofManagement众数是在数据集中发生频率最高的数据值Mode众数CollegeofManagementPercentiles百分位数第P百分位数是指,至少有P%的数据项小于或等于这个值。递增排序计算指数i=(p/100)n若i不是整数,将其向上取整若i是整数,则p分位数为第i项与第i+1项的数据的平均值CollegeofManagement四分位数是特定的百分位数第一个四分位数为25%百分位数(下四分位数)第二个四分位数为50%百分位数(中位数)第三个四分位数为75%百分位数(上四分位数)Quartiles四分位数CollegeofManagementMeasuresofVariability变异程度的度量(数据离散趋势的度量)Range全距Inter-quartileRange四分位点内距Variance方差StandardDeviation标准差CoefficientofVariation变异系数CollegeofManagementRange全距(极差)全距是数据中最大与最小间的差距是衡量数据变异程度最简单的描述全距易受极端值的影响CollegeofManagementInterquartileRange四分位点内距(IQR)四分位点内距是第三与第一四分位数间的差距是中间50%的数据的全距它能够克服极端值的影响CollegeofManagementVariance方差方差是各数据值与平均值之间的差异如果数据集为样本,样本方差为如果数据集为总体,总体方差为sxixn221()sxixn221()22()xNi22()xNiCollegeofManagementStandardDeviation标准差如果数据集是样本,样本标准差为如果数据集为总体,总体标准差为ss2ss222CollegeofManagementCoefficientofVariation变异系数变异系数是标准差相对于平均数的大小的度量如果数据集为样本,公式为V=如果数据集为总体,公式为V=sx()100sx()100()100()100CollegeofManagement已知甲乙两组工人的平均工资和标准差如下:甲组:=100元=10元乙组:=80元=9.6元如果直接比较两组工人工资的标准差,就会得出甲组工人工资水平差异大于乙组的错误的结论。正确的比较是先计算两组工人工资的变异系数0.120.10,说明乙组工人工资水平间差异较大。CollegeofManagementMeasuresofRelativeLocationandDetectingOutliers相对位置的度量和异常值的检测z–Scoresz分数Chebyshev’sTheorem切贝晓夫定理TheEmpiricalRule经验法则DetectingOutliers异常值的检测CollegeofManagementz–Scoresz分数z分数通常称为标准化数值被解释为数据值xi偏离平均数标准差的个数z分数大于0的数据是那些比平均数大的数据值z分数小于0的数据是那些比平均数小的数据值z分数等于0的数据是那些与平均数相等的数据值zxxsiizxxsiiCollegeofManagementChebyshev’STheorem切贝谢夫定理至少(1-1/z2)个数据与平均数的距离在z个标准差范围内,其中:z是大于1的任何数值例如至少75%的数据与平均数的距离在z=2个标准差范围内至少89%的数据与平均数的距离在z=3个标准差范围内至少89%的数据与平均数的距离在z=4个标准差范围内CollegeofManagementEmpiricalRule经验法则具有钟形分布的数据:大约68%的数据落在平均数的1个标准差范围内大约95%的数据落在平均数的2个标准差范围内几乎所有的数据落在平均数的3个标准差范围内CollegeofManagementDetectingOutliers异常值的检验异常值:一个数据集中的一个或多个非常大或非常小的数据值z分数小于-3或大于+3的数据值可能是异常值异常值的出现可能是由于记录的错误异常值的出现可能是由于该数据不属于这个数据集异常值的出现也可能是记录正确的非正常数据值CollegeofManagementExploratoryDataAnalysis探索性数据分析Five-NumberSummary五数概括BoxPlot箱图CollegeofManagementFive-NumberSummary五数概括SmallestValue最小值FirstQuartile第一四分位数Median中位数ThirdQuartile第三四分位数LargestValue最大值CollegeofManagement下限:Q1-1.5(IQR)上限:Q3+1.5(IQR)上、下限以外的数值为异常值375400425450475500525550575600625BoxPlot箱图CollegeofManagementMeasuresofCorrelationBetweenTwoVariables两变量间关系的度量Covariance协方差CorrelationCoefficient相关系数CollegeofManagementCovariance协方差样本协方差记为sxy.总体协方差记为sxxyynxyii()()1xyixiyxyN()()xyCollegeofManagementCorrelationCoefficient相关系数如果数据集是样本,相关系数记为rxy.如果数据集为总体,相关系数记为相关系数在-1and+1.值接近-1表示完全负线性相关值接近+1表示完全正线性相关.rsssxyxyxyxyxyxyxyCollegeofManagementTheWeightedMean加权平均数GroupedData分组数据TheWeightedMean&GroupedData加权平均数与分组数据CollegeofManagementTheWeightedMean加权平均数样本加权平均数总体加权平均数CollegeofManagementMeanforGroupedData分组数据平均数样本数据总体数据xfMniifMNiiGroupedData分组数据CollegeofManagementVarianceforGroupedData分组数据方差样本数据总体数据sfMxnii221()22fMNii()CollegeofManagementChapterSummary本章小结数值方法是对数据进行统计描述的方法,可对数据的集中程度、分散程度进行分析.CollegeofManagementTheEndofChapter3

1 / 33
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功