第二章统计数据基本特征的把握引例:某公司2005—2006年生产原煤与掘进进尺月度数据如下,试分析其集中与离散程度。一、数据分组第一节数据的整理与显示某车间50名工人日加工零件数分组表按零件数分组频数(人)累积频数105-110110-115115-120120-125125-130130-135135-140358141064381630404650合计50—一、数据分组(一)有关概念:1、下限:一个组的最小值;2、上限:一个组的最大值;3、组距:上限与下限之差;4、组中值:下限与上限之间的中点值。第一节数据的整理与显示一、数据分组(二)几点说明1、要不重不漏(上组限不在组内);2、分等距分组与不等距分组;3、为防止数据相差悬殊后个别数据被漏或出现空白组,可以采用开口组。第一节数据的整理与显示连续数据离散化带来的信息丢失问题:关于数据分组的批评如果你想掩盖数据,那么就把它们离散化吧!问:请问姑娘芳龄几何?答:臣妾属于0~100岁这一组的。第一节数据的整理与显示二、绘制分布图直方图(Histogram);饼图(Pie);线图(Line);散点图(Scatter);茎叶图(Stem-Leaf);箱形图(Boxplot)第一节数据的整理与显示频数(人)1512963105110115120125130135140某车间工人日加工零件数的直方图我一眼就看出来了,大多数人的日加工零件数在120~125之间!第一节数据的整理与显示第一节数据的整理与显示阿拉伯语4.27%德语2.13%俄语4.59%法语2.15%马来-印2.94%孟加拉语3.59%葡萄牙语3.24%其他33.14%日语2.10%西班牙语7.09%印地语8.27%英语8.57%中国北方17.93%第一节数据的整理与显示第一节数据的整理与显示第一节数据的整理与显示按照某个一致的规则,把所有的数据分成“茎节”和“叶”两部分,“茎节”在左,“叶”在右,“茎节”和“叶”之间用小数点隔开,就形成了茎叶图。数据123→“茎节.叶”1.23(茎节宽度为100)数据123→“茎节.叶”12.3(茎节宽度为10)确定“茎节”宽度的原则:数据集合中的“茎节”必须有变化。第一节数据的整理与显示维多利亚州每千人机动车登记拥有量的茎叶图为(茎节宽度为100):茎叶6.37,69,61,82,95,907.1,9,18第一节数据的整理与显示第一节数据的整理与显示175163N=地区地区2地区1高三男生身高210200190180170160150140323259250248596158第一节数据的整理与显示第二节对数据集中趋势的把握集中趋势(CentralTendency):数据向其中心值靠拢的倾向和程度。主要指标:众数(Mode)、中位数(Median)、分位数、均值(Mean)第二节对数据集中趋势的把握一、众数(Mode)(一)概念:出现次数最多的数。(二)特点:1、不受极端值的影响;2、可能没有众数或有几个众数。澳大利亚每千人拥有的机动车数:数值型分组数据的众数:1、众数值与相邻组的频数分布有关:相邻组的频数相等时,众数组的组中值即为众数;相邻组的频数不等时,众数用下式近似计算(假定众数组频数为均匀分布):iffffffLM)()(1110MoMoMo第二节对数据集中趋势的把握第二节对数据集中趋势的把握例:根据表中数据,计算50名工人日加工零件数的众数。某车间50名工人日加工零件数分组表按零件数分组频数(人)累积频数105-110110-115115-120120-125125-130130-135135-140358141064381630404650合计50—iffffffLM)()(1110第二节对数据集中趋势的把握例:根据表中数据,计算50名工人日加工零件数的众数。某车间50名工人日加工零件数分组表按零件数分组频数(人)累积频数105-110110-115115-120120-125125-130130-135135-140358141064381630404650合计50—(个)1235)1014()814(8141200M第二节对数据集中趋势的把握二、中位数(Median)(一)概念:数据排序后处于中间位置上的数。(二)特点:1、不受极端值的影响;2、各变量值与中位数的离差绝对值之和最小,即∑|xi-Me|=min,i=1~n。中位数位置的确定:未分组数据:组距分组数据:21N中位数位置第二节对数据集中趋势的把握例:原始数据:2422212620排序:2021222426位置:1234522321521,中位数位置N第二节对数据集中趋势的把握例:原始数据:10591268排序:56891012位置:1234565.82985.321621,中位数位置N第二节对数据集中趋势的把握例、根据表中的数据,计算甲城市家庭对住房满意状况评价的中位数。“一般”中位数1502300位置甲城市家庭对住房评价的频数分布回答类别甲城市户数(户)累计频数非常不满意不满意一般满意非常满意2410893453024132225270300合计300—第二节对数据集中趋势的把握数值型分组数据的中位数:1、根据位置公式确定中位数组;2、采用下列近似公式计算:其中,L为中位数组下限,Sm-1为中位数组以前各组的累积频数;fm为中位数组频数;i为中位数组组距。ifSNLMmme12第二节对数据集中趋势的把握第二节对数据集中趋势的把握例:根据表中数据,计算50名工人日加工零件数的中位数。某车间50名工人日加工零件数分组表按零件数分组频数(人)累积频数105-110110-115115-120120-125125-130130-135135-140358141064381630404650合计50—ifSNLMmme12第二节对数据集中趋势的把握例:根据表中数据,计算50名工人日加工零件数的中位数。某车间50名工人日加工零件数分组表按零件数分组频数(人)累积频数105-110110-115115-120120-125125-130130-135135-140358141064381630404650合计50—)(21.12351416250120个eM三、分位数(一)概念:包括四分位数(quartile)和百分位数(percentile)等。四分位数:排序后处于25%和75%位置上的值。(二)特点:不受极端值影响。第二节对数据集中趋势的把握未分组数据四分位数位置的确定:下四分位数(QL)位置:N+14上四分位数(QU)位置:3(N+1)4第二节对数据集中趋势的把握例:原始数据:23213032282526排序:21232526283032位置:123456730Q23Q641N3Q241741NQULUL;)(;位置位置第二节对数据集中趋势的把握例:原始数据:232130282526排序:212325262830位置:123456。)(;)()(;位置位置5.282830*0.2528Q22.52123*0.7521Q25.541N3Q1.7541641NQULUL第二节对数据集中趋势的把握数值型分组数据四分位数:其中,L为组下限,S为组前累积频数,f为组内频数,i为组距。LLLLLifSNLQ44N;下四分位数:位置UUUUUifSNLQ4343N;上四分位数:位置第二节对数据集中趋势的把握第二节对数据集中趋势的把握例:根据表中的数据,计算50名工人日加工零件数的四分位数。第二节对数据集中趋势的把握例:根据表中的数据,计算50名工人日加工零件数的四分位数。LLLLLifSNLQ44N;下四分位数:位置UUUUUifSNLQ4343N;上四分位数:位置第二节对数据集中趋势的把握例:根据表中的数据,计算50名工人日加工零件数的四分位数。5.12450L位置5.37450*3U位置)(81.117588450115个LQ)(75.128510304503125个UQ三、均值(Mean)特点:1、均值是一组数据的均衡点所在,易受极端值的影响;2、3、;,)(n~1i0XXi。)(minXX2i第二节对数据集中趋势的把握三、均值(Mean)(一)算数平均数第二节对数据集中趋势的把握iiiiiiFFXFFXX三、均值(Mean)(二)调和平均数(倒数平均数)第二节对数据集中趋势的把握iiiiiFFXFXX三、均值(Mean)(三)几何平均数主要用于计算平均发展速度或比率的平均。第二节对数据集中趋势的把握。,)(n~1iXXn1i众数、中位数与均值的关系:第二节对数据集中趋势的把握对称分布均值=中位数=众数左偏分布均值中位数众数右偏分布众数中位数均值离散趋势(DispersionTendency):各变量值远离其中心的程度。主要指标:全距(Range)、平均差(AverageDeviation)、方差(Variance)/标准差(StandardDeviation)、异众比率(VariationRatio)、标志变异系数(VarianceCoefficient)等。第三节对数据离散趋势的把握一、全距(Range)概念:数据中最大值与最小值之差,又叫极差。即:R=最大值-最小值。第三节对数据离散趋势的把握二、平均差(AverageDeviation)概念:各变量与均值离差绝对值的算术平均数,又叫平均离差。第三节对数据离散趋势的把握iiiFFXX.D.A三、方差和标准差(一)方差(Variance):各变量值对均值的方差小于对任意值的方差。(二)标准差(StandardDeviation):ii2i2FFXX)(第三节对数据离散趋势的把握ii2iFFXX)(关于方差的讨论:方差与数据的信息,方差风险,格兰杰原因思考:怎样测度经济结构的优化程度或者能源结构的优化程度?统计熵。四、异众比率(VariationRatio)非众数组频数占总频数的比例,主要衡量众数对一组数据的代表程度。异众比率越大,众数的代表性越差。第三节对数据离散趋势的把握总频数众数组频数总频数异众比率五、离散系数(CoefficientofVariation)概念:又叫标志变异系数、标准差系数。作用:用于比较不同总体的离散程度。离散系数大的,说明数据的离散程度大;离散系数小的,说明数据的离散程度小。第三节对数据离散趋势的把握xv一、偏态系数(Skewness)Skewness=0为对称分布;Skewness0为右偏分布;Skewness0为左偏分布。第四节对数据偏态与峰态的把握左偏分布右偏分布二、峰态系数(Kurtosis)Kurtosis=0与标准正态分布一样;Kurtosis0比标准正态分布平缓;Kurtosis0比标准正态分布陡峭。第四节对数据偏态与峰态的把握扁平分布尖峰分布与标准正态分布比较例:某公司2005—2006年生产原煤与掘进进尺月度数据如下,试考察其集中与离散趋势。首先对数据进行排序:分别计算2005年和2006年原煤产量和掘进进尺的集中与离散趋势指标,并整理成表。data=read.csv(某矿井2006年混煤煤质每日数据.csv,head=TRUE)data=data[,-1]#将第一列(日期序号)删除attributes(data)attach(data)一、集中与离散趋势指标的计算SPSS:Analyze(分析)→DescriptiveStatistice(描述统计)之Frequencies(频数)、Descriptives(描述)以及Explore(探索)模块。二、绘制统计图SPSS:Graphs(图形)→ChartBuilder(图表构建程序)、Legacy