2019/8/20BasicStatistic基本统计学2019/8/20数据的分类2019/8/20什么是数据数据是来自观察的,由一个过程所搜集得来的数据可让我们描绘过程,了解过程,改善过程甚至控制过程.Data数据驱动决策和行动2019/8/20数据在过程改善中的重要性InGodwetrust我们只相信上帝所有其他人请拿出数据来2019/8/20两种主要数据类型(类项数据)(测量数据)(名目型)(连续型)(顺序型)(计数型)离散数据变量数据2019/8/20练习一请标出下列数据的类型,A代表计数型数据,V代表计量型数据1)顾客平均消费,电话待机时间2)产品是否合格3)职员-Tom,Nancy,Howard.4)支出与预算相符5)输入支出费用的时间2019/8/20答案1)顾客平均消费,电话待机时间v2)产品是否合格A3)职员-Tom,Nancy,Howard.A4)支出与预算相符A5)输入支出费用的时间v数据类型(VorA)2019/8/20小组讨论(练习二)计量型数据计量型数据的益处?计量型数据的缺点?计数型数据计数型数据的益处?计数型数据的缺点?2019/8/20小组讨论–答案计量型数据益处:1.能够为使用相对小范围抽样的过程提供详细的信息2.适用于低缺陷率3.能够预估发展趋势和情况缺点:1.通常较难得到数据2.分析更为复杂2019/8/20小组讨论–答案计量型数据益处:1.容易得到数据,并且计算方法简单2.数据容易理解3.数据随时可得缺点:1.无法显示缺陷怎样发生及过程如何变化2.不适合低缺陷率(需要大量的抽样)3.不能预测发展趋势和情况2019/8/20数据类型比较计量型数据计数型数据连续数据计数数据通常为正态分布通常为二项式分布或泊松分布实际数值合格/不合格实际定义严谨数据定义较差需少量抽样需大量抽样2019/8/20知识水平1.没有数据,也没有经验–只有观点2.没有数据–只有经验3.收集了数据-但只是看数字有多少4.分组的数据-图表5.描述性统计数据–中数、标准差等等6.推理性统计–预测过程绩效:能力分析,回归和实验计划法2019/8/20转化计数型数据如可以,将计数型数据转换为计量型数据能增加它的功能。计数型数据计量型数据转换为2019/8/20VariableData计量型数据2019/8/20计量型数据–学习目的完成此阶段学习后,学员能够Ⅰ利用数据的分布形状,中央趋势和变异大小进行特性化Ⅱ如果数据是正态分布的,计算z数值,利用Z数值表确定超出某一数值的比例2019/8/20离散数据与连续数据连续数据的优点:离散=稀少的信息连续=丰富的信息2019/8/20统计学基本术语Population总体想要测量对象的全部Parameter参数用总体的所有数据计算出的数值(如均值,标准差),称为总体的参数x参数•总体平均值•总体标准差总体σ2019/8/20统计学基本术语Sample样本从总体抽出的部分数据Statistics统计量用样本的所有数据计算出的数值(如均值,标准差),称为样本的统计量x统计量•样本平均值•样本标准差s总体样本2019/8/20统计学基本术语Population总体已制造或将要制造对象的全体集合,用所关注的特性描述我们究竟能否知道真正的整体参数?Sample样本统计研究中实际测量的目标组样本通常是整体的子集Σ=整体标准差S=样本标准差Population整体sample样本2019/8/20描述计量型数据集“报告上司:河水深度1.6M,士兵平均高度1.7M,过河没有问题”,但是..至于我们不能只看平均值,还需要利用其他统计量来分析……2019/8/20描述计量型数据集一组计量型数据能显示以下3个特性:CentralTendency(Mean,Median,Mode)中央趋势(均值,中值,众数)Variable(range,StandardDeviation,Variance)变异(全距,标准差,方差)Shape形状2019/8/20参数和统计量符号Mean均值Variance方差StandardDeviation标准差Proportion比例总体(参数)μσσπ样本(统计量)хs2sp2019/8/20位置测量(CentralTendency)中心趋势Mean均值Median中值Mode众数Quartiles四分值2019/8/20样本均值若样本(样本量为n)的观测值为x1,x2,…xn,则样本均值为:类似地,一个有着大量但限个(N个)观测值的总体,其总体均值为:Mean均值xNxNii1nxnxxxxniin121...2019/8/20Mean均值练习三10个连接线的拉拔强度为:260230240236248248252278265262拉拔强度的均值是多少?10个观测值的均值为:10262...2402302601nxxnii2019/8/20Mean均值练习四199X年一个行动中,战机进行了3000次战斗,总共用时6900小时。那末每次战斗平均用时多少?每次战斗平均用时为:hoursNxNii3.2300069001注意所使用的符号2019/8/20均值的特性均值的计算使用了每个观测值;每个观测值对均值都有影响。所有观测值对均值的偏差的总和为零。均值对极端的观测值很敏感,极端值会导致均值向他偏移。Xxxxxxx6351274△6△2△4x2019/8/20Median中值将一组观测值按大小顺序排列,位于中心的数值即为中值若观测值的个数为偶数,则中值为中间2个数值的平均若观测值的个数为奇数,则位于中心的数值即中值2019/8/20Median中值样本中值假如x(1),x(2),…,x(n))是按大小排序的样本值,则样本中值为:中值的优点是不受极端大或极端小的观测值的影响。2)1]2/([)2/()2/]1([nnnxxxMe为奇数noddisnif为偶数nevenisnif2019/8/20Median中值练习五(a)假设一个样本观测值为:3124786样本均值和样本中值是多少?这2个值是测量数据中心趋势的合理指标吗?2019/8/20Median中值(b)假如最后一个数值改变为:3124782680则样本平均值和样本中值是多少?据此你有何结论?2019/8/20Median中值MedianvsMean中值与均值因为中值不象均值对极端值敏感,因此,当有极端大或极端小值时,中值比均值更能代表数据的位置典型的例子是一个城市居民的收入中位值2019/8/20中值有时会有欺骗性50%-50%Rule?一半一半准则?以下一组数据的中值是多少?2,2,2,2,2,2,90可以用一半一半准则吗?2019/8/20Mode众数众数是样本中出现次数最多的观测值。众数可以是唯一的,也可以有不止一个,有时并不存在众数。2019/8/20Mode众数练习六如果样本观测值为:(a)69135813461311013(b)691358134613110625613(c)4372681众数是什么?具有一个众数,两个众数或多于两个众数分布的数据分布叫什么?(单峰分布…)2019/8/20Mode众数为何使用众数?当观测值为分类式(如名义数据,序列数据)时.众数是描述数据位置的最好的指标.典型的例子是,一个公司内员工收入的众数众数的重要信息当众数不止1个时,从中抽取样本的总体通常是多个总体的混合2019/8/20均值、中值、众数的比较x21xMOMe21MeMOx正态分布偏上分布偏下分布xMOMe≥≥xMOMe==xMOMe≤≤2019/8/20Quartiles四分值将一组按大小顺序排列的数据平均分为四部分,分界点即四分值.第一四分值(低四分值),约25%的观测值小于它.第二四分值,约50%的观测值小于它,即中值.第三四分值(高分值),约75%的观测值小于它.2019/8/20Quartiles四分值练习七以下为20个电灯泡失效期间的观测值,已按递增顺序排列.2102162523003664546247208169241216129613921488154224802856319235283710请确定三个四分值.计算方法:先确定位置再计算四分值Q1的位置:(n+1)/4Q2的位置:2(n+1)/4=(n+1)/2Q3的位置:3(n+1)/42019/8/20Quartiles四分值答案Q1的位置:(n+1)/4=(20+1)/4=21/4=5.25Q2的位置:2(n+1)/4=2(20+1)/4=2*21/4=10.5Q3的位置:3(n+1)/4=3(20+1)/4=3*21/4=15.75则:Q1=366+(454-366)*0.25=388Q2=924+(1216-924)*0.5=1070Q3=1542=(2480-1542)*0.75=2245.52019/8/20Quartiles四分值2019/8/20散布的测量(变异)Range极差Variance方差StandardDeviation标准差Inter-QuartileRange四分植极差2019/8/20Range极差样本极差为样本中最大和最小观测值之间的差别,即:极差是测量数据散布或变异的最简单的方法但它忽略了最大和最小值之间的所有信息r=xmax-xmin2019/8/20Range极差试考虑以下的2个样本:{102050607090}and{10,40,40,40,90}具有相同的极差(r=80)但是,第二个样本的变异只是2个极端数值的变异,而在第1个样本,中间的数值也有相当大的变异.当样本量较小(n≤10)时,极差丢失信息的问题不是很严重2019/8/20方差与标准差若x1,x2,…,xn是一个具有N个观测值的样本,则样本方差为:样本标准差是样本方差的算术平方根,即:1)(122nxxsnii1)(12nxxisni2019/8/20方差计算练习八:计算下列观测值的方差和标准差.305070901101301)(122nxxsnii2019/8/20方差计算1)(122nxxsniiixixi-x(xi-x)2130-502500250-30900370-10100490101005110309006130502500480ix0)(xxi70002)(xxi806480x400,1)16(000,72s2019/8/20方差与标准差再考虑以下2个样本.SampleA:102050607090SampleB:104040404090SampleASampleBRange极差8080Variance方差????StandardDeviation标准差????2019/8/20方差与标准差类似于样本方差S2,用总体的所数据计算出总体变异—总体方差(σ2)总体的标准差(σ)是总体方差的算术平方根对于包含N个数值的有限总体,其方差为:σ2=NxNii12)(2019/8/20方差特性方差计算使用了所有观测值,每个观测值对方差都有影响方差对极端值很敏感,因平方的缘故,极端大的观测值会严重的放大方差。2019/8/20四分值极差四分值极差是测量散布的另一指标:IQR=Q3-Q1四分值极差不如极差对极端值敏感当分布显著不对称时,用它衡量散布会更好样本(10,20,50,60,90)和(10,40,40,40,90)的四分值极差分别是40和0.2019/8/20TheNormalDistribution正态分布正态分布是一种具有特定的、非常有用的特性的数据分布这些特性对我们理解所研究之过程的特性十分有用大部分自然现象和人造过程是正态分布或可有正态分布描述2019/8/20TheNormalDistribution正态分布特性1:只需知道下述两项参数就可完整描述正态分布