快速学习基础统计

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

基础统计一、统计基本概念二、统计抽样三、描述性统计3.1统计基本术语3.2数据的图示方法3.3正态分布四、推论统计4.1点估计4.2区间估计4.3假设检验4.4方差分析4.5相关分析和回归分析五、总结目录统计资料:指通过统计工作而得到的各项数字资料以及与之相联系的信息的总程,是统计工作的成果。统计学是研究如何搜集、整理、分析反映事物总体信息的数字资料,并以此为依据,对总体特征进行推断的原理和方法。(数理统计学)一、统计基本概念现代统计的涵义包括三个方面:统计工作、统计资料和统计学。统计工作:是运用科学的方法,对社会、经济以及自然现象的总体数量特征进行收集、整理和分析的活动过程。总体:包含所研究的全部个体(数据)的集合。样本:从总体中抽取的一部分个体的集合。样本中个体的数量称为样本容量。二、统计抽样抽样样本总体总体参数均值:标准差:样本统计量均值:标准差:xs统计推论u统计抽样抽样:从欲研究的全部个体中抽取一部分个体的过程。为什么使用抽样?收集所有的数据通常是不现实的;有时收集数据是破坏性过程,成本太高;可以用相对少量的数据作出合理的结论。总体抽样:确定总体的特性简单随机抽样:按随机原则直接从总体中抽取样本,且每个单元都有同等的机会被抽到。例如:抽签法、计算机随机抽取法。分层抽样:按照一定的标识加以分层,然后在各层中用简单随机抽样抽取样本。——抽样方法统计抽样系统抽样:帮助我们了解过程的实情和状况系统抽样法:总体中所有单位按照一定的顺序排列,在规定的范围内抽取固定数量的单元作为初始单元,然后按照事先规定好的规则确定其他样本单元。统计抽样简单随机抽样——抽样方法每个单元都有相同被选择的概率把总体层化成许多组,在每个组里任意选择分层抽样系统抽样总体抽样系统抽样系统分组抽样每隔n个单元或固定时间间隔,选择一个每隔n个单元或固定时间间隔抽取一组样本的特性可以从两方面进行描述:一是数据的中心位置;二是数据的分散程度。三、描述性统计数据的中心位置均值某组观测值的算术平均值中位数按大小顺序排列的数据组中点位置对应的数值众数出现频次最高的数值数据的分散程度极差样本中最大值与最小值的差方差度量样本中围绕均值波动的大小标准差度量样本中围绕均值波动的大小,xeM0MR2ss2ss3.1描述性统计均值:某组观测值的算术平均值。其中为观测值,n为样本容量。1231......1nniixxxxxxnnixx例:检查6颗钢珠的直径分别为:15、15.8、15.2、15.1、15.9、14.7钢珠的平均直径==15.28统计基本术语15+15.8+15.2+15.1+15.9+14.76中位数:按大小顺序排列的数据组中点位置对应的数值。样本容量n为奇数的数据组,中位数等于中点位置的数值;样本容量n为偶数的数据组,中位数等于中间两个数的平均值。其中为有序样本(1)/2(/2)(/21)[]/2nennxMxx(n为奇数)(n为偶数)eM12,,...,,...,inxxxx统计基本术语数据组一:1、2、3、4、5、6、7中位数为“4”数据组二:1、2、3、4、5、6中位数为“3.5”例:2437866565629861出现频次最多的数据为“6”,出现5次。统计基本术语众数:出现频次最高的数值。0M例:数据组极差R:样本中最大值与最小值的差。极差R=最大值-最小值极差R=8-1=7统计基本术语例:数据组25716548统计基本术语偏差:每个数据与所在数据组均值的差。偏差=X-均值()iXu2()iXu2()iXu2()iXuN2()iXuN偏差偏差的平方偏差平方和方差标准差Xi-均值Xu标准差:度量数据围绕均值波动的大小,用每个观察值与均值距离平方和的平均数表示,值越大说明数据越分散。21()1niixxsn统计基本术语总体标准差σ:21()NiixuN样本标准差s:统计基本术语例:计算下列样本的标准差:•数据组:1、2、3•均值为2•样本容量n=321222()11221.0niixxsn()(2-2)(3-2)供应商钢珠直径115.015.815.215.115.914.714.815.515.615.3215.115.315.015.615.714.814.514.214.914.9315.215.015.315.615.114.914.114.615.815.2415.915.215.014.914.814.515.115.515.515.5515.115.015.314.714.515.515.014.714.614.2对五个钢珠的供应商提供的钢珠直径进行抽查测量,得到以下五个样本,请计算各样本的统计量:——Minitab计算样本统计量统计基本术语Minitab操作结果展示:样本1的均值最大为15.29,样本5的均值最小为14.86;从样本标准差中可以看出样本5的波动最小,样本3波动最大。——Minitab计算样本统计量统计基本术语20151050C13箱线图箱线图用于归纳数据分布的信息,显示分布的统计概况。该图可以显示数据组的最小值、第一四分位数、中位数、第三四分位数、最大值,可以粗略的看出数据是否具有对称性、分布的分散程度等信息。第三四分位数Q3:在该组数据第位置处的数。第一四分位数Q1:在该组数据第位置处的数。游离点:超出上限(或下限)的观测值,有异常值的嫌疑:上限=Q3+1.5(Q3-Q1)下限=Q1-1.5(Q3-Q1)中位数最大值最小值1*4n3*4n3.2数据的图示方法箱线图的用法:中位数,可根据中位数判断数据分布是否有偏;方块长度,根据箱体的长度可以确定观测值的散布程度,箱体越长数据分布越分散;根据游离点判断是否存在异常值。数据的图示方法例:某零部件在生产模具改变后各抽取一组样本测定其尺寸:对比改进后与改进前的零件尺寸情况。改变前5.115.137.476.556.924.525.886.525.335.44改变后4.574.434.884.754.465.053.694.094.614.26改变前箱体大于改变后的箱体长度,改变前的数据的分散性比改变后的稍大。两组数据没有出现游离的异常值。数据的图示方法改变后改变前87654数据5.445.336.525.884.526.926.557.475.135.114.264.614.093.695.054.464.754.884.434.57改变前,改变后的箱线图数据的图示方法直方图常用于了解数据的分布情况,这种展示方法使我们较容易的看到数据的分散程度和中心位置,并与要求的分布进行比较。16.015.615.214.814.414.0121086420频率均值15.08标准差0.4409N50制作方法:以频数(或频率)为纵坐标,数据观测值为横坐标,以组距为底边,数据观测值落入各组的频数(或频率)为高,画出一系列矩形,这样就得到频数(或频率)直方图。1、确定极差:极差(R)=最大值(Max)-最小值(Min)2、确定分组:组数K=1+3.32•logn,n为数据个数3、确定组距:4、将落入各组的数据汇总,得出直方图。/hRK数据的图示方法样本量组数40~1005~8100~2008~10201~5009~11501~100010~131000以上12~15组数选择参照表:16.015.615.214.814.414.0121086420频率均值15.08标准差0.4409N50数据的图示方法形态可能原因正常型过程正常离岛型混入其它小量群体有特殊原因存在偏峰型规格偏近于零作业员作业特殊习性已全检筛选过高原型及峭壁型已全检筛选过测量仪器精度不足双峰型有两种不同群体混入过程中途有调整正态分布曲线3.3正态分布正态分布是质量管理中最常遇到的连续分布。正态分布的概率密度函数特点:中间高、两边低、左右对称,延伸到无穷。210-1-220151050C1频率均值-0.03974标准差0.9740N100C1的直方图正态3210-1-29080706050403020100C2频率均值-0.03592标准差0.9557N1000C2的直方图正态22()/21()2xupxeu'u正态分布u0.41.02.5正态分布的参数:位置参数——u,决定曲线的中心位置。形状参数——σ,决定曲线的分布形状。u=0且σ=1的特殊正态分布称为标准正态分布,记为N(0,1)。4.1点估计在正态分布中均值、方差、标准差称为总体的参数。在实际问题中,这些参数都是未知,需要选取适当的统计量作为未知参数的估计,用于估计未知参数的统计量称为点估计。正态均值的点估计:样本均值的估计优于中位数的估计。正态方差的点估计:正态标准差的点估计:(是与样本容量有关的常数)uxeuM2Rd4sc24dc和22s4.2区间估计区间估计:在点估计的基础上给出总体参数估计的区间范围,该区间通常由样本统计量加减估计误差得到,也称为置信区间。a/2*xZna/2*sxZn总体方差已知的情况总体方差未知的情况,用样本方差代替总体均值的区间估计:置信水平:总体参数落在样本统计值某一区间内的概率。常用置信水平的值(查表)置信水平aa/268.2%0.320.16195%0.050.0251.9695.4%0.0460.023299.7%0.0030.00153a/2Za/2Z——区间估计示例例:已知某种灯的寿命服从正态分布,现需要知道该批灯的寿命平均值,从这批灯中随机抽取16个,测得其使用寿命(单位:h)如下:1510145014801460152014801490146014801510153014701500152015101470Minitab输出结果:该批灯具平均使用寿命的95%置信区间为(1476.8,1503.2)h。1520150014801460中位数平均值15101500149014801470第一四分位数1470.0中位数1485.0第三四分位数1510.0最大值1530.01476.81503.21470.01510.018.338.3A平方0.38P值0.368平均值1490.0标准差24.8方差613.3偏度0.03010峰度-1.27210N16最小值1450.0Anderson-Darling正态性检验95%平均值置信区间95%中位数置信区间95%标准差置信区间95%置信区间C1摘要例1:某零件安装孔直径均值为0.13mm。某日在生产的产品中抽查10件,其观察值为(单位mm):发现平均直径(0.136mm)稍有变化,如果标准差不变,试问生产是否正常?0.1120.1300.1290.1520.1380.1180.1510.1280.1580.1424.3假设检验均值变化了,生产发生变化了吗?假设检验例2:在改进了工艺前后,各测量了若干钢条的抗剪强度,数据如下:计算均值:改进后:改进前:是否可认为改进工艺后钢条平均抗剪强度有提高?改进后:525531518533546524521533545540改进前:5215255335255175145265191531.60u2522.50u改进后改进前550540530520510数据改进前,改进后的箱线图均值增加了,措施有明显的效果吗?例3.通过以往大规模调查,已知某地正常成年男子脉搏均数为72.1次/分。为研究某山区正常成年男子的脉搏特征,某医生在该地某山区随机调查36名正常成年男子,求得其脉搏均数为74.3次/分,标准差为5.4次/分,可否认为该山区成年男子的脉搏总体均数与一般成年男子的脉搏总体均数不同?是否相同?假设检验假设检验亦称为显著性检验,是判断样本指标与总体指标或样本指标与样本指标之间的差异有无显著性意义的一种统计方法。它是一种数学验证,它可以确定事情的结果是偶然发生的还是真的发生了实质性的

1 / 69
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功