课程大纲一、何为统计学1.1定义1.2统计分析方法的类别1.3统计学相关名词二、变量及其分布2.1变量及类型2.2正态分布2.3其他常见分布2.4中心极限定理1三、统计量及抽样分布3.1何为统计量3.2三大抽样分布四、参数估计4.1点估计4.2区间估计课程大纲五、图形分析5.1直方图5.2箱型图5.3散点图5.4时间序列图六、假设检验6.1假设检验定义及原理6.2均值检验26.3方差检验6.4OneWayANOVA6.5TwoWayANOVA6.6比例检验七、相关与回归7.1相关分析7.2回归分析何为统计学3何为统计学统计学定义•以上所有例子,都要通过各种直接或间接的手段来搜集数据,都要利用相应方法来整理和分析数据,最后通过分析得到结论。4你可以借助统计说出你想要的结论,甚至撒下谎言你可以借助统计说明世界多奇妙样本总体抽样/实验推论统计学分析方法的类别5•含义:大多以图表方式,简单计算等方式来对数据的分布、变化、趋势等进行描述的统计分析方法;•特点:操作简单、直观有效•含义:研究如何根据样本数据对统计总体特征做出以概率形式表述的推断;•特点:一般需要建模,相对复杂;•经典方法:估计、假设检验两大类统计分析方法描述统计方法推论统计方法•一般来说,推论统计分析是在描述统计分析的基础上进行的,两种分析方法密不可分;统计学分析方法的类别描述统计与推论统计的联系:6统计名词总体:研究对象所有个体的集合样本:由总体中抽取部分个体所组成的集合一般n30称为小样本,n≧30则称为大样本总体参数:表达总体特征的指标统计量:表达样本特征的量数,也称样本统计量变量:统计学研究的对象,用数据衡量,根据其特性可分为:•计量值(连续型):可量化表示---例如:高度、膜厚、温度、CD、流量、阻值---常用的总体参数或统计量有平均数、标准差•计数值(离散型):可分类表示---例如:人数、不合格品数、亮点数、良率---常用的总体参数或统计量有比例7变量及其分布8变量•当一个指标的取值固定为某个值时,我们称之为常量;•当一个指标的取值不固定时(多种可能性),我们称之为变量。例如:——若用X表示32A05产品的mura检测结果,因该结果的值可能是”OK”、”NG”等各种可能,故X为变量。——若用CD表示28”产品的CD值,因制程的波动该值也是波动的,CD值不固定,故CD为变量。变量:变量的具体取值是用数据衡量的9变量的数据类型•变量不能连续取值,能一一列出样本点;•一般用数据表示其频数,故用计数型数据表示•变量能够连续取值,无法一一列出样本点;•具体取值可用计量型数据表示例:某产品defect类型检验结果;一次掷20个硬币,硬币正面朝上的数量;例:28”产品的CD值;华星员工食堂吃午饭,打饭的排队时间;离散型变量:连续型变量:10变量特征的测度变量特征中心趋势分散程度众数中位数平均值一般用μ表示一般用σ表示标准偏差全距变异数形状特征偏态系数峰态系数11变量的分布变量的分布函数F(𝑥):为变量X的分布函数。称X服从例:投掷一个骰子,求点数X不超过3的概率。𝐹𝑥=𝑃(𝑋≤𝑥)𝐹𝑥𝑃𝑋≤𝑥=𝑃𝑋≤3=36=0.5解:分布离散型变量分布列连续型变量概率密度函数不同数据类型的变量用不同的方式衡量其分布状况•设X是一个离散型变量,若X的所有可能取值是𝒙𝟏,𝒙𝟐,𝒙𝟑,…,𝒙𝒏,则称X取𝒙𝒊的概率X……P……12离散型变量的分布列对离散型随机变量,常用以下定义的分布列来表示其分布:例:X为投掷两个骰子的点数之和,其分布列如下:X23456789101112P1/362/363/364/365/366/365/364/363/362/361/36𝒑𝒊=𝒑𝒙𝒊=𝑷(𝑿=𝒙𝒊)为X的概率分布列,简称分布列,记为𝑿~{𝒑𝒊}逐一列出每个可能的取值的概率14连续型变量的概率密度函数例膜厚X是一个随机变量。假如记录10000笔膜厚值,我们将各膜厚的频率用直方图形式表示出来,x轴表示膜厚,y轴表示单位长度上的频率对连续型随机变量,用概率密度函数来表示其分布状况:𝑓(𝑥𝑖)即为膜厚的概率密度函数∆𝑥=0.1∆𝑥=0.01∆𝑥0X~𝑁(𝜇,𝜎2)的概率密度函数如下:p𝑥=12𝜋𝜎𝑒−(𝑥−𝜇)22𝜎215正态分布在统计学上最重要的连续型分布是正态分布特点:正态分布的概率密度函数•中间高,两边低,对称的钟型;•均值=中位数=众数m=median=mode50%50%量测值𝑋~𝑁(𝜇,𝜎2)16正态分布𝑵(𝝁,𝝈𝟐)的图形特点为位置尺度,决定图形的中心位置;为形状尺度,决定图形的胖瘦。m𝑥𝑓(𝑥)m=1m=2m=3𝑥𝑓(𝑥)m=1=2=3固定,变动m固定m,变动17正态分布的概率计算中心到各标准偏差(σ)之概率如下μ-3σμ-2σμ-σμ+σμ+2σμ+3σμ0.02150.13590.34130.34130.13590.02150.68260.95440.9973曲线以下的面积等于概率18正态分布的概率计算Excel计算公式如下:P(X=15)=NORM.DIST(15,𝜇,𝜎,TRUE)P(X15)=1-P(X=15)若已知概率(假设P(X=z1)=0.8),求区间点Z1,则Z1=NORM.INV(p,𝜇,𝜎)1015X~N(10,32)已知X服从N(10,32)分布,求X大于15的概率。19练习假设1370站点CD值服从正态分布,平均值为16.5,标准差为0.5,规格为16.8~18.21.求超出规格上限的概率2.CD大于Z的概率为0.025,求Z值3.求该CD值的不良率(即,超出规格的概率)20一般正态分布=1Zm=标准正态分布XZm=标准正态分布表示为任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布~(0,1)XZNm=(0,1)Nm标准正态分布21标准正态分布的概率计算Excel计算公式如下:P(X=1.96)=NORM.S.DIST(1.96,TRUE)P(X1.96)=1-P(X=1.96)若已知概率(假设P(X=Z1)=0.8),求区间点则Z1=NORM.S.INV(p)已知X服从N(0,1)分布,求X大于1.96的概率。01.96???X~N(0,1)23其他常见连续分布均匀分布指数分布例如:比如旅客进机场的时间间隔、电话通话时间电子元器件的寿命、动物的寿命许多电子产品的寿命分布一般服从指数分布f(x)=,其他0,axb0abxf(x)10abxF(x)概率密度函数l=0.5l=1l=2其中参数λ0,记作X~Exp(λ)期望:E(X)=1/λ方差:D(X)=1/(λ^2)记作X~U(a,b)期望:E(X)=(a+b)/2方差:D(X)=(b-a)^2/12分布函数1𝑏−𝑎24常见离散分布二项分布泊松分布一般地,在n次独立重复试验中,用X表示事件A发生的次数,如果单次试验中A发生的概率是P,则不发生的概率q=1-p,N次独立重复试验中发生K次的概率是那么就说K服从二项分布。记作X~B(n,p)期望:E(X)=np方差:D(X)=npqP(X=k)=(K=1,2,3,…n)例如:良率的问题一般属于二项分布泊松分布常与单位时间(单位面积、单位产品等)上的计数过程相联系,例如:(K=1,2,3,…)泊松分布的概率分布列为:其中参数λ0,记作X~P(λ)期望:E(X)=λ方差:D(X)=λ•在单位时间内,电话总机接到用户呼唤的次数•在单位时间内,一电路受到外界电磁波的冲击次数•1平方米内,玻璃上的气泡数•单片panel上的defect数𝐶𝑛𝑘∗𝑝𝑘∗𝑞𝑛−𝑘25样本均值的分布假如X1,X2,…Xn是从均值为μ,方差为σ2的正态总体中抽取的样本值•其抽样的均值:•若将其视为另外一个变量–则的均值为μ,方差为–且服从正态分布2nX2(,)Nnm𝑿=𝑿𝟏+𝑿𝟐+⋯+𝑿𝒏𝒏X总体分布样本均值𝑋的分布mX𝝈𝑿26样本均值的分布已知总体X~N(50,10^2),若抽取样本,样本均值的分布如下:Xm=60=10n=4,𝜎𝑋=5n=16,𝜎𝑋=2.5•样本均值的标准差𝜎𝑋=𝝈𝒏•样本均值的均值𝑋=m(总体均值)27中心极限定理不论总体为何种分布,只要样本容量n≥30,样本平均值的抽样分布近似于正态分布,假设总体均值为m,标准差为。即,当n足够大时,样本均值服从𝑁𝜇,𝜎2𝑛𝑋当样本数够大时(n≥30),样本平均值的抽样分布会趋近于正态分布一个任意分布的总体𝜎𝑋=𝝈𝒏𝑿=𝛍𝑋JMP操作28统计量及抽样分布29统计量总体样本最常见的统计量:平均值m标准差设为取自某总体的样本,若样本函数中不含任何未知参数,则称T为统计量,统计量的服从的分布称为抽样分布。定义𝑥1,𝑥2,…,𝑥𝑛𝑇=𝑇(𝑥1,𝑥2,…,𝑥𝑛)统计量30三大抽样分布卡方分布t分布F分布31卡方分布32卡方分布的计算Excel计算公式:𝜒1−0.05210=𝐶𝐻𝐼𝐼𝑁𝑉𝐴0.05,10=18.311−𝛼=𝐶𝐻𝐼𝐷𝐼𝑆𝑇𝜒1−𝛼2𝑛,𝑛,true1−0.05=𝐶𝐻𝐼𝐷𝐼𝑆𝑇18.31,10=0.9533卡方统计量的构建设x1,x2,….,xn是来自N(m,^2)的样本,其中样本均值和样本方差分别为34F分布35F分布的计算36F统计量的构建37t分布定义:设随机变量X1与X2独立且X1~N(0,1),X2~(n),则称的分布为自由度为n的t分布,记为t~t(n)。Z分布不同自由度的t分布•自由度n越大,t分布越接近正态;•一般n=30,可认为正态𝝌𝟐𝒕=𝑿𝟏𝑿𝟐/𝒏1.t分配受两个变量的影响(),因此其变异会较标准正态分布来的大2.当t分布的自由度越大时,会越接近标准正态分布3.也就是说38t分布的性质()(0,1)tN&xsZ分布不同自由度的t分布39t统计量的构建nxZm=0nsxt0m=•大部分的情况下,总体标准σ是未知的!!•当σ未知,且样本不够大时,可以用样本标准偏差s替代,仍可得到跟正态分布接近的性质•t分布的自由度是n-141参数估计42估计•点估计:以样本统计量为基础估计参数推测某一分布的母数值是多少的方法,包括点估计和区间估计。总体参数样本统计量推算出样本抽取估计样本统计量总体参数xmspP^估计请注意:点估计没有误差的概念,即不知道抽取的样本之估计值与总体真值的接近程度。43估计估计•区间估计:与点估计不同,估计参数存在的范围(区间)=点估计±抽样误差考虑了抽样误差•置信区间的计算:a.根据一组样本观察值;b.给定某区间可以估计总体参数的概率;计算出总体参数的估计范围置信水平样本统计量(点估计)置信下限置信上限置信区间44估计置信水平•置信水平一般表示为(1-α),意思是总体参数落在该置信区间内的概率。总体参数(m)不同取样计算出来的置信区间例如:95%的置信区间,是指100次取样中,求得的100个置信区间中,有95个包含总体平均。•α为显著性水平,是总体参数未在区间内的概率,在假设检验中,为第一类风险;•常用的置信水平(1-α)有99%,95%,90%相对应的显著性水平α为0.01,0.05,0.1存在总体参数不在置信区间内的风险,该风险概率为α45XiX1-αα/2α/2σnσμLˆUˆμ1)总体已知时nzX)2/(nstXn)1,2/(对平均(μ)的置信区间μ=??=10.510.5±???Xσ2=??s2=3.83.8±???•对平均(μ)的区间估计•对变异(σ2)的的区间估计估计置信区间的计算公式1)总体未知时对变异(σ2)的置信区间[(n−1)𝑠2𝜒1−𝛼/22n−1,(n−1)𝑠2𝜒𝛼/22n−1]46估