样本容量-1抽样及样本容量(Sampling&SampleSize)样本容量-2什么是抽样及为何要进行抽样?–抽样是•收集所有数据的一部分。•使用该部分数据得出结论(进行推论)。–为什么要进行抽样?因为查看所有数据可能•成本太高。•费时太长。•造成破坏(例如、品尝测试)。–一般可从比较少量的数据得出可靠的结论。样本容量-3•总体–情况:在操作上您可以定义现存的总体的边界、以便可以认出总体的每个个体、在理论上还可以进行编号。–抽样目的:描述该总体的特征。–示例:抽样调查(8月31日以前毕业的)大学校友、以确定在今后两年中他们至少将一个小孩送进大学的百分比。总体和过程样本使用样本对总体进行推论:例如。平均值=X、比例=p样本容量-4•过程–情况:过程是动态的且不断变化的;过程中的个体并不是全可以鉴定的、因为某些个体尚不存在(如明天制造的那些个体)。–目的:了解过程、以便采取行动改进或预测过程未来的行为。–示例:我们估计下月发票中有5%至20%有错误(除非更改该过程)。总体和过程(续)使用样本对过程未来的行为进行推论昨天保存时间顺序!今天明天??20%5%10%15%抽样数据的时间曲线图???以时间顺序排列的过程输出样本容量-5抽样和改进项目确定过程周期和缺陷比率的基准性能;(例如:在控制图上绘出样本数据)估计过程能力;(例如:计算一件样本中的缺陷)确定造成性能低下或数据变动的因素(X);(利用样本数据绘制图表、进行假设测试或回归分析)验证建议的改进工作;(比较从过程中抽取的新数据与从该过程抽取的旧数据)监视过程性能、必要时采取补救措施、并预测未来的性能;(在控制图上绘出新过程的样本数据)改进项目一般是对过程情况进行抽样:样本容量-6为什么要区别总体抽样和过程抽样?–样本容量公式是为定义明确的静态(而且常常是理论上的)总体情况设计的。•但是大多数抽样应用是针对动态的、尚未知的过程情况。•将样本容量公式应用于过程抽样情况可能得出错误的结论、除非满足一定的条件。–要使推论有效、样本必须真实地代表总体或过程。•总体所需的抽样策略不同于过程所需的抽样策略、以确保样本具有代表性(在下一节中讨论)。样本容量-7从稳定的过程中抽样–如果过程是稳定的、样本容量公式可应用于过程情况。•可获得具有特定精度的可靠估计值。•当进行比较时、如果存在的差异具有一定功效、便可找出它们。(稳定的、可预测的过程)4045505560651357911131517192123252729313335373941样本容量-8从不稳定的过程中抽样–然而许多过程是不稳定的。–无论如何总要收集数据、并绘制控制图或时间曲线图。•识别特殊原因并清除之。–使用样本容量公式求出的值是您应认为最小的数字;可能的话,需要收集更多的数据。•存在特殊原因时,需要更大的样本容量,因为长期变动大于短期变异。•使用公式时,您必须估计s(或p);您必须判断特殊原因如何影响该估计值,并根据您认为过程将会是什么情况来调整它。样本容量-9从不稳定的过程中抽样(续)–当进行组之间的比较时:•尽量在相同时间内获取每组的样本。•当作结论或报告结论时、会存在这样一个风险、即这些结论可能不适用于将来。–如果过程是不稳定的,可能的话,将一段很长的时间里得到的数据绘制于一张控制图上,并圈出或特别标示您的样本所代表的数据点或时间区间。•允许您和他人可直接从曲线观察过程的行为。•帮助您判断这些结论在未来的可靠性。样本容量-10从过程中抽样•对于过程情况,我们希望确保能够理解过程的行为。因此我们:–在一段时间内进行系统或整群(非随机)抽样。•即使随机抽样能适用于稳定过程,我们仍采用系统或整群抽样,并保持时间顺序以便能更好地表示过程行为。–尽量从足够长的时间段中进行抽样,以便真实地表示过程中的变化源。•运用您自己的判断和有关变化源的过程知识来确定多长时间进行一次抽样(每隔10个个体、每隔7个个体、每天、每月等)。–一般情况下、更加频繁地收集小样本、可确保随着时间的过去能真实地表示过程行为。–绘制控制图或时间曲线图,以确定该过程是稳定的还是不稳定的(寻找非正常值、偏移、趋势或其它模式)。样本容量-11抽样方法样本容量-12代表性样本•要使结论有效,样本必须具有代表性。–数据应真实地表示总体或过程–收集的数据与未收集的数据之间不应存在有系统性的差异。样本容量-13•每个单元具有相同被选中的机会•从每个组随机抽样一个成比例的数字•随机抽样•分层随机抽样样本总体样本总体AABBBBCDDDAAAABBBBBBBCCDDDDDDB概率抽样样本容量-14•每隔n个抽样(如每隔三个抽样)•每经过时间t抽样n个单元(例如,每小时抽样三个单元);然后计算每个小组的平均值(比例)•系统抽样•整群抽样样本总体或过程保持时间顺序样本过程9:009:3010:3010:00保持时间顺序样本容量-15统计调查的误差(抽样误差):是指调查所得结果与总体真实数值之间的差异。可分1、登记性误差:指在调查和汇总过程中,由于观察、测量、登记、计算等方面的差错或被调查者提供虚假资料而造成的误差。(不是抽样调查独有的)[尽量避免]2、代表性误差:指用样本指标推断总体指标时,由于样本结构与总体结构不一致、样本不能完全代表总体而产生的误差。它又分--2-1、系统误差:指由于非随机因素引起的样本代表性不足而产生的误差,表现为样本估计量的值系统性偏高或偏低,故也称偏差,[尽量避免]如抽样框与目标总体不一致、有意多选较好或较差的单位等;--2-2、随机误差:又称偶然性误差,指遵循随机抽样原则,由于随机因素(偶然性因素)引起的代表性误差。[不可避免,但需加以计算与控制]抽样估计中所谓的抽样误差,就是指这种随机误差,即由于抽样的随机性而产生的样本估计量与总体参数之间的代表性误差。抽样误差样本容量-16抽样误差的3个概念1、实际抽样误差:θ-θ[实际上总体参数θ是未知数,不可计算]2、抽样平均误差:3、抽样极限误差:是指在一定的概率下抽样误差的可能范围,也称为允许误差。用△表示抽样极限误差,即在一定概率下,抽样误差率=(抽样极限误差/估计量)*100%抽样估计精度=100%-抽样误差率可能样本个数2如|xxbar-X|≤△xbar样本容量-17抽样总结•本单元包括:–抽样是查看所有数据的一种有效率和效果的方法。–总体抽样与过程抽样有不同的目的和方法。–代表性是抽样最重要的一方面。–正确抽样使您对结论有信心。–总体抽样的样本容量公式可适用于稳定过程。样本容量-18样本容量(SampleSize)样本容量-19样本容量介绍•人们常问的第一个问题是“我需要多少个样本?”•该问题的答案由下列四个因素确定:1.数据类型•离散数据和连续数据2.您想做什么•描述整组的某个特征(平均值或比例)–在特定的精度内(±___单位)•比较组的特征(找出组平均值或比例之间的差异)–以什么功效:希望检测到特定差异的概率3.您估计的标准偏差(或比例)为多大4.您希望的置信度为多高(通常为95%)样本容量-20假设检验中样本容量的重要性当样本容量太小•不能检验出差异n=1n=5过程A过程A过程B过程BAxBxfromaway2thanlessisxAxBxfromaway3thanmoreisx样本容量-21假设检验中样本容量的重要性当样本容量太大•对平均值的漂移过于敏感•资源浪费样本容量-22样本容量的选取过程第一步:明确研究过程中的响应变量第二步:选择合适的统计检验第三步:决定可接受的风险和第四步:定出漂移敏感度第五步:建立或估计当前过程中的参数第六步:决定合适的样本容量样本容量-23抽样风险是H0成立,但结果却否定它的风险.1-是H0的置信系数.观察值1样本容量-24抽样风险是H0不成立,但结果却肯定它的风险.(1-)称为检验的功效,它表示H0不成立,而结果也否定它的概率,即当H0不成立时,作出正确结论的概率.观察值12漂移样本容量-25抽样风险样本容量-26抽样风险H0:无差异H1:有明显差异零假设成立不成立决策接受H0拒绝H0正确1–正确1–第一类错误第二类错误样本容量-27漂移敏感性实验之前需要预先指定反映明显差异的量.与标准差之比/称为漂移敏感度(driftsensitivity).样本容量-28关于均值的比较的检验单样本检验(1-SampleTests)•StatPowerandSampleSize1-SampleZ•StatPowerandSampleSize1-Samplet双样本检验(2-SampleTests)•StatPowerandSampleSize2-Samplet样本容量-29样本容量公式取决于您的目的抽样目的公式*/Minitab命令估计平均值(例如、确定基准周期)(其中d=精度:±__单位)估计比例(例如、确定缺陷基准百分比)(其中d=精度:±__单位)2d2snp1pd2n2样本容量-30精度(d)–精度是允许某个特征的估计值波动的范围。•估计上下不超过两天的周期。•估计上下不超过3%的缺陷百分比。–使用符号d表示精度。•传统的统计学称它为“delta”、因此以d表示。–精度等于置信区间(CI)的一半。•周期(单位为天)为95%时CI=(48、52)意味着我们有95%的确信平均周期在48天至52天之间。•CI的宽度=4天。•精度=d=2天(=估计值上下不超过2天)。样本容量-31精度(d)(续)–决定您需要多大的精度。–精度与样本容量的平方根成反比。n1样本容量-32精度和样本容量–要提高精度、必须增加样本容量(但会增加成本)。–对于需要多大的精度没有明确的答案;该答案取决于使用该估计值对业务产生多大的影响。–每种情况都是独特的;不要效仿别人的决定。样本容量-33估计平均值所需的样本容量95%的置信度*意味着因子为2标准偏差的估计您希望的精度2d2sn2222/xznNzznx222/2222/不重复抽样重复抽样样本容量-34•目的:练习使用样本容量公式估计平均值。•时间:3分钟。•要求:使用样本容量公式计算平均值,以便回答下列问题。1.假设您想估计呼入电话的平均通话时间1分钟。您需要多少样本?(历史数据显示典型的标准偏差=3分钟。)2.您需要对多少次呼入抽样、以获得1/8分钟的精度?[练习]:估计平均值所需的样本容量2d2sn样本容量-35练习:答案•问题1.•问题2.3042848132n22))((3661(2)(3)n22样本容量-36如何估计标准偏差•困难的选择:–要估计样本容量,您需要知道标准偏差。•您需对数据的变化量有一定了解,因为数据可变性加大,需要的样本容量也要相应增加。–但是,如果您还没有进行抽样,如何知道偏差呢???样本容量-37如何估计标准偏差(续)•估计标准偏差的选择–查找现存的数据并计算s。•使用类似过程的控制图(针对个体的)。–采集一个小的样本并计算s。–根据您对过程的认识和记得的类似数据猜一猜(大多数人不擅长这样做)。3AverageUCLsor6LCLUCLs样本容量-38估计比例所需的样本容量95%的置信度意味着因子为2猜p的值(样本大小随P变动较大、从P=0.1到0.5,变化甚剧)您希望的精度p1pd2n2样本容量-39使用精度调整样本容量•您可使用确定样本容量的公式,来确定是否需要花更多的资金收集更多的样本来得到更高的精度。在收集数据之前这样做可以帮助您决定多少样本可以符合您的项目和预算。1.确定您可以提供多少个样本(n)。2.然后问:该样本提供多高的精度?•即、精度的平均值在±d单位之内•还是精度的比例在±d%之内np)(p)(12dn2sd样本容量-40使用精度调整样本容量(续)3.该精度足够精确吗?4.如果不够精确:•