SAS课件--第5讲-SAS的假设检验

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第五主题区间估计和假设检验区间估计与假设检验的基本概念•总体均值的区间估计与假设检验的SAS实现•总体比例的区间估计与假设检验的SAS实现•总体方差的区间估计与假设检验的SAS实现•分布检验区间估计假设检验第一节区间估计与假设检验的基本概念一、区间估计1.点估计和区间估计•参数的估计方法主要有两种:点估计和区间估计。•点估计是用样本的观测值估计总体未知参数的值。由于样本的随机性,不同样本观测值计算得出的参数的估计值间存在着差异,因此常用一个区间估计总体的参数,并把具有一定可靠性和精度的估计区间称为置信区间。利用构造的统计量及样本观测值,计算得出参数的置信区间的方法称为参数的区间估计。2.参数的置信区间•在区间估计中,对于总体的未知参数θ,需要求出两个统计量θ1(X1,X2,...,Xn)和θ2(X1,X2,...,Xn)来分别估计总体参数θ的上限和下限,使得总体参数在区间(θ1,θ2)内的概率为•P{θ1θθ2}=1–α•其中1–α称为置信水平,而(θ1,θ2)称为θ的置信区间,θ1,θ2分别称为置信下限和置信上限。置信水平为1–α的含义是随机区间(θ1,θ2)以1–α的概率包含了参数θ。3.正态总体均值和方差的置信区间•参数的区间估计大多是对正态总体的参数进行估计,如对单总体均值、方差的估计、两总体均值差的估计和两总体方差比的估计等。•正态总体参数的各种置信区间见表3-1。)1,0(~NnXZnZXnZX22,)1(~ntnSXt))1(),)1(22nSntXnSntX)(~2122nXnii)()(,)()(221122212nXnXniinii)1(~)1(212222nXXSnnii)1()(,)1()(221122212nXXnXXniinii被估参数条件枢轴量及其分布参数的置信区间单正态总体μ2已知2未知2μ已知μ未知•正态总体参数的各种置信区间见表3-1。)1,0(~)(22212121NnnYXZ2221212nnZYX)2(~11)(212121nntnnSYXtw2)1()1(21222211nnSnSnSw2121211)2(nnSnntYXw2221)1,1(~2122212221nnFSSF)1,1(1,)1,1(121212221212/2221nnFSSnnFSS其中被估参数条件枢轴量及其分布参数的置信区间两正态总体μ1-μ2两样本独立,12,22已知两样本独立,12=22=2未知两样本独立,μ1,μ2未知4.总体比例与比例差的置信区间•实际应用中经常需要对总体比例进行估计,如产品的合格率、大学生的就业率和手机的普及率等。记π和P分别表示总体比例和样本比例,则当样本容量n很大时(一般当nP和n(1–P)均大于5时,就可以认为样本容量足够大),样本比例P的抽样分布可用正态分布近似。总体比例与比例差的置信区间如表3-2所示。),(近似10)1(~NnPPPZnPPZP)1(2),(近似10)1()1()()(~2221112121NnnPPz222111221)1()1()(nPPnPPZPP待估参数枢轴量及其分布参数的置信区间总体比例π两总体比例差π1-π2其中P1,P2为两个样本比例二、假设检验1.假设检验的基本原理•对总体参数进行假设检验时,首先要给定一个原假设H0,H0是关于总体参数的表述,与此同时存在一个与H0相对立的备择假设H1,H0与H1有且仅有一个成立;经过一次抽样,若发生了小概率事件(通常把概率小于0.05的事件称为小概率事件),可以依据“小概率事件在一次实验中几乎不可能发生”的理由,怀疑原假设不真,作出拒绝原假设H0,接受H1的决定;反之,若小概率事件没有发生,就没有理由拒绝H0,从而应作出拒绝H1的决定。2.假设检验的步骤•1)根据问题确立原假设H0和备选假设H1;•2)确定一个显著水平,它是衡量稀有性(小概率事件)的标准,常取为0.05;•3)选定合适的检验用统计量W(通常在原假设中相等成立时,W的分布是已知的),根据W的分布及的值,确定H0的拒绝域。•4)由样本观测值计算出统计量W的观测值W0,如果W0落入H0的拒绝域,则拒绝H0;否则,不能拒绝原假设H0。•注意:在SAS系统中,是由样本观测值计算出统计量W的观测值W0和衡量观测结果极端性的p值(p值就是当原假设成立时得到样本观测值和更极端结果的概率),然后比较p和作判断:p,拒绝原假设H0;p≥,不能拒绝原假设H0。•p值通常由下面公式计算而得到。•●p=P{|W|≥|W0|}=2P{W≥|W0|}•(拒绝域为两边对称的区域时)•●p=min{P{W≥W0},P{WW0}}•(拒绝域为两边非对称区域时)•●p=P{W≥W0}(拒绝域为右边区域时)•●p=P{WW0}(拒绝域为左边区域时)•只需根据SAS计算出的p值,就可以在指定的显著水平下,作出拒绝或不能拒绝原假设的决定。3.正态总体均值和方差的假设检验•对正态总体的参数进行假设检验是假设检验的重要内容,如对单总体均值、方差的检验、两总体均值之差的检验和两总体方差比的检验等。正态总体参数的各种检验方法见下表3-3至表3-5。»表3-3单正态总体N(μ,2)均值μ的检验法2nXZ02nSXt0检验名称条件检验类别H0H1检验统计量分布拒绝域Z检验已知双边检验μ=μ0μ≠μ0N(0,1)|Z|≥Zα/2左边检验μ≥μ0μμ0Z≤-Zα右边检验μ≤μ0μμ0Z≥Zαt检验未知双边检验μ=μ0μ≠μ0t(n–1)|t|≥tα/2(n–1)左边检验μ≥μ0μμ0t≤–tα(n–1)右边检验μ≤μ0μμ0t≥tα(n–1)»表3-4单正态总体N(μ,2)方差2的检验法202202niiX1202)(2n)(2212n)(222n202202)(212n202202)(22n202202niiXXSn120.2022)1()1(2n)1(2212n)1(222n202202)1(212n202202)1(22n或检验名称条件检验类别H0H1检验统计量分布拒绝域χ2检验μ已知双边检验左边检验右边检验μ未知双边检验左边检验右边检验»表3-5两正态总体的均值差与方差比的检验2111nnSYXtw2)1()1(21222211nnSnSnSw)2(212nntt)2(21nntt)2(21nnttnSdtd)1(nt)1(2ntt)1(ntt)1(ntt1/22211/22212221SSF)1,1(212/1nnFF)1,1(212/nnFF1/22211/2221)1,1(211nnFF1/22211/2221)1,1(21nnFF名称条件类别H0H1检验统计量分布拒绝域Z检验两样本独立,12=22=2未知双边检验μ1-μ2=0μ1-μ2≠0t(n1+n2–2)左边检验μ1-μ20μ1-μ20右边检验μ1-μ20μ1-μ20t检验成对匹配样本,12,22未知双边检验μd=0μd≠0左边检验μd0μd0右边检验μd0μd0F检验两样本独立,μ1,μ2未知双边检验F(n1–1,n2–1)左边检验右边检验4.总体比例与比例差的检验•当样本容量n很大时,可根据表3-6对总体比例与比例差进行假设检验。»表3-6总体比例与比例差的检验nPz)1(00022211121)1()1(nPPnPPPPz检验名称检验类别H0H1检验统计量分布拒绝域比例检验双边检验=00N(0,1)|z|zα/2左边检验00|z|≤–zα右边检验00|z|zα两总体比例差检验双边检验1=212N(0,1)|z|zα/2左边检验1212|z|≤–zα右边检验1212|z|zα第二节总体均值的区间估计与假设检验的SAS实现使用INSIGHT模块使用“分析家”使用TTEST过程一、使用INSIGHT模块1.总体均值的区间估计•【例3-1】某药材生产商要对其仓库中的1000箱药材的平均重量进行估计,药材重量的总体方差未知,随机抽取16箱样本称重后结果如表3-7所示。»表3-716箱药材重量(单位:千克)•设药材重量数据存放于数据集tt中,其中重量变量名为weight。求该仓库中每箱药材平均重量在95%置信水平下的置信区间。50505651495347525353495355485055•步骤如下:•1)启动INSIGHT模块,并打开数据集tt;•2)选择菜单“Analyze”→“Distribution(Y)”;•3)在打开的“Distribution(Y)”对话框中进行区间估计的设置(如图)。••结果包括一个名为“95%ConfidenceIntervals(95%置信区间)”的列表,表中给出了均值、标准差、方差的估计值(Parameter)、置信下限(LCL)和置信上限(UCL),如图3-2所示。结果表明,根据抽样样本,该仓库中药材的平均重量以95%的可能性位于50.08千克至52.92千克之间。2.单样本总体均值的假设检验•【例3-2】一家食品厂以生产袋装食品为主,每天的产量大约为8000袋,每袋重量规定为100克。为了分析每袋重量是否符合要求,质检部门经常进行抽检。现从某天生产的一批食品中随机抽取了25袋,测得每袋重量如表3-8所示。表3-825袋食品的重量(单位:克)•试从抽检的样本数据出发,检验变量WEIGHT的均值与100克是否有显著差异。假定表3-8数据存放在数据集tt1中,重量变量名为WEIGHT。112.5101.0103.0102.0100.5102.6107.595.0108.8115.6100.0123.5102.0101.6102.2116.695.497.8108.6105.0136.8102.8101.598.493.3•设变量WEIGHT的均值为μ,问题是希望通过样本数据检验变量WEIGHT均值的如下假设:•H0:μ=100,H1:μ100。•使用INSIGHT对均值进行检验的步骤如下:•1)首先启动INSIGHT,并打开数据集tt1;•2)选择菜单“Analyze”→“Distribution(Y)”;•3)在打开的“Distribution(Y)”对话框中选定分析变量WEIGHT;•4)单击“OK”按钮,得到变量的描述性统计量;•5)选择菜单“Tables(表)”→“TestsforLocation(位置检验)”;在弹出的“TestsforLocation”对话框中输入100,单击“OK”按钮得到输出结果如图所示。••结果显示,观测值不等于100克的观测有24个,其中19个观测值大于100。•图中第一个检验为t检验(Student'st),需要假定变量服从正态分布,检验的p值为0.0105,这个检验在0.05水平下是显著的,所以可认为均值与100克有显著差异。第二个检验(Sign)是叫做符号检验的非参数检验,其p值为0.0066,在0.05水平下也是显著的,结论不变。第三个检验(SignedRank)是叫

1 / 88
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功