SAS假设检验(公选)

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

4.1.1参数估计4.1.2假设检验从总体中抽取样本,以样本统计量(即样本数字特征)作为未知总体参数(即总体数字特征)的估计量,并通过对样本观察值分析来估计和推断,即根据样本来推断总体分布的未知参数,称为参数估计(parameterestimation)。参数估计有两种基本形式:点估计和区间估计。1.点估计点估计是用样本统计量估计总体分布中所含的未知参数。因为样本统计量为数轴上某一点,估计的结果也以一个点的数值表示,所以称为点估计。通常它们是总体的某个特征值,如均值、方差和相关系数等。点估计问题就是要构造一个只依赖于样本的量,作为未知参数或未知参数的函数的估计值。2.区间估计区间估计是通过从总体中抽取的样本,根据一定的正确度与精确度的要求,以一定可靠程度推断总体参数所在的区间范围,作为总体分布的未知参数或参数的函数的真值所在范围的估计。区间估计是从点估计值和抽样标准误出发,按给定的概率值建立包含待估计参数的区间。其中这个给定的概率值称为置信度或置信水平(confidencelevel),指总体参数值落在样本统计值某一区内的概率。这个建立起来的包含待估计参数的区间称为置信区间(confidenceinterval),表示总体参数的可能范围。置信区间是指在某一置信水平下,样本统计值与总体参数值间误差范围。双侧:Pab()1(,)abab1置信区间置信下限置信上限置信水平或置信度(称为显著性水平)单侧:Pb()1或Pa()1置信区间实践中,许多频率分布形状如此:中间高,两侧低、对称计算中心如果数据来自正态分布总体,则:68%的值落在距均值1个标准差的范围之内95%的值落在距均值2个标准差的范围之内99%的值落在距均值3个标准差的范围之内例如:由12岁女孩体重组成一个总体,这个总体服从均值为39公斤,标准差4.5公斤,则:68%的值落在34.5~43.5公斤之间95%的值落在30~48公斤之间99%的值落在25.5~52.5公斤之间正态分布描述落入不同范围的概率.例如,近似地有(“3”原则):◆68%的数据落入以均值为中心一倍标准差的范围内;◆95%的数据落入以均值为中心两倍标准差的范围内;◆99%的数据落入以均值为中心三倍标准差的范围内;若样本均值的分布为正态的,当构造置信区间时就可用正态分布给定的概率,这一概率对应于置信水平.所以,构造一个95%的置信区间,这个置信区间就有95%的概率包括总体均值.95%就为置信水平.小概率事件的含义:◦发生概率一般不超过5%的事件,即事件在一次试验中几乎不可能发生区间取值概率(μ-σ,μ+σ)68.3%(μ-2σ,μ+2σ)95.4%(μ-3σ,μ+3σ)99.7%假设检验是抽样推断中的一项重要内容,是一种基本的统计推断形式,用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。其基本原理是先依据原资料对总体的参数或分布作出某种假设,然后再利用样本对总体提供的信息,用适当的统计方法计算出有关检验的统计量,依据一定的概率原则,以较小的风险来对假设作出应该拒绝或不拒绝推断。对总体参数进行假设检验时,首先要给定一个原假设H0,H0是关于总体参数的表述,与此同时存在一个与H0相对立的备择假设H1,H0与H1有且仅有一个成立;经过一次抽样,若发生了小概率事件(通常把概率小于0.05的事件称为小概率事件),可以依据“小概率事件在一次实验中几乎不可能发生”的理由,怀疑原假设不真,作出拒绝原假设H0,接受H1的决定;反之,若小概率事件没有发生,就没有理由拒绝H0,从而应作出拒绝H1的决定。◦根据问题确立原假设H0和备择假设H1;◦确定一个显著性水平,它是衡量稀有性(小概率事件)的标准,常取为0.05;◦选定合适的检验用统计量W(通常在原假设中相等成立时,W的分布是已知的),根据W的分布及的值,确定H0的拒绝域。◦由样本观测值计算出统计量W的观测值W0,如果W0落入H0的拒绝域,则拒绝H0;否则,不能拒绝原假设H0。概率p值是SAS系统根据样本分布和样本数据自动计算一个实际的显著性水平,在SAS系统中进行假设检验,p值提供了一个直观的判断依据:①当pα,说明实际计算的显著性水平比理论的显著性水平更小,小概率事件在一次实验中发生的几率更小(比理论设定的概率还小)。此时在p值的显著性水平条件下,如果还能够观测到小概率事件发生,则说明假设更加不可靠,应拒绝原假设;②当p≥α,在p值的显著性水平条件下,如果能够观测到小概率事件发生,则说明假设可能没有任何问题。因为观测一个概率比较大的事件,其发生的可能性本来就比较大,故不能对假设做出否定的判断。3.假设检验的数学模型T检验是用于两组数据均数间差异的显著性检验,亦称学生T检验(Student'sttest),主要用于样本含量较小(例如n30),总体标准差σ未知的正态分布资料。T检验是用于小样本(样本容量小于30)的两个平均值差异程度的检验方法。它是用T分布理论来推断差异发生的概率,从而判定两个平均数的差异是否显著。(1)单样本T检验单样本T检验所采用的方法是,抽取一组数据作为一个样本,对样本均数与理论上的总体均数的差别作显著性检验,检验所测得的一组连续资料是否抽样于均数已知的总体。根据大量实验调查的结果或一般规律,可以得到某一事物的平均数,以此作总体均数看待。t统计量的计算公式如下:如果用程序方法作单样本T检验,可在SAS系统中采用MEANS过程,计算出观察与总体均数的差值,再对该差值的均数进行T检验。xsxt||(2)两配对样本的T检验两配对样本T检验包括两种情况,即配对资料差异的显著性检验(配对比较检验)和同一组对象实验前后差异的显著性检验(自身对照比较)。t统计量的计算公式如下:SAS系统中采用MEANS过程,计算出两样本观察的差值(如服药前、后实验数据的差值),再对该差值的均数进行T检验。dsdt||(3)两独立样本的T检验两独立样本的t检验是指对两样本均数的差异作显著性检验。作为两样本均数差异比较的两组数据,它是分别取自两个独立样本,没有成对关系,两组的数据个数可以相等,也可以不一样。t统计量的计算公式如下:方差齐时,方差不齐时,方差齐性检验用F检验,F统计量的计算公式如下:2121||wwxxt21||21xxsxxt),min(),max(22212221ssssFSAS系统中采用TTEST过程,先作方差齐性检验(f检验)。当方差齐性时,f应接近于1,f特大或特小都是极端情况。同时f的分布不依赖未知参数。统计上称它为自由度(n1-1,n2-1)的分布。n1,n2分别对应独立样本的两个样本个数。利用f分布,对统计量f的观测值可以得到它的p值并由此对原假设作出判断。然后根据方差齐(equal)和方差不齐(unequal)输出t值和p值以及基本统计量。4.TTEST过程T过程是专门进行T检验的SAS过程,它可以做单样本均值的T检验、两配对样本均值的T检验和两独立样本均值的T检验。其语句格式为:PROCTTEST选项列表;CLASS分组变量名;PAIRED变量名列表;BY分组变量名;VAR分析变量名列表;FREQ变量名列表;WEIGHT变量名列表;RUN;语句说明:(1)PROCTTEST语句后可跟的选项及其表示的含义如表4-1所示。选项代表的含义data=等号后为SAS数据集名,指定TTEST过程所要处理的数据集,默认值为最近处理的数据集alpha=等号后为0~1之间的任何值,指定置信水平,默认为0.05ci=等号后为“equal,umpu,none”中的一个,表示标准差的置信区间的显示形式,默认为ci=equalcochran有此选项时,TTEST过程对方差不齐时的近似t检验增加cochran近似法h0=等号后为任意实数,表示检验假设中对两均值差值的设定,默认值为0(2)CLASS语句所指定的分组变量是用来进行组间比较的;(3)PAIRED语句用来指定配对t检验中要进行比较的变量对,其后所带的变量名列表一般形式及其产生的效果如表4-2所示。变量名列表形式产生的效果a*ba–ba*bc*da–b,c–d(ab)*(cd)a–c,a–d,b–c,b–d(ab)*(cb)a–c,a–b,b–c(4)BY语句所指定的分组变量是用来将数据分为若干个更小的样本,以便SAS分别在各小样本内进行各自独立的处理;(5)VAR语句引导要检验的所有变量列表,SAS将对VAR语句所引导的所有变量分别进行组间均值比较的t检验;(6)FREQ指定作为频数的变量;(7)WEIGHT指定作为权数的变量。4.2.1单样本的参数估计4.2.2单样本的假设检验1.单样本正态总体均值的置信区间2.单样本正态总体比例的置信区间3.单样本正态总体方差的置信区间1.单样本正态总体均值的置信区间【例4-1】某小学要对各年级的学生健康状况进行评测,其中一项评测需要对五年级男生的平均体重进行估计,五年级男生体重的总体方差未知,现随机抽取20名男生的体重数据如表4-3所示。假定男生体重数据存放在数据集mylib.boy_w中,重量变量名为weight,求该校五年级男生的平均体重在95%置信水平下的置信区间。3238342835293841313338393744303639503631(1)INSIGHT模块求单样本正态总体均值的置信区间,其步骤如下:①打开数据集mylib.boy_w。②选择菜单“分析”→“分布”命令。③在“分布”对话框中选择变量weight作为分析变量填入“Y”框中。④单击“输出”按钮,打开输出结果控制对话框,在“描述性统计量”选项中选择“基本置信区间”。⑤单击“确定”按钮,返回到“分布”对话框,再次单击“确定”按钮,得到置信区间的输出结果如图4-3所示。图中显示了在95%的置信水平下,分别对均值、标准偏差和方差这3个总体参数进行参数估计的结果。估计值是对总体参数的点估计,置信下限和置信上限是对总体参数的区间估计。因此结果表明,该校五年级男生平均体重在95%置信水平下的置信区间为33.4435kg~38.4565kg。此外,在结果输出窗口中,还可以选择“表”菜单重新设置不同的置信水平。(2)用分析家模块求单样本正态总体均值的置信区间,其步骤如下:①在“分析家”模块中打开数据集mylib.boy_w。②选择菜单“统计”→“假设检验”→“均值的单样本t-检验”命令。③在“OneSamplet-testforaMean”对话框中,选择变量weight作为分析变量。④单击“tests”按钮,在对话框的“ConfidenceIntervals”选项卡中可以设置置信区间类型和置信水平。⑤单击“OK”按钮,返回到“OneSamplet-testforaMean”对话框,再次单击“OK”按钮,得到置信区间的输出结果如图4-8所示。结果表明,单样本均值的95%置信区间的下限是33.44,上限是38.46,因此该校五年级男生平均体重在95%置信水平下的置信区间为33.44kg~38.46kg。(3)用TTEST过程步求单样本正态总体均值的置信区间,程序如下:procttestdata=mylib.boy_walpha=0.05;/*alpha=0.05用于指定显著性水平为0.05*/varweight;run;2.单样本正态总体比例的置信区间【例4-2】某大学要对其1000名在校学生的月支出进行调查,随机抽取16名学生调查后结果如表4-4所示。设月支出数据存放于数据集mylib.outgo中,其中月支出变量名为exp。在95%置信水平下推断该校学生月支出在1000元以上的人占有的比例。10009601200800750150011009009509701150900135012008501250用分析家模块求单样本正态总体比例的置信区间,步骤如下:①在“分析家”模块中打开数据集mylib.

1 / 80
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功