4生物统计

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

西南科技大学生命科学与工程学院周海廷制作1第四章统计推断西南科技大学生命科学与工程学院周海廷制作2上章主要讨论了从总体到样本的关系,本章将讨论逆命题—从样本到总体的问题,即统计推断问题。所谓统计推断(statisticalinference),就是根据抽样分布律和概率理论,由样本结果(统计数)来推论总体特征(参数)。西南科技大学生命科学与工程学院周海廷制作3统计推断的基本内容,包括统计假设测验(hypothesistest)和参数估计(parametricestimate)两个方面。西南科技大学生命科学与工程学院周海廷制作4统计假设测验是指根据于某种实际需要,对未知的或不完全知道的统计总体提出一些假设;然后由样本的实际结果,经过一定的计算,作出在概率意义上应当接受那种假设的测验。参数估计是指由样本结果对总体参数作出点估计(pointestimate)或者区间估计(intervalestimate)。西南科技大学生命科学与工程学院周海廷制作54.1统计假设测验的基本原理4.1.1统计假设4.1.2统计假设测验的基本方法4.1.3两尾测验与一尾测验4.1.4统计假设的两类错误西南科技大学生命科学与工程学院周海廷制作64.1.1统计假设由于总体多是无限的(尤其是自然科学),往往需要用样本推断总体,因此首先需要提出一个有关其总体参数的假设。例如假设某小麦新品种的产量和原地方品种的产量一样,或者比旧地方品种好。这种假设称为统计假设(statisticalhypothesis)。下面是一些统计假设的例子:西南科技大学生命科学与工程学院周海廷制作7一、单个平均数的假设一个样本是从具有平均数μ0的总体中随机抽出的,记作H0:μ=μ0。例如:1、某一小麦品种的产量具有原地方品种的产量,这指新品种的产量表现乃原地方品种产量表现的一个随机样本,其平均产量μ等于某一指定值μ0,故记为H0:μ=μ02、某一棉花品种的纤维长度(μ)具有工业上某一指定标准(C),可记为H0:μ=C西南科技大学生命科学与工程学院周海廷制作8二、两个样本平均数比较的假设两个样本乃从两个具有相同参数的总体中随机抽出的,记为H0:μ1=μ2或H0:μ1-μ2=0例如:(1)两个小麦品种的产量是相同的。(2)两种杀虫剂对于某种害虫的药效是相等的。西南科技大学生命科学与工程学院周海廷制作9上述假设称为无效假设(nullhypothesis)。因为假设总体参数(平均数)与某一指定值相等或假设两个总体参数相等,即假设没有效应差异,或者说实得差异是由抽样误差造成的。西南科技大学生命科学与工程学院周海廷制作10备择假设(alternativehypothesis),和无效假设相对应的一个假设,也称为对应假设。记作HA:μ≠μ0或HA:μ1≠μ2。意思是说,如果否定了无效假设,则必须接受备择假设,反之亦然。这些统计假设构成了完全事件系。西南科技大学生命科学与工程学院周海廷制作11三、统计假设测验的基本思想设某地区的当地小麦品种一般667m2产300kg,即当地品种这个总体的平均数为μ0=300(kg),并从多年种植结果获得其方差σ2=(75)2kg。若从这一总体中随机抽取n个个体构成样本,则样本观察值可表示为:yi=μ0+εi(i=1,2,…,n)西南科技大学生命科学与工程学院周海廷制作12现有某新品种通过25个小区的试验,计算其样本平均产量为每667m2330kg。新品种的样本观察值可表示为:yi=μ+εi(i=1,2,…,n)式中μ为新品种的总体平均数。新品种与地方品种的差异(品种效应)用τ表示,则τ=μ-μ0西南科技大学生命科学与工程学院周海廷制作13代入上式得:yi=μ0+τ+εi(i=1,2,…,n)对yi求平均数,并将式子稍作变形得:_yi-μ0=τ+0y为表型效应,在本例中,303003300yiτ为处理效应,为误差效应。西南科技大学生命科学与工程学院周海廷制作14由于处理效应τ=μ-μ0无法计算,统计推断只能从第(2)种可能性出发,即假设处理效应不存在,试验表型效应全为试验误差。(1)处理效应与误差效应;(2)全为试验误差。_yi-μ0=τ+从式可知表型效应的构成有二种可能性西南科技大学生命科学与工程学院周海廷制作15然后再计算该假设出现的概率,最后依概率的大小判断假设是否成立,从而推断处理效应是否存在(反证法)。这就是统计假设测验的基本思想。西南科技大学生命科学与工程学院周海廷制作164.1.2统计假设测验的基本方法设某地区的当地小麦品种一般667m2产300kg,即当地品种这个总体的平均数μ0=300(kg),并从多年种植结果获得其标准差=75(kg),而现有某新品种通过25个小区的试验,计算其样本平均产量为每667m2产330kg,即=330,那么新品种样本所属总体与μ0=300的当地品种这个总体是否有显著差异呢?_y西南科技大学生命科学与工程学院周海廷制作17一、对所研究的总体首先提出一个无效假设H0:μ=μ0或:H0:μ=300即新品种与老品种之间不存在真实的差异,样本平均数二、在承认上述无效假设的前提下,获得平均数的抽样分布,计算假设正确的概率对应假设为:HA:μ≠μ0_y与μ0之间的差数:330-300=30(kg)属随机误差。西南科技大学生命科学与工程学院周海廷制作18在H0:μ=μ0前提下,就可以得到从已知总体(原地方品种),以样本容量n=25抽样的样本平均数的抽样分布服从N(300,752/25)。知道了概率分布,就可以计算出330-300=30(kg)属于随机误差造成的概率值有多大。215300330__yyu西南科技大学生命科学与工程学院周海廷制作19查附表3,当u=2时,P(概率)界于0.04和0.05之间,即这一试验结果:_y-μ0=30(kg)属于抽样误差所致的概率小于5%。三、根据“小概率事件实际上不可能发生”原理接受或否定无效假设西南科技大学生命科学与工程学院周海廷制作20用来测验假设的概率标准5%或1%等,称为显著水平(significancelevel),一般以α表示。α=0.05为显著,α=0.01为极显著_y当一事件的概率很小时,可认为该事件在一次试验中几乎是不可能发生的事件。故当-μ由随机误差造成的概率小于5%或1%时,我们就可认为它不可能属于抽样误差,从而否定假设。西南科技大学生命科学与工程学院周海廷制作21综合上述,统计假设测验的步骤为:对样本所属的总体提出统计假设,包括无效和备择假设。规定测验的显著水平α值。在H0为正确的前提下,根据平均数或其它统计数的抽样分布,计算误差出现的概率。将规定的α值与算得的概率值相比,从而作出接受或否定无效假设的推断。西南科技大学生命科学与工程学院周海廷制作224.1.3两尾测验与一尾测验在提出一个统计假设时,必有一个相对应的备择假设。例如上述单个平均数测验,若H0:μ=μ0,则备择假设为HA:μ≠μ0。后者即指该新品种的总体平均产量不是300kg,这包括大于300kg和小于300kg两种可能性。西南科技大学生命科学与工程学院周海廷制作23因而在假设测验时所考虑的概率为正态曲线左边一尾概率(小于300kg)和右边一尾概率(大于300kg)的总和。这类测验称为两尾测验(two-tailedtest),它具有两个否定区域。西南科技大学生命科学与工程学院周海廷制作24两尾测验示意图0.000.010.02285300270255y0.03315330345fN(y)接受区域95%否定区域2.5%否定区域2.5%270.6329.4西南科技大学生命科学与工程学院周海廷制作25但在某些情况一下,两尾测验不一定符合实际需要。例如,某型计算机的寿命(使用时数)规定为≥μ0。如果进行抽样_y测验,则在>μ0时,都不需要否定H0;但如果_y<μ0,即可能是一批不合格产品。因此,测验的假设应为H0:μ≥μ0(产品合格)对HA:μ<μ0(产品不合格)。这样否定区在左尾。西南科技大学生命科学与工程学院周海廷制作26_y反之,如果<μ0是不需要否定H0的(如农产品中有毒物质的含量),而_y>μ0却可能有严重后果,则所作假设应为:H0:μ≤μ0对HA:μ>μ0。这时否定区就只有右尾。西南科技大学生命科学与工程学院周海廷制作27μ0_y接受区α=0.05否定区μ0_y左尾测验否定区α=0.05接受区右尾测验0.950.95西南科技大学生命科学与工程学院周海廷制作284.1.4统计假设的两类错误统计假设测验是根据一定的概率标准对总体特征作出推断。否定了H0,并不等于已证明H0不真实;接受了H0,也不等于已证明H0是真实的。如果H0是的,我们通过测验却否定了它,就犯了一个否定真实假设的错误。这叫第一类错误(firstkinderror)或I型错误。由于规定了显著水平α值,就注定要犯错误,故I型错误又称为α错误。西南科技大学生命科学与工程学院周海廷制作29如果H0是错误的,我们通过测验没有发现其不真实而接受了它,即犯了一个接受不真实的H0的错误。这叫第二类错误(secondkinderror)或II型错误。由于犯这类错误的概率通常用β表示,故又称其为β错误。现以P79上的例子说明β值的计算。83.00015.08315.0)96.2()96.0(96.0153154.32996.2153156.27021uPuPuu西南科技大学生命科学与工程学院周海廷制作30μβ=83%c1c2255270285300315330345360μ0270.6329.4西南科技大学生命科学与工程学院周海廷制作31329.4c1c2255270285300315330345360μ0375390μ15%西南科技大学生命科学与工程学院周海廷制作32255270285300315330345360μ0μ西南科技大学生命科学与工程学院周海廷制作33两类错误的要点:1、在样本容量n固定的条件下,提高显著水平α的值,将增大犯β错误的概率。2、在n和显著水平α相同的条件下,真总体平均数μ和假设平均数μ0相差愈大,则犯第二类错误的概率β愈小。3、为了降低犯两类错误的概率,需要采用一个较低的显著水平,如α=0.05;同时适当增加样本容量,或适当减小总体方差,或两者兼有之。4、如果显著水平α已经确定,则改进试验技术和增加样本容量,可以有效地降低犯第二类错误的概率。西南科技大学生命科学与工程学院周海廷制作344.2平均数的假设测验4.2.1t分布4.2.2单个样本平均数的假设测验4.2.3两个样本平均数的假设测验西南科技大学生命科学与工程学院周海廷制作354.2.1t分布当样本容量不太大(n30)而σ2为未知时,在第四章已述及,从一个N(μ,σ2)中抽样,或者在一个非正态总体里抽样只要样本容量足够大,则所得一系列样本平均数_y的分布必趋向正态分布,具有N(μ,σ2/n)。西南科技大学生命科学与工程学院周海廷制作36如以样本均方s2估计σ2,则其标准化离差_)(_ysy的分布不呈正态分布,而作t分布:__ysytnssy_西南科技大学生命科学与工程学院周海廷制作37t-分布(t-distribution)是1908年W.S.Gosset首先提出的,又叫学生氏分布(studenttdistribution)。它是一组对称密度函数曲线,具有一个单独参数ν以确定某一特定分布。ν是自由度。当ν增大时,t-分布趋向于正态分布。t-分布的密度函数为:)21(2)1(!2/)2(!2/)1()(ttf西南科技大学生命科学与工程学院周海廷制作380.000.100.150.200.2502-2-440.300.350.400.45正态分布t分布(ν=4)标准化正态分布与自由度为4的t分布曲线西南科技大学生命科学与工程学院周海廷制作39西南科技大学生命科学与工程学院周海廷制作40和正态概率累积函数一样,t分布的概率累积函数也分一尾和两尾表。一尾表为t到∞的面积,两尾

1 / 88
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功