单组与配对设计定量资料的统计分析去年东北玉米的平均亩产量为382公斤,今年春季遭遇了低温天气,但是由于应对措施得当,同时采用了一系列新品种,预计平均亩产量高于去年。现调查得到20亩玉米的亩产量数据如下,试对该数据进行分析。355.73360.37400.40451.59456.86422.41397.96427.49366.74441.90343.87412.92386.14411.70422.24425.98423.54441.40351.69406.39单组设计的概念对来自同一总体的一个随机样本在一个特定条件下观测其定量指标的数值,必须提供标准值或总体平均值若定量指标只有1个,其资料就叫做单组设计一元定量资料;若定量指标有m个(m1),其资料就叫做单组设计m元定量资料单组设计的特点及应用场合实验中仅涉及一个实验因素的一个特定水平,受试对象未按任何其他实验因素或区组因素进一步被分组在定量指标有公认的标准值或理论值的问题中,若对某特定总体中受试对象相应定量指标的取值感兴趣时,可以采用此设计类型进行实验研究参数估计参数估计是用样本统计量推断总体参数,有点估计和区间估计两种点估计是用相应样本统计量直接作为其总体参数的估计值,如本例中可以算得20亩玉米亩产量的样本均数为,将其作为今年平均亩产量的估计值点估计比较简单,但未考虑抽样误差的大小37.405X区间估计按预先给定的概率1确定包含未知总体参数的一个范围,该范围叫做参数的置信区间,也称为可信区间预先给定的概率1称为置信度或可信度,一般取95%或99%置信区间通常由两个数值即置信限表示,较小者称为置信下限,较大者称为置信上限可信区间的含义总体均数95%置信区间的确切含义是指,如果能够进行重复抽样试验,平均有95%的置信区间包含了总体均数,而不是总体均数落在该范围内的可能性为95%在实际工作中,只能根据一次试验结果估计可信区间,就认为该区间包含了,该结论犯错误的概率≤可信区间估计的优劣取决两个方面:一是可信度1,即区间包含的理论概率大小,愈接近1愈好二是区间的宽度,区间愈窄愈好当样本含量为定值时,上述两者互相矛盾。若只顾提高可信度,则可信区间会变宽。在可信度确定的情况下,增加样本含量可减小区间宽度单组设计定量资料总体均数可信区间的计算样本均数的标准差称为标准误在实际工作中总体标准差常未知,用样本标准差S来估计。均数标准误估计值XnXSSn反映均数抽样误差的大小当总体标准差已知或样本含量较大时,按正态分布双侧:单侧:或或xux2xuxxuxxSux2xSuxxSux当总体标准差未知时,按t分布双侧:单侧:或自由度,可通过t界值表查得xStx,2xStx,xStx,1n,2t本例中,S=34.36,,今年玉米平均亩产量的95%可信区间为(389.30,421.44),说明该区间有95%的可能包含总体均数37.405X19120093.219,205.0t68.720SSx44.42168.7093.237.40530.38968.7093.237.405可信区间与参考值范围的区别含义不同计算公式不同用途不同假设检验由样本信息推断总体特征,除参数估计外,还会遇到这样的问题:某一样本均数是否来自于已知均数总体?两个不同样本均数是否来自均数相同的总体等?要回答这类问题,更多的是用统计推断的另一方面假设检验观测到的样本均数与总体均数间或两样本均数间差异的可能原因:总体均数不同;总体均数相同,差别由抽样造成。需要通过统计学假设检验来判断假设检验的基本思想小概率事件在一次试验中不会轻易发生的原理反证法定量资料假设检验中的定量资料指什么指结果变量的性质为定量资料,而原因变量通常仅为定性变量,有时也会有定量变量例如:为了推测教室里男生与女生的平均体重是否相等,从教室里随机抽取男生和女生各30人,还测量了他们的身高。男生(体重,kg):60635867……(身高,cm):167173159169……女生(体重,kg):62575361……(身高,cm):172163157159……参数检验与非参数检验参数检验:检验统计量的分布与样本所抽取的总体分布和总体参数有关,且总体中只有有限个未知参数如:u检验、t检验、F检验(方差分析)非参数检验:检验统计量的分布与样本所抽取的总体分布或总体参数无关如:秩和检验定量资料假设检验的关键点其一、检查定量资料是否具备参数检验的前提条件其二、正确判定定量资料所对应的实验设计类型单组设计定量资料参数检验的前提条件独立性:根据专业知识判定正态性:进行正态性检验正确判定定量资料所对应的实验设计类型一定要弄清单因素与多因素的区别应熟悉各种标准的多因素设计不要被多因素非平衡组合实验所迷惑单组设计定量资料的检验方法参数检验:t检验、u检验非参数检验:符号秩检验假设检验的步骤第一步,建立假设,确定检验水准H0:μ=μ0=382(今年的平均亩产量与去年相同)H1:μ≠μ0(今年的平均亩产量与去年不同)=0.05H0零假设(又称无效假设、原假设)H1备择假设(又称对立假设)检验水准,显著性水准,犯Ⅰ类错误的概率双侧检验:H0:μ=μ0,H1:μ≠μ0单侧检验:H0:μ=μ0,H1:μ<μ0H0:μ=μ0,H1:μ>μ0根据专业知识,确定用单侧或是双侧检验。没有特殊专业知识说明的情况下,一般用双侧检验双侧检验较保守和稳妥,单侧检验更容易得出阳性结论第二步,计算检验统计量根据变量和资料类型、设计方案、统计推断的目的、方法的适用条件等选择相应的检验方法和检验统计量本例中数据经检验服从正态分布,故可算得1/00nnSXSXtX1912004.368.738237.405t第三步,根据求得的t值和自由度去查t分布表,获得对应的概率,也就是P值本例中查表得0.005P0.01,也可以通过统计软件得到P=0.0067P值的含义是指从H0规定的总体随机抽样,其检验统计量等于及大于(或/和等于及小于)现有样本获得的检验统计量值的概率第四步,先给出统计学结论,再结合专业知识给出专业结论因P0.05,故拒绝H0,接受H1,今年的平均亩产量与去年平均亩产量之间的差异有统计学意义因为405.37382,说明今年的平均亩产量高于去年两类错误假设检验是根据样本的信息并依据小概率原理,作出接受还是拒绝H0的判断。由于样本具有随机性,因而假设检验所作出的结论有可能是错误的.这种错误有两类:(1)当原假设H0为真,观察值却落入拒绝域,而作出了拒绝H0的判断,称做第一类错误,又叫弃真错误。犯第一类错误的概率是显著性水平(2)当原假设H0不真,却作出了接受H0的判断,称做第二类错误,又叫取伪错误。犯第二类错误的概率记为表1可能发生的两类错误假设检验的结果客观实际拒绝H0不拒绝H0H0成立I型错误()推断正确(1)H0不成立即H1成立推断正确(1)II型错误()当样本容量n一定时,愈小,愈大;愈大,愈小若要使犯两类错误的概率都减小,除非增加样本容量1称检验效能,也称把握度。为当两总体确有差异,按检验水准所能发现该差异的能力拒绝H0,只可能犯I型错误,不可能犯II型错误;不拒绝H0,只可能犯II型错误,不可能犯I型错误u检验又称Z检验,适用于样本量较大(n60)或总体标准差已知时(已知时)(n较大时)nXXuX00nSXSXuX00dataa1;inputx@@;cards;355.73360.37400.40451.59456.86422.41397.96427.49366.74441.90343.87412.92386.14411.70422.24425.98423.54441.40351.69406.39;run;procunivariatedata=a1mu0=382normalcibasic;varx;run;基本置信限正态假设参数估计值95%置信限均值405.36600389.28488421.44712标准差34.3603226.1306950.18570方差1181682.813022519位置检验:Mu0=382检验统计量P值学生tt3.041181Pr|t|0.0067符号M5Pr=|M|0.0414符号秩S71Pr=|S|0.0064正态性检验检验统计量P值Shapiro-WilkW0.936715PrW0.2077Kolmogorov-SmirnovD0.138319PrD0.1500Cramer-vonMisesW-Sq0.078317PrW-Sq0.2131Anderson-DarlingA-Sq0.483911PrA-Sq0.2118单组设计定量资料的符号秩检验非参数检验的适用场合:非正态分布或方差不齐的资料等级资料一端或两端有不确定数值(如10.0、0.1等)的资料分布不明的资料假定非吸烟男子的牙菌斑指数约为1.23,某研究者现测得20位吸烟男子的牙菌斑指数分别为:1.67,1.48,1.20,1.25,1.28,1.21,0.90,1.20,2.10,1.65,1.88,0.90,1.05,2.56,1.20,0.95,0.87,2.52,2.34,2.69请问:吸烟男子的牙菌斑指数与1.23的差别有无统计学意义?本例经采用W检验法检验,得W=0.877721,P=0.0161,因P0.05,可以认为此资料不服从正态分布,故宜选用单组设计定量资料的符号秩检验进行统计分析符号秩检验的具体步骤第一步,建立假设,确定检验水准H0:M=M0=1.23(吸烟男子牙菌斑指数的中位数与1.23相同)H1:M≠M0(吸烟男子牙菌斑指数的中位数与1.23不同)=0.05M代表与样本观测值所对应的总体中相应指标的中位数,而M0则是与观测指标对应的理论中位数或标准值第二步,求差值d=xiM0。说明:xi为第i个样本观测值第三步,编秩。依差值的绝对值从小到大编秩。编秩时遇差数等于零,舍去不计,同时样本例数减1;遇绝对值相等差数,符号相同顺序编秩,符号相反取平均秩次,再给秩次冠以原差值的正负号20个差值及其对应的秩依次为:0.44(14),0.25(8),-0.03(-3),0.02(1.5),0.05(6),-0.02(-1.5),-0.33(-10),-0.03(-4),0.87(16),0.42(13),0.65(15),-0.33(-11),-0.18(-7),1.33(19),-0.03(-5),-0.28(-9),-0.36(-12),1.29(18),1.11(17),1.46(20)第四步,求秩和并确定检验统计量:分别求出正负秩次之和,正秩和以T+表示,负秩和的绝对值以T-表示。T+与T-之和等于n(n+1)/2,即1+2+3+…+n之和。此式可验算T+与T-的计算是否正确。任取T+或T-作为检验统计量本例中T+=14+8+1.5+6+16+13+15+19+18+17+20=147.5T-=|-3-1.5-10-4-11-7-5-9-12|=62.5,T++T-=147.5+62.5=210,n=20,取T=T+=147.5第五步,确定P值,并作出统计推断结论。当n≤50时,可查T界值表。查表时,自左侧找到n,用T值与相邻一栏的界值相比,若检验统计量T值在上、下界值范围内,其P值大于表上方相应的概率水平;若T值在上、下界值上或范围外,则P值小于相应的概率水平,可向右移一栏,再与界值相比查T界值表,得双侧P0.10,按双侧检验水准接受H0,即吸烟男子的牙菌斑指数与1.23的差别无统计学意义,认为吸烟男子的牙菌斑指数约为1.23dataa2;inputx@@