数据统计分析初级统计及回归分析顾世梁2008.09生物统计是关于试验的设计、实施,数据的收集、整理、分析和结果推论的科学。从事试验研究,需要对处理(措施、技术)的效应给出一个明确的结论(显著与否)。推论是先对研究对象的总体提出一种假设(hypothesis),再对该假设进行测验(test)—以计算在假设总体中抽得实际样本(统计数)的概率来判断。1.1二项总体分布(0,1分布)若一个总体由0,1两种元素组成,这样的总体称0,1总体。若取1的概率为p,记为P(1)=p,则P(0)=1-p=q,p+q=1.1几种常见的分布概率计算比较复杂,生物统计中所用的概率计算主要利用变数分布进行。2(1)pppqp(1)pppq1.2二项分布(binomialdistribution)二项分布是指在μ=p的二项总体中,以样本容量n进行抽样,样本总和数k(0≤k≤n))的概率分布。2npqnpnpq()kknknPkCpq2/pqnp/pqn1.3普松分布(poissondistribution)若n很大,p很小,其np=m,二项概率分布趋于普松分布。()!kmmPkek2mmm1.4正态分布(normaldistribution)若p接近0.5,n很大,二项概率分布趋于正态分布。2221()()exp()22xfx2221()exp()22xfx210正态分布是最重要的连续性变数的分布,原因有3:1、试验研究中很多变数(性状)服从正态分布;2、一些间断性变数在一定条件下趋于正态分布;3、一些变数本身不服从正态,但其统计数(如平均数)在一定条件下(样本容量增大时)趋于正态分布。这第3点是一个很重要的性质,因为我们将来对处理效应的推断,往往是以平均数(或其它统计数)进行的。在对样本容量较大的统计数进行统计推断时,可不必考虑原变数服从何种分布,统计假设测验均可在正态分布的基础上进行。了解一个变数(或一个统计数)服从某种分布,其目标是为了计算该变数(统计数)落在某一区间的概率。P(a≤x≤b)=?ˆ()?Pab1.5学生氏t分布(tdistribution)()(),xxxuu标准正态离差服从正态分布。~(0,1)uN上述u分布在实际应用中存在问题,最主要的是无法得到σ,人们自然想到用样本标准差s代替σ计算u值,进而计算概率(假设测验)。但经抽样试验发现,这种替代是有问题的,尤其是在小样本情况下,s的变异度较大(而σ是常量)。它直接的效果是由此算出的值比u的变异度大。后经WSGosset(1908)导出了该统计数(t)的概率密度函数f(t)。1221()2()(1)(/2)tft10()xxedx00(||)2()tPttftdt~(0,1)uN222212nuuu2/2122/2()1()exp()2(/2)2f1.6卡方分布(χ2distribution)22222()(1)xxns22222~1snv2122sFs1.7F分布(Fdistribution,RAFisher,1923)112121212/2/212()/21212()2()(/2)(/2)()vFfFFv2统计假设测验2.1概念和基本步骤我们在试验过程中获得了一个或多个样本(统计数),其目的在于推断由此代表的总体(参数)。得出处理效应存在与否的定性结论。基本过程有4步:1)对未知总体(参数)提出假设H0:θ=θ0,HA:θ≠θ0;H0:μ=μ0,HA:μ≠μ0;2)设定一个否定H0假设的小概率标准(显著水平)α(α=0.05,α=0.01);3)计算在假设条件下比实得样本(统计数)还偏的概率p。4)根据p与α值的大小,接受或否定H0假设。2.2几种常用的假设测验0u0ˆˆts1212ˆ:,,,,xxxdpppˆs指的是该统计数的标准误,亦即该统计数分布的标准差。/xn121211xxnn122xxn121211xxssnn/xssn/ddssn1212::::xxxdppp00ˆppqn12ˆˆ1211()ppspqnnttest(x,m0)ttest2(x1,x1)2.3假设测验的本质1)显著性00ˆ0Aˆ||H||H,Htttstt接受否定接受ˆs的大小是决定统计数与假设参数间、统计数间差异显著性的主要因素。试验研究中应尽量减小统计数的标准误。一是减小试验误差(s);二是增大样本容量(n)。2)假设测验的错误利用概率进行测验,有些情况下会犯错误。当正确的假设被否定时,就犯了弃真错误(I型错误,α错误);当错误的假设被接受时,就犯了取伪错误(II型错误,β错误)。犯两类错误的概率不同。3方差分析方差分析是将多个样本作为一个整体,将总变异分解成相应变异来源的平方和和自由度,得到各变异来源方差的数量估计,用F测验鉴别样本间的差异显著性。分三个内容:1)分解平方和自由度,计算各变异来源的方差;其中MSe(或se)比较重要,它是测验组间效应存在与否的标准;2)F测验,F=MSt/MSe;3)多重比较,当F测验显著,应对处理平均数的差异显著性作进一步说明。3.1单向分组资料的方差分析处理观察值Tixi1x11x12…x1j…x1nT1x12x21x22…x2j…x2nT2x2………………………ixi1xi2…xij…xinTixi………………………kxk1xk2…xkj…xknTkxkxij为第i个处理的第j个观察值,i=1,2,…,k,j=1,2,…,n.DatastructureijiijxTteSSSSSSTtedfdfdf1Tdfkn22211()()knTijijxSSxxxkn2221()1()ktiiixSSnxxTnkn222111()2kneijiiijSSxxxT1tdfk(1)edfkn,teteteSSSSMSMSdfdfteMSFMS方差分析结果尽量以方差分析表表示。anova1(x)2||ijMSexxLSDtn3.2两向分组资料的方差分析A\B12…j…nTixi1x11x12…x1j…x1nT1x12x21x22…x2j…x2nT2x2………………………ixi1xi2…xij…xinTixi………………………kxk1xk2…xkj…xknTkxkT.1T.2…T.j…T.nTxxij为A因素第i个水平和B因素第j个水平组合(处理)的反应量,i=1,2,…,k;j=1,2,…,n.DatastructureijijijxTtReSSSSSSSSTtRedfdfdfdf1Tdfkn22211()()knTijijxSSxxxkn222..1()1()ktiiixSSnxxTnkneTtRSSSSSSSS1tdfk(1)(1)edfkn,teteteSSSSMSMSdfdfteMSFMSAnova2(x),或anova2(x,n)。2||ijMSexxLSDtn1Rdfn222..1()1()nRjjjxSSkxxTkkn3.3系统分组资料的方差分析xijk为第i组、第j亚组、第k个反应量,i=1,2,…,l;j=1,2,…,m;k=1,2,…,n.DatastructureijiijijkxxijkTtdeSSSSSSSSTtdedfdfdfdf1Tdflmn2221()()lmnTijkijkxSSxxxlmn22211()lijtiijiiTSSmnxxTmnneTtRSSSSSSSS1tdfl(1)edflmn,teteteSSSSMSMSdfdfteMSFMS2||ijMSexxLSDtn(1)ddflm222111()lmdijiijijTSSnxxTnlmn较复杂的系统分组资料还可能在亚组中继续再分成小亚组(小小亚组);每一组具有不同的亚组数(mi不全相同),每一亚组具有不完全相同的观察值数目(nij不全相同)。xijk为第i组,第j亚组,第k个(处理)的反应量,i=1,2,…,l;j=1,2,…,mi;k=1,2,…,nij.Ttdedfdfdfdf111imlTijijdfn1tdfl1(1)imleijijdfn1(1)ldiidfm3.4单因素完全随机试验资料的分析即单向分组资料的方差分析。3.5单因素随机区组试验资料的分析即两向分组资料的方差分析。3.6二因素随机区组试验资料的分析A因素有a个水平,B因素有b个水平,均衡搭配时有ab个处理;r个重复(r个区组),abr个观察值。方差分析分两步:TtReSSSSSSSSTtRedfdfdfdf1Tdfabr22211()()abrTijijxSSxxxabr22211()abtiiiTSSrxxTnabreTtRSSSSSSSS1tdfab(1)(1)edfabr1Rdfr22211()rRjjjTSSabxxTababr1)构建处理区组两向表,按处理区组两向分组数据模型分解平方和、自由度:ijijijx2)构建AB两向表,按AB因素两向分解平方和、自由度。tABABSSSSSSSStABABdfdfdfdf22211()aAAAkTSSbrxxTbrabrABtABSSSSSSSS1Adfa(1)(1)ABdfab1Bdfb22211()bBBBlTSSarxxTarabr()iklklkl二因素、多因素完全随机试验、随机区组试验资料的方差分析均可用anovan的命令实现。格式:anovan(x,group,model)***SSMSdf**eMSFMS2||ijMSexxLSDtneeeSSMSdfAnovan(多因素资料的方差分析)Anovan(x,group,model)三因素model=[1234567](三因素方差分析编码表)数值含义1A(主效)2B(主效)3A×B(互作)4C(主效)5A×C(互作)6B×C(互作)7A×B×C(互作)四因素方差分析编码表(model)数值含义数值含义1A(主效)9A×D2B(主效)10B×D3A×B(互作)11A×B×D4C(主效)12C×D5A×C13A×C×D6B×C14B×C×D7A×B×C15A×B×C×D8D(主效)3.7一些处理效应再分解的方差分析1)单一自由度比较;2)其他分解的一些实例。Lsh.m;cg.m.处理n平均数ABCDvsEABvsCDA42727.875T1=44625.75T1=206B424.5C428.530T2=240D431.5E42020T2=8022222121211212()()()iiiTTTTSSnxxnnnn如例8.1(水稻N肥试验),5个处理(ABCDE)具有SSt=301.2,dft=4,可将其进一步分解:ABCDvsEdf1=1,SS1=198.45;ABvsCDdf2=1,SS2=72.25AvsBdf3=1,SS3=12.5;CvsDdf4=1,SS4=18.04回归和相关分析4.1一元线性回归分析对于双变数资料的回归分析,主要有三项任务:1)建立Y依X的量化关系,即估计回归统计数和回归方程;2)估计离回