数理统计在化学中的应用Chapter12卡方检验卡方检验也是一种非参数检验(复习)非参数统计是一种不要求变量值为某种特定分布和不依赖某种特定理论的统计方法,或者是在不了解总体分布及其全部参数的情况下的统计方法。非参数统计方法开始于20世纪中期,早期的符号检验可以追溯到18世纪。实际工作中,有许多资料常不能确定或假设其总体变量值的分布,因此参数统计不宜使用,不知道总分布,就不能比较参数,而只能比较非参数。所谓非参数,即指数据的正负符号,大小顺序号,综合判断所划分的名次、严重程度、优劣等级等,利用直接说明或比较两个或几个样本的非参数的方法均属于非参数统计法。参数检验和非参数检验参数检验:指总体分布服从正态分布或总体分布已知条下的统计检验。非参数检验:指总体分布不要求服从正态分布或总体分布情况不明时,用来检验数据资料是否来自同一个总体的统计检验方法。通常非参数统计方法适用于以下几种情况未知分布型,或样本数太少(n6)而使得分布状况尚未显示出来非参数性,只能以严重程度、优劣等级、效果大小、名次先后以及综合判断等方式记录其符号或等级分布程度偏态组内个别随机变量偏离过大。非参数检验的优点和缺点:优点:a.不受总体分布的限制,适用范围广。b.适宜定量模糊的变量和等级变量。c.方法简便易学。缺点:当测量的数据能够满足参数统计的所有假设时,非参数检验方法虽然也可以使用,但效果远不如参数检验方法。由于当数据满足假设条件时,参数统计检验方法能够从其中广泛地充分地提取有关信息。非参数统计检验方法对数据的限制较为宽松,只能从中提取一般的信息,相对参数统计检验方法会浪费一些信息。Pearson’sX2(chi-square)test(拟合检验)I:概论卡方检验:可以用来比较称名变量(范畴型或是-非型的)的次数或频率的分布是否存在显著性的差异。如冠词,介词,连词等在某文本中出现的次数,并比较次数的分布是否存在显著性差异。(注意:在计算X2时,只能用次数(20),不能用比例(20%或0.2,教材P153)没有严格的使用条件,只要样本为随机样本即可。如果检验的参数是一个特定值,比如产品的不合格率,由于产品的合格与不合格问题属于二项式分布,此时还可以用:22222()()[(1)]=(1)()=(1)(1)YnpYnpnYnpnpnpnpYnpvnppX观察值np:观察值的期望值第一节:卡方分布正偏态分布,形状取决于自由度的大小:自由度越小,偏斜度越大,随着自由度的增大,它逐渐接近正态分布,当自由度趋于无限大时,它就与正态分布相同。(P152,fromourtextbook)第二节:卡方检验用途:比较称名变量的次数,具体来讲,就是比较实际次数与期望次数(或理论次数)(见下页)之间是否有相助差异。或需要研究的对象或者实验的结果是否与预期的原假设之间有显著性的差异,也就是检验观察值与理论值之间的紧密程度。X2拟合检验就是用来确定事件出现的频数分布与某一理论分布之间的差别是否是随机性的。X2定义:221()(1)mkkkkOTvmTX理论频数的期望值实测值或观察值频数m2221()mkkx2221(0.5)kkkkOTTX试验结果只有两个,且频数较小期望次数是根据某种理论模式,或根据某种特征的分布所作的假设而期望得到或应该得到的次数。实际次数就是观测次数。计算卡方时,只能用次数,不能用比例。一般是双尾检验。如果需要,也能进行单尾检验,只要把双位检验的想著水平减半即可。(fromPP152~153,ourtextbook)第三节:卡方检验的用途适合性检验正态性检验独立性检验一、适合性检验适合性检验为单样本卡方检验,它只是记一个变量,但数据要分成若干相互排斥的组和范畴。其目的是检验时间次数与期望次数是否吻合。见教材P153ki12理论频数理论频数)(实测频数2统计量kiiiinpnpn122)(实质是(Fromothersources)1.适合性检验适合性检验是用样本提供的信息去推断总体分布是否适合某种已知的规律。例4某地区1993年新生婴儿1284个,其中男婴692个,试问婴儿的性别比是否正常?(=0.01)解检验假设为H0:男:女=1:1,H1:男:女≠1:1当H0为真时,有7882.7642)642592(642)642692(22212i理论频数理论频数)(实测频数2635.6)1()1(201.02k)1(22k选讲内容:1.适合性检验对于=0.01,查表得临界值由于所以拒绝H0,即认为该地区1993年新生婴儿性别的比例失调。3125.10613399189Av例5按孟德尔遗传学说,将两种豌豆杂交后,可产出数量之比为9:3:3:1的A、B、C、D四种不同的种子。今在一试验中共收了189粒种子,A、B、C、D各类型的分别为102粒、30粒、42粒和5粒。问在=0.01下,该结果是否符合孟德尔遗传学说的结果?选讲内容:1.适合性检验解检验假设为H0:A:B:C:D=9:3:3:1,即试验结果适合孟德尔学说实测频数为102,30,42和15,且当H0成立时理论频数为同样可计算出B、C、D型种子的理论频数依次为vB=35.4375,vC=35.4375,vD=11.8125.3125.106)3125.106102()(24122i理论频数理论频数实测频数0846.38125.11)8125.1115(4375.35)4375.3542(4375.35)4375.3530(222345.11)3()1(201.02k)1(201.02k由=0.01得临界值由于于是有故接受H0,即认为试验结果与孟德尔学说的结果相符合。选讲内容:1.适合性检验X2拟合检验的步骤1.把观察到的不同类别的频数分别归入k类,这些频数之和应是独立观察到总频数之和。2.假设H0,即确定出每一类应有的期望数Tk(或np)。如k2,只要有20%的Tk(或np)5,就要合并相邻精度类别以减少k值,以此来增加某些Tk值。如k=2,只有当Tk都5时,才能应用式5-1来进行X2检验,否则就需要应用修正式来检验。1.计算X2。2.根据给定的置信概率,查X2分布表,如果计算值小于表值,则接受H0,反之则拒绝。例一试剂公司按现行生产工艺生产的化学试剂,其优品率要占到10%。现从一批产品中抽取100个进行检验,结果发现优级品仅5个。问是否优级品率出现了下降的变化(=0.05)?222222()(51000.1)[951000.9]=1000.11000.9()(51000.1)2.781000.10.9(1)YnpnpYnpnppX20.05,1CHIINV(0.05,1)3.84X因为X2X20.05,1,所以优级品率没有出现下降的变化。II:符号检验1符号检验检验不知道分布类型的数据根据统计资料的符号,可以简便地来检验两组成对的数据是否属于同一总体。两个样本既可以是互相独立,也可以是相关的,也就是说既可检验两总体是否存在显著差异,也可检验是否来自同一总体。思想:若两个样本差异不显著,正差值与负差值的个数应大致各占一半。假定P(XY),则如果X与Y属于同一总体的话,P(XY)=0.52符号检验的步骤1.编符号:一对一比较,如果前者大于后者,或者前者较优,记以符号”+”,否则记以”-”,如二者相等或不能判明优劣,就记为”0”。2.建立假设:H0:P(X1X2)=P(X2X1)=0.5H1:P(X1X2)≠P(X2X1)≠0.53.清点“+”、“-”、“0”各有几个,分别记为n+、n-、n04.进行显著性检验1.查符号检验表(表中N=n++n-):r=min(n+,n-),查表,如r表值,差异不显著,r表值,差异显著。(讲义附录的表是错的)$5.3.2符号检验的步骤2.2检验:如22/2,1,接受H0,否则拒绝H0。3.N25:Z-检验,查t检验表(双侧),如|Z|z/2,接受H0,否则拒绝H0。22(||1)(1)nnvnn/2,0.5(0.5)/2/2,0.5/2rNrrNZrNrNrnn或$5.3.2符号检验的步骤4.X2检验:如X22/2,v,接受H0,否则拒绝H0。在样本数比较小的情况下,查符合检验表检验并不是很灵敏。221()(1)mkkkkOTvmTX2221(0.5)=1kkkkOTvTX二、正态检验第五章学过的正态检验有哪些?1.绘制直方图或多边图;2.比较理论分布与实际分布中各标准差之间的面积或概率;3.计算数据分布的偏态之和峰值(通过计算公式);4.比较算术平均数众数和中数(三数据完全相同)。用卡方检验进行正态性检验其实也是一种适合性检验,即检验实际次数分布与期望次数分布是否有显著性差异。期望次数计算步逐详见教材P155。三、列联表的独立性检验独立性检验就是检验两个特征或两个分类标准是互相独立还是互相有联系的,用于独立性检验的数据一般整理成“列联表”的形式,即一个分类标准把数据分成若干列,另一个分类标准把数据分成若干行行列交叉形成一个个方格,每一行和每一列都有一个总计,书写在一行或一列的末尾,称为“边际总和”。所有边际总和加起来就是全部数据的个数或样本容量。详见教材P158.独立性检验是对两个总体,或两组资料,或一总体的两种指标(分类、特性、特征)等之间的独立性所进行的检验。因此,若设X和Y是两个总体(或一个总体的两个指标),则其假设应为:H0:两总体X与Y相互独立将X和Y的可能的取值范围分成互不相交的r个组和s个组:A1,A2,…,Ar和B1,B2,…,Bs.在总体(X,Y)中随机抽取样本(x1,y1),(x2,y2),…,(xn,yn).记Ai与Bj的每一个搭配(Ai,Bj)所包括的样本个数为cij(i=1,2,…,r;j=1,2,…,s),cij即为实测频数且risjijcn11),,2,1;,,2,1(sjrincpijji由cij构成r×s列联表。(X,Y)落入(Ai,Bj)概率的估计值为jiijppp..ˆˆˆ),,2,1;,,2,1(ˆˆˆ..sjrippnpnvjiijijrisjrisjjijiijijijijppnppncvvc1111....22ˆˆ)ˆˆ()())1)(1((2sr。不独立与认为,时拒绝当YXHsrχχα022))1)(1((当H0成立时,则有于是理论频数的估计值为根据皮尔逊准则,对于给定的,查表得临界值选讲内容:2.列联表的独立性检验