1第四讲带参数的分类数据的检验一、引例根据性别和色盲状态把人分为四类:男性正常,女性正常,男性色盲,女性色盲。根据遗传学理论,这四类人的比例分别为2,22(1),(1)2,2(1)2,其中01。随机调查1000人,男性正常,女性正常,男性色盲,女性色盲这四类人各有442,514,38,6人。问调查数据是否与理论模型相符?分析:(1)总体为所有人,按性别和色盲状态分为四类:1A—男性正常,2A—女性正常,3A—男性色盲,4A—女性色盲;(2)每类人的比率(概率)分别为:12p,2222(1)2p,3(1)2122p,224(1)2122p;每类人的比率1p,2p,3p,4p都依赖于未知参数;(3)根据理论或经验提出假设:11()pp,22()pp,33()pp,44()pp;(4)做试验获得观察数据色盲状态正常色盲性别男44238女5146(5)根据观察数据检验如下假设:20H:12p,222p,3122p,24122p若接受0H,说明调查数据符合理论模型;若拒绝0H,说明调查数据不符合理论模型。二、带参数的分类数据检验问题的统计模型(一)问题的一般提法1、总体分布设总体根据某项指标分为n类,记为12,,,rAAA,各类所占的比例记为11211(,,),(,,),,(,,)mmrmppp,其中1,,m为未知参数,且1(,,)0imp,11(,,)1rimip。也即总体分布为:总体类别1A2ArA比例11(,,)mp21(,,)mp1(,,)rmp2、假设检验根据理论,或从经验出发提出一个原假设:01:(,,)iimHpp,1,2,,ir(*)其中1(,,)imp的表达式已知,1,2,,ir已知,且11(,,)1rimip。3、研究内容对该总体独立重复观察n个个体,记n个个体中,属于iA的观察个数为in,1,2,,ir,其中1riinn,基于观察值in,1,2,,ir对原假设(*)进行检验。3(二)检验方法1、带参数分类数据的2检验(1)在0H成立时,先求未知参数1,,m的最大似然估计1ˆˆ,,m0H成立时,随机向量12111(,,,)~,(,,),,(,,)rmrmnnnMnpp,12(,,,)rnnn的联合分布列为:1211112!(,,,;,,)[(,,)]!!!irnrmimirnpnnnpnnn也即样本12(,,,)rnnn的似然函数为:1121112!(,,;,,,)[(,,)]!!!irnmrimirnLnnnpnnn基于似然函数求出1,,m的最大似然估计1ˆˆ,,m;注:具体求解方法依赖于函数1(,,)imp的具体表达式。(2)由最大似然估计的变换不变性求出12,,,rppp的最大似然估计1112211ˆˆˆˆˆˆˆˆˆ(,,),(,,),,(,,)mmrrmpppppp;(3)检验统计量221ˆ()ˆriiiinnpnp(4)统计量的渐进分布若0H成立,当n时,2221ˆ()(1)ˆrFiiiinnprmnp(5)拒绝域(给定检验水平,一般取0.1,0.05,0.01)221{(1)}Wrm若2W,则在检验水平下拒绝0H;4若2W,则在检验水平下接受0H;(6)检验p值(给定检验水平,一般取0.1,0.05,0.01)22(1)pPrm若p,则在检验水平下拒绝0H;若p,则在检验水平下接受0H;2、似然比检验检验问题(*)的似然比12121121112,,,1212,,,(,,),(,,),,(,,);,,,(,,,;,,,)mrmmrmrrrpppSupLpppnnnSupLpppnnn12121,,,1,,,1[(,,)]imirrnimirnipppiSuppSupp(1)同带参数分类数据的2检验的(1),求出1,,m的最大似然估计1ˆˆ,,m;(2)同带参数分类数据的2检验的(2),求出12,,,rppp的最大似然估计1112211ˆˆˆˆˆˆˆˆˆ(,,),(,,),,(,,)mmrrmpppppp;(3)1211,,,11ˆˆ[(,,)][(,,)]iimrrnnimimiiSuppp1212ˆˆˆrnnnrppp12121,,,111,,,11ˆ[(,,)]ˆiiimiirrrnnnimiriiirrnniiiipppiiSuppppnnSuppnn(4)检验统计量51ˆ2ln()2lnriiiipnnn(5)统计量的渐进分布若0H成立,当n时,21ˆ2ln()2ln(1)rFiiiipnrmnn(6)拒绝域(给定检验水平,一般取0.1,0.05,0.01)21{2ln()(1)}Wrm若2ln()W,则在检验水平下拒绝0H;若2ln()W,则在检验水平下接受0H;(7)检验p值(给定检验水平,一般取0.1,0.05,0.01)2(1)2ln()pPrm若p,则在检验水平下拒绝0H;若p,则在检验水平下接受0H;三、引例分析(1)记号1A—男性正常,2A—女性正常,3A—男性色盲,4A—女性色盲;11()pPA,22()pPA,33()pPA,44()pPA;1n:正常男性人数,2n:正常女性人数,3n:男性色盲人数,4n:女性色盲人数;(2)观察数据1442n,2514n,338n,46n,12341000nnnnn;6(3)原假设0H:12p,222p,3122p,24122p(4)的最大似然估计似然函数:4123411234!(;,,,)[()]!!!!iniinLnnnnpnnnn514644238221000!22122122442!514!38!6!对数似然函数12341234(;,,,)ln(;,,,)lnnnnLnnnn221000!ln442ln2514ln238ln1226ln122442!514!38!6!令1234(;,,,)0lnnnn即4421028(1)38120(2)11整理得21520348219120234823482415201912ˆ21520ˆ1.3779(舍去)ˆ0.9129(5)1234,,,pppp的最大似然估计1ˆˆ20.4565p,22ˆˆˆ20.4962p,3ˆˆ1220.04355p,24ˆˆˆ1220.003793p7(6)2检验类别ˆipinˆinp2ˆ()ˆiiinnpnpA10.4565442456.50.46057A20.4962514496.20.638533A30.043553843.550.70729A40.00379363.7931.284168合计1.00004310001000.0433.090560812参数个数m1自由度1rm223.0905608p值0.2132521p值为0.2132521,表明不能拒绝0H,即认为调查数据符合理论模型。(7)似然比检验类别ˆipininnˆiipnnˆ2lniiipnnnA10.45654420.4421.03280543-28.53447507A20.49625140.5140.9653696536.23103163A30.04355380.0381.146052632-10.36058931A40.00379360.0060.6321666675.503226478合计1.000043100013.7763943782.839193727参数个数m1自由度1rm22ln()2.839193727p值0.24181148p值为0.24181148,表明不能拒绝0H,即认为调查数据符合理论模型。