1假设检验16.4拟合优度检验卡方检验设总体服从离散分布kkpppxxxX2121~,进行n次独立的观测,k个取值出现的频次分别为1,,inik,则21kiiiinnpXnp近似服从12k。这一结果是20世纪初著名统计学家皮尔森(Pearson)发现的结果,用这一结果可以构造观测数据与假设离散分布的拟合程度,该方法称为皮尔森的卡方(2)检验。**********************************************************例16.4.1卢瑟福和盖革在1910年观察了放射性物质放出粒子的个数的情况,共观察2608n次,每次观察间隔7.5秒,记录到达指定区域的粒子数,共记录下10094个粒子,kn表示恰好记录到k个粒子的观察次数。01234567891057203383525532408273139452716ˆ54211407525508394254140682917kkknnp现在希望检验这组数据是否来自于泊松分布。解:设1次观察中出现的粒子数为随机变量X,共有2608次观测,所以1个粒子落入该次观察的概率是12608,共记录下10094个粒子,~,1100942608XB根据泊松定理,ˆ~XP,其中10094ˆ3.872608泊松分布随机变量不同取值的概率29ˆ100ˆˆˆˆ0,1,,9,1!iiiipeippi计算这组观测数据下卡方检验统计量的取值,2100ˆ12.88ˆiiiiNNpYNp,2~10Y,p值12.880.236pPY,因此可以接受这组数据来自于参数ˆ的分布。**********************************************************例16.4.2为检验骰子的均匀性,甲乙两人分别进行试验。甲掷60次,结果出现1—6点的次数分别为:7,6,12,14,5,16;相应的频率依次为:0.117,0.100,0.200,0.233,0.083,0.267;乙掷了9,000,000次,结果出现1—6点的次数分别为:1500300,1502100,1503000,1498500,1496700,1499400;相应的频率依次为:0.1667,0.1669,0.1670,0.1665,0.1663,0.1666。试判断甲、乙所用骰子是否均匀。解在骰子均匀的假设下,设掷一次所的点数为随机变量X,其概率分布为16iPXip,,,,126i。甲掷骰子的试验进行了60次,所以此时60n,10inp,,,,,,123456i,投掷结果的卡方统计量取值为2611iiiinnpYnp2222227106101210141051016108.61021~5Y,p值18.60.1pPY,可以接受均匀假设。3乙掷筛子的试验进行了9,000,000次,所以此时9000000n,1500000inp,,,16k,投掷结果的卡方统计量取值为262116.07iiiinnpYnp22~5Y,p值216.070.01pP,拒绝均匀假设。思考:甲掷筛子所得各点数的频率与理想值16有较明显的差异,而乙掷筛子所得各点数的频率都非常接近理想值16,为什么甲的结果能够通过均匀假设,而乙的结果却反而不能?**********************************************************独立性检验拟合优度的2检验还可以用来判断不同属性的相关性。例16.4.3曾经有人统计了6672名学生使用左、右手的习惯,278032816061311300611309135816672男女合右左合其中男性左手率为0.1,女性左手率为0.08,试问使用左、右手的习惯是否与性别相关?**********************************************************双向列联表的独立性检验4221111jiijststijijjijijiijdcnnnncdnnYdcncdnnn 211st**********************************************************例16.4.3(续)男女生使用左右手的数据278032816061311300611309135816672男女合右左合.,22222112266722780606130916672328160613581+66726061309166726061358166723116113091667230061135815656672611309166726113581ijijijijnncdYncdY近似服从1个自由度的2分布,Y的0.95和0.99分位数分别为20.9513.84120.9916.635。050.时,拒绝原假设;.001时,接受原假设jijidncnnn11stijijnn1tiijjcn,1sjijidn5事实上,这组数据确实表现出男女生的左右率有一定的差别,但这种差别又不是特别的显著。而检验统计量的取值也和直观的感觉的差不多,p值在0.01和0.05之间,处于比较边缘状态,结论也就是仁者见仁,智者见智了。虽然无法得到非常确切的结论,但检验统计量的概率意义是完全清晰的,使用者根据自己的尺度得到相应结论。**********************************************************例16.4.4下面是1936年瑞典对25263个家庭的小孩数与收入的调查表\01122330216135772184163695581275550812222105211110293617536403063635322541996387784399831141826116109285173304625263小孩数收入行合计列合计试问家庭的小孩数与收入水平是否相关。解:计算25411ijijijijnncdYncd75.173,检验统计量Y近似服从43=12自由度的2分布,查表可知.20.9991232909,p值小于0.001,拒绝原假设。**********************************************************