2020/1/18华中科技大学同济医学院宇传华(yuchua@163.com)制作第七章总体分布的拟合优度检验GoodnessofFitTestforDistributionofPopulation2020/1/18华中科技大学同济医学院宇传华(yuchua@163.com)制作为什么要知道总体分布?1.参数统计学推断方法(如t检验、F检验)均以服从某一分布(如正态分布)为假定条件。2.实际工作中需要了解样本观察频数(Observedfrequency,简记为O)是否与某一理论频数(Expectedfrequency,简记为E)相符。2020/1/18华中科技大学同济医学院宇传华(yuchua@163.com)制作本章介绍的拟合优度检验方法1.卡方检验2.正态性检验的W法(Shapiro-wilk法)、D法(Kolmogorov-Smirnov法)2020/1/18华中科技大学同济医学院宇传华(yuchua@163.com)制作第一节卡方拟合优度检验的原理与计算步骤1.原理判断样本观察频数(Observedfrequency)与理论(期望)频数(Expectedfrequency)之差是否由抽样误差所引起。2020/1/18华中科技大学同济医学院宇传华(yuchua@163.com)制作数据格式与计算公式类别或组段观察频数理论频数1O1E12O2E2………kOkEk问题:试判断这份样本,是否来自该理论分布?221(),1kiiPiiOEkaEa为参数的个数注意:理论频数Ei不宜过小(如不小于5),否则需要合并组段!2020/1/18华中科技大学同济医学院宇传华(yuchua@163.com)制作(1)H0:样本的总体分布与该理论分布无区别H1:样本与该理论分布有区别0.05(2)列出各组的实际频数与理论频数(3)Pearson2统计量221222112212()()...kPikkkOEOEOEEEE(实际频数-理论频数)理论频数自由度1()k计算理论分布时所用参数的个数(4)确定概率P并作出统计推论。注意:理论频数不宜过小,否则需要合并2.计算步骤2020/1/18华中科技大学同济医学院宇传华(yuchua@163.com)制作0.00.10.20.30.40.50369121518卡方值纵高自由度=1自由度=2自由度=3自由度=62/)12/(2222)2/(21)(ef3.847.8112.59P=0.05的临界值χ2分布(chi-squaredistribution)2020/1/18华中科技大学同济医学院宇传华(yuchua@163.com)制作卡方分布下的检验水准及其临界值2020/1/18华中科技大学同济医学院宇传华(yuchua@163.com)制作第二节离散型随机变量分布的拟合优度检验一、二项分布的拟合优度检验二、Poisson分布的拟合优度检验2020/1/18华中科技大学同济医学院宇传华(yuchua@163.com)制作一、二项分布的拟合优度检验【例7.4】某研究人员在某地随机抽查了150户3口之家,结果全家无某疾病有112户,家庭中1人患病的有20户,2人患病的有11户,3人全患病有7户,问该病在该地是否有家族聚集性。解:如果家庭成员之间的发病与否(X)互不影响,则X符合二项分布(两种互斥结果、试验条件不变、各次试验独立)。也就表明疾病不具有家族聚集性。2020/1/18华中科技大学同济医学院宇传华(yuchua@163.com)制作表7.2二项分布的拟合优度χ2检验计算表每户发病人数(1)观察家庭数(2)理论概率(3)理论家庭数(4)χ2分量(5)累计χ2值(6)0123112201170.63600.31060.05050.002795.408446.59487.58520.41162.88515.1792.88518.0651507.996812.51330.578H0:该病分布服从二项分布,H1:不服从二项分布α=0.0514.0450631503731122011120ˆ调查总人数发病总人数86.014.01ˆ1理论概率033(0)0.140.860.636060PX,…理论家庭数=150*理论概率=3-1-1=1。χ20.05,1=3.84,∴p0.05,…具有家庭聚集性2020/1/18华中科技大学同济医学院宇传华(yuchua@163.com)制作二、Poisson分布的拟合优度检验【例7.3】将酵母细胞的稀释液置于某种计量仪器上,数出每一小方格内的酵母细胞数,共观察了413个小方格,结果见表7.3第1、2列,试问该资料是否服从Poisson分布?H0:方格内酵母细胞的个数服从Poisson分布;H1:…个数不服从Poisson分布α=0.05理论概率exxPx!)(41889.14135864131714311030nfx2020/1/18华中科技大学同济医学院宇传华(yuchua@163.com)制作卡方分量表7.3Poisson分布的拟合优度χ2检验计算表方格内细胞数(X)(1)实际方格数(Oi)(2)理论概率(Pi)(3)理论方格数(Ei)(4)iiOE(5)2iiOE(6)2iiiOEE(7)01030.24198099.9393.06109.36970.0937511430.34335141.8021.19801.43520.010122980.24359100.6012.60106.76520.067233420.11521047.5805.58031.13640.654464180.04087016.8781.12201.25890.07462560.01160004.790620.00274001.1336.2012.79907.83441.26461710.00067000.278合计4132.1647824359.024198.0241889.1!2)2(22eP,(7)1(6)0.00067PPx理论细胞计数为0的方格数应等于0.24198×413=99.939,…。因细胞计数为5、6、7的三组,理论频数均小于5,故将这三组数据合并自由度=6-1-1=4。20.05,49.49,本例P〉0.05,表示服从Poisson分布。P(7)=0.0005562020/1/18华中科技大学同济医学院宇传华(yuchua@163.com)制作其他离散型变量分布的拟合优度检验1.二项分布2.Poisson分布3.超几何分布4.负二项分布可仿照上述二项分布、Poisson分布的方法进行分布的拟合优度检验。2020/1/18华中科技大学同济医学院宇传华(yuchua@163.com)制作第三节连续型随机变量分布的拟合优度检验一、采用卡方检验进行正态性检验二、采用Shapiro-Wilk法进行正态性检验三、采用Kolmogorov-Smirnov法进行正态性检验2020/1/18华中科技大学同济医学院宇传华(yuchua@163.com)制作一、采用卡方检验进行正态性检验例7.5下面是150名10岁儿童的IQ得分,请检验其是否服从正态分布125.999.3133.4100.0131.998.2137.197.4135.9105.9143.8116.7151.1104.975.395.078.697.776.3114.966.1111.868.9103.273.099.874.1103.273.4109.1118.5112.3119.0114.1121.9111.4123.7109.5127.8109.384.0113.281.2107.883.3108.583.9115.782.7113.283.9112.884.5113.479.9108.678.9120.184.8109.877.6113.276.9108.485.105.989.6115.792.6105.590.9110.887.6113.788.6109.393.6108.293.8106.886.6118.693.6113.989.1113.287.6113.189.9119.785.5122.588.2112.593.6113.190.1114.193.495.992.692.386.6121.794.6115.987.399.889.2107.793.795.887.6123.693.3124.789.6101.494.6109.2102.0104.188.6108.086.9109.6103.2104.195.298.998.057.599.5103.998.699.195.899.0101.8103.099.4104.1104.295.0104.3101.496.8102.397.0103.5解:H0:IQ得分服从正态分布,H1:不服从正态,α=0.05,101.294XS=15.5852020/1/18华中科技大学同济医学院宇传华(yuchua@163.com)制作表7.3正态分布拟合优度χ2检验的计算表IQ得分组限(1)实际观测频数Oi(2)标准化组限Zi(3)累计概率(4)概率(5)理论频数Ei(6)=150*(5)iiiEEO2(7)iiiEEO2(8)55.0~1-2.97048~0.00149~0.008441.266065.0~5-2.328820.00993~0.035865.379075.0~15-1.687170.04579~0.1021015.31500.006480.0690985.0~31-1.045510.14789~0.1952729.29050.099770.1688695.0~39-0.403860.34316~0.2508237.62300.050400.21926105.0~360.237800.59398~0.2164432.46600.384680.60394115.0~150.879450.81042~0.1254618.81900.775001.37894125.0~41.521110.93588~0.048847.3260135.0~32.162760.98472~0.012761.91409.57600.259381.638320.3360145.0~15512.80441~3.446070.99748~0.999720.00224=7-1-2=4,20.05,49.49,在α=0.05的水准不拒绝Ho,故认为IQ得分服从正态分布6.64500.062610.0626155101.2942.9704815.5847121XXZS2020/1/18华中科技大学同济医学院宇传华(yuchua@163.com)制作拟合优度卡方检验的问题1.分组不同,拟合的结果可能不同。2.需要有足够的样本含量。对于连续型变量的优度拟合,卡方检验并不是理想的方法。统计学家推荐的拟合检验方法是:Shapiro-Wilk检验Kolmogorov-Smirnov检验2020/1/18华中科技大学同济医学院宇传华(yuchua@163.com)制作二、采用Shapiro-Wilk法进行正态性检验由Shapiro和Wilk于1965年提出。常简称为W法,软件可计算出W统计量。适用于小样本。计算时需要采用常数表(附表9)。大样本时计算很复杂。2020/1/18华中科技大学同济医学院宇传华(yuchua@163.com)制作【例7.6】用小鼠研究正常肝核糖核酸(RNA)对癌细胞的生物学作用,测定水层RNA诱导肝癌细胞的果糖二磷酸酯酶(FDP)活性的结果如下,请分析FDP活性是否服从正态分布?Obs12345678x3.833.164.703.972.032.873.655.092020/1/18华中科技大学同济医学院宇传华(