第5章关于均值向量的推断一、μ0作为正态总体均值的似真性二、霍特林T2与似然比检验三、置信域和均值分量的联合比较四、总体均值向量的大样本推断五、多元质量控制图六、观测值缺损时均值向量的推断七、多元观察中由时间相依性造成的困难一、μ0作为正态总体均值的似真性本章将讨论关于总体均值向量及其分量的统计推断问题。判断μ0是否为总体均值的似真值?一元统计中:t分布这个统计分布为自由度为n-1的学生t分布学生t-分布(Student'st-distribution)应用在当对呈正态分布的母群体的均值进行估计。它是对两个样本均值差异进行显著性测试的学生t测定的基础。如果计算的t的绝对值较大,则拒绝零假设上式也等同于当t的平方较大时,拒绝零假设,即μ0不是总体均值的似真值。t2为样本均值到μ0的距离的平方多元统计中p*1的μ0向量是否为多元正态分布均值的似真值?从一元推广到多元平方距离:其中•T2为样本均值到μ0的距离的平方,如果距离太远,则拒绝零假设;•T2以研究者霍特林命名,称为霍特林统计量T2分布的性质:设X1,…Xn是来自均值为μ,协方差矩阵为Σ的联合分布的一个随机样本,服从Np(μ,Σ)分布,即T2分布与(系数*F)同分布在一定概率水平下,如果下式成立则拒绝零假设二、霍特林T2与似然比检验1.构造似然比2.T2和Λ分布的关系多元正态似然函数的最大值为:极大似然估计量:1.构造似然比在零假设条件下(μ=μ0),最大正态似然值为:其中将两种最大似然值进行比较得到的比值为似然比统计量:似然比统计量的计算如下式,当该值太小时,拒绝零假设2.T2和Λ分布的关系设X1,…Xn是来自均值为μ,协方差矩阵为Σ的联合分布的一个随机样本,服从Np(μ,Σ)分布有小的Λ或大的T2,拒绝零假设。三、置信域和均值分量的联合比较假设θ是未知的总体分布的参数向量,Θ是所有可能的θ的集合,置信域是可能的θ组成的集合,与一元的置信区间类似。置信域由样本数据决定,用R(X)表示,如果样本被抽取前有下式成立,则称区域R(X)为θ的100(1-α)%的置信域。1.一元统计中2.多元统计中1.一元统计中例如,给定一个样本:样本均值和方差分别为10和2,样本大小为11(自由度为10)。则根据下式和查表2.多元统计中p=2时置信域为一椭圆四、总体均值向量的大样本推断当样本量很大时,不需要总体的正态性假定就可以构造均值的假设检验及置信域;当n-p很大时,有下式成立:则在α的置信水平下拒绝零假设五、多元质量控制图控制图的目的是为了识别是否出现了引起变动的特殊原因,这些原因来自外部,表明需要对数据进行修正或改进。1.均值控制图(一元)2.椭圆控制图(二元)3.T2控制图(多元)1.均值控制图(一元)按时间顺序对各个观察值或样本均值作标绘画出所有观察值的样本均值的中心线按照如下公式计算并画出控制限控制上限UCL:x+3*标准差控制下限LCL:x-3*标准差2.椭圆控制图(二元)按散布图进行标绘按照如下不等式计算95%的置信椭圆,并画出椭圆控制限(α=0.05或0.01,p=2).........3.T2控制图(多元)对第j个点计算T2统计量把计算结果画在时间轴上,LCL为零,UCL为α=0.05或0.01的卡方值.T299%限制95%限制学生t分布1221()2()(1)(/2)tft00(||)2()tPttftdt卡方分布(χ2distribution)~(0,1)uN222212nuuu2/2122/2()1()exp()2(/2)2f22222()(1)xxns22222~1snvF分布(Fdistribution,RAFisher,1923)2122sFs112121212/2/212()/21212()2()(/2)(/2)()vFfFFv第5章关于均值向量的推断一、μ0作为正态总体均值的似真性二、霍特林T2与似然比检验三、置信域和均值分量的联合比较四、总体均值向量的大样本推断五、多元质量控制图六、观测值缺损时均值向量的推断七、多元观察中由时间相依性造成的困难六、观测值缺损时均值向量的推断如何处理不完全观测值?登普斯特(Dempster)提出一种从不完全数据出发,计算其极大似然估计的一般方法,称为EM算法。EM算法:1.预测,预测任何缺损值对充分统计量的贡献;2.估计,计算修正后的极大似然估计值。EM算法具体步骤:1.利用不全数据X计算各个变量的均值,缺损值不计入,用这些估计的均值代替缺损值;2.利用估计的上述数据估计协方差;3.把有缺损的数据和正常数据进行分块处理,按照公式估计缺损值、缺损值的平方、缺损值与其它观测值的乘积;4.计算充分统计量T1和T2的估计值;5.利用T1和T2估计均值和协方差;再重复预测与估计,直到估计出的均值和协方差中的元素基本保持不变为止。例题,用下面数据估计正态总体均值与协方差矩阵,n=4,p=3,某些值缺损。]521562730[X1.对样本均值做初始估计:6257~113120~2445263~32.用样本均值代替缺损值3.估计协方差矩阵]516215627306[X214)66()65()67()66(~22221125~,21~3322414)11)(66()11)(65()12)(67()10)(66(~121~,43~1323]521562730[X]416[~4.利用初始的均值和协方差估计值预测缺损值对充分统计量T1和T2的贡献]516215627306[X22211211332313232212131211)2()1(321~~~~~~~~~~~~~~,~~]~~~[~73.5~~~~~~31321212212111xxx2543143214114121~99.32~~~~~211211221211211xx]18.17,0[]3,0[73.5],[131211xxx同样估计缺损的另外两个数对统计量的影响,预测出T1和T2:00.1630.413.24~~~~4333231342322212413121111xxxxxxxxxxxxT00.7450.2018.10150.2097.607.2718.10127.2705.148~2432332232134342333223221312434133312321131124223222221242413231222112112412312212112xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxT5.求出修正估计00.408.103.6~1~1Tn50.283.017.183.059.033.017.133.061.0~~~1~2Tn]521562730[X]416[~]516215627306[X2543143214114121~预测与估计一直迭代,直到估计值的元素基本不变化七、多元观察中由时间相依性造成的困难当时间相依性可以由一阶多元自回归模型(AR(1))来刻画时,有:tttXX)(1之间;和的特征值均值,协方差为独立同分布,均值为零所有11t0,),(ovjjjxxrttXXC则第5章习题利用计算机程序实现EM算法。