数学模型-85-第三章随机数学模型§3.1多元回归与最优逐步回归一、数学模型设可控或不可控的自变量xxxp12,,,;目标函数yyym12,,,,已测得的n组数据为:},,,,,,,{2121mpyyyxxx(1.1)其中yjmnj,,,,,,,,1212是系统的测试数据,相当于如下模型:设多目标系统为:为简化问题,不妨设该系统为单目标系统,且由函数关系yfxxxp(,,,)12,可以设:yxxpp011(1.2)可得如下线性模型nnppnnnppppxxxyxxxyxxxy22110222222211021112211101 (1.3)12,,,n为测量误差,相互独立,iN~(,)0。令YyyyXxxxxxxxxxnppnnnppn121112121222120112111可得YX(1.4)(1.4)称为线性回归方程的数学模型。y1y2ymx1x2系统xp-86-第三章随机数学模型利用最小二乘估计或极大似然估计,令niippiixxyQ12110][使QQmin,由方程组piQi,,2,1,00(1.5)可得系数01,,,p的估计。令AXXpT设()1方阵可逆,由模型YX可得:XYXXATT即有AXYT1(1.6)可以证明(1.6)与(1.5)是同解方程组的解,它是最优线性无偏估量,满足很多良好的性质,另文补讲。二、模型的分析与检验设目标函数yyn1,,的平均值ynyyyn112(),则由公式可计算得总偏差平方和,回归和剩余平方和:SyySyySyynnn总剩回()()()212121SxpSxnpFSpSnpFpnp回剩回剩~~~2222111()()//(,)(1.7)假设检验:Hp0120:H1:至少有一个不为零结论是:当FFpnpH(,),10时拒绝当时,接受FFpnpH(,)10当H0被拒绝以后,说明方程(2)中系数不全为零,方程配得合理。否则在H0被接受以后,说明方程配得不合适,即变量xxxp12,,,对目标函数y都没有影响,则要从另外因素去考虑该系统。数学模型-87-三、回归方程系数的显著性检验假设Hjj00:备选假设Hjj10:jp12,,,可以证得:jjjjjjjjjcNFcSnpFnp~~剩(,),()//(,)011112(1.8)或者tSnptnpcAXXjjjjjT/()()剩~是1111的对角线元素。当FFnpttnpjj(,)(()1112或时,j显著不为零,方程(1.2)中第j个变量作用显著。若有某一个系数i0假设被接受,则应从方程中剔除。然后从头开始进行一次回归分析工作。四、回归方程进行预测预报和控制经过回归分析得到经验回归方程为yxxpp011(1.9)设要在某已知点(,,,)xxxop0102上进行预测,可得点估计:yxxpop00101(1.10)下面对预测预极值y0进行区间估计,可以证得yyNb(,)00~其中bnCxxxxijoiiojjjpip21111()()yybNSxnpyySnptnp(,),(),/()022001111~~~剩剩得y0的预测区间为:1)1(ˆ1ˆ2020pnSpntyypnSty剩剩(1.11)-88-第三章随机数学模型五、最优逐步回归分析在线性回归分析中,当经过检验,方程(1.2)作用显著,但i0为显著,说明xi不起作用,要从方程中剔除出去,一切都要从头算起,很麻烦。这里介绍的方法是光对因子xxxp12,,,逐个检验,确认它在方程中的作用的显著程度,然后依大到小逐次引入变量到方程,并及时进行检验,去掉作用不显著的因子,依次循环,到最后无因子可以进入方程,亦无因子被从方程中剔除,这个方法称为最优逐步回归法。从方程(1.2)中,为方便计,设变量个数1mp,记;,,2,1,nxyma可得11110mmnxxx12,,,n(1.12)此时仍可得SxxSxxmmmmnn总回(),()2211Sxxxmmnm剩(),21是回归估计值回归方程为xbbxbxbxmmm0112211(1.13)bbbm011,,,分别是0121,,,,m的系数估计。为了减少误差积累与放大,进行数据中心化标准化处理:zxxjmijjjj12,,,jjjnxx()21(1.14)可得数学模型为:zzzznnmm'''',,,,012211112(1.15)经推导可得:RNXXAT00,YXBT,)1()1(mmijrR,jinjjiiijxxxxr1))((数学模型-89-R称为系数相关矩阵BrrrRrrrrrrrrrmmmmmmmmmm0121111211212221111211,,,由此可得经验回归方程:Zdzdzdznmm112211(1.16)然后以变换关系式代入可得yxxdxdxdxnnmmmmmm()111222111111222111mmmmmmxdxdxd(1.17)将(17)式与(13)式进行比较,可得:bdjmjmjj121,,,bxbxmjjjm011(1.18)只要算得(16)式的dj即可。注意到11~2总总SSm,回回SSm21~,剩剩SSm21~,VQjmj12其中Vj是对于因子xj的偏回归平方和,可以证明线性方程中对变量Zj的多元线性回归方程中Zj的偏回归平方和为(jQ是原方程中的偏回归平方和):Vrrjjmjj()/12把系数矩阵R变成加边矩阵,记为Rrrrrrrrrrrrrrrrrmmmmmmmmmmmmmmmm(),,,,,,0111211121222121112111121-90-第三章随机数学模型比较VVVm112111()()(),,,,设)1()1(max1jjkVV,则相应变量Zk1作用最大,但是否显著大,要进行显著性检验,可以证得FVSfVrVnFnkkmmk111111111212()()()()()//()(,)剩剩~当FFn112(,)时,可将变量Zk1引入方程中去。现将这个循环步骤介绍如下:第一步:挑选第一个因子1.对jm121,,,计算zj的偏回归和Vrrjjmjj()/122.找出)1(11)1(1max,1jmjkVVk决定Zk13.F检验FVrVnkmmk111112()()()当FFn112(,)时引入Zk1,一般总可以引入的。第二步:挑选第二个因子首先变换加边矩阵RRrtsj()()()012则drrrjkjjmjjmjj()()()()/()22111,)1()2()2(/1jjjjjjjrrc因子zjkj()1的偏回归平方和Vdcrrjjjjjmjj()()()()//222121记VjkVjj()()max212决定zk2可否引入步骤:1.对jk1,计算zj的偏回归平方和Vj()2。2.找出Vj()2中最大的一个,记为Vk22()。3.对zk2作显著性检验:当FVrVnFnkmmk121222313()()()()(,)时,要引入zk2。数学模型-91-第三步:当引入zk2时,zk1是否要剔除呢?即已有方程:()()zdzdzmkkkk112222检验zk1的偏回归平方和:Vdcrrkkkkkmkk1111111222222()()()()()//SrVrrrrmmkmmkmkkmm剩()()()()()()()/212112122222fnn剩()2213当FVSfVrnFnkkmm22222211313()()()()()/()(,)剩剩时因子zk1不剔除。同样的方法以FVrnFnkmm2222313()()(,)时因子zk2不剔除。第四步:重复进行第二步到第三步。一直到没有可引入的新因子,也没有可剔除的因子。最后方程为:zdzdzdznkkkkkkll1122(1.19)并把(1.19)式换算成类似的(1.13)式。§3.2主成份分析与相关分析一、数学模型这是一个将多个指标化为几个少数指标进行统计分析的问题,设有p维总体有p个随机指标构成一个p维随机向量(,,,)12p,它的一个实现为xxxp12,,,;而且这p个指标之间往往相互有影响,是否可以将它们综合成少数几个指标yyykpk12,,,(),使它们尽可能充分反映原来的p个指标。例如加工上衣,有袖长、身长、胸围、肩宽、领围、袖口、袖深,……等指标,是否可以找出主要几个指标,加工出来就可以了呢?例如主要以衣长、胸宽、型号(肥瘦)这样三个特征。设XxxxpT(,,,)12为p维随机向量,E()为期望向量,DXV()为协方差矩阵,其中-92-第三章随机数学模型12pijppDXCOVxxV()(,)设将xxxp12,,,综合成很少几个综合性指标,如yyyk12,,,,不妨设yaxaxaxaXppT11122aaaaXxxxTpTp(,,,),(,,,)1212则有DyDaXaDXaaVaTTT()()()1要使y1尽可能反映原来的指标的作用,则要使Dy1尽可能大,可以利用Lagrange乘子法:要对a加以限制,1a,否则加大a,Dy1增大无意义。令max11DyaaT设aVaaaTT()1并使aVaaaaT2201(2.1)可得方程组(2.1)的解为1aaaVaT(2.2)以Ta左乘(2.2)之两边,得aaVaaTT即VaayDT)(1由(2.2)式可得0)(aIV(2.3)要使满足(2.3)的a非零,应有0IV即入是V的特征根,设12,,,p是V的p个特征根,只要取max1},,,max{21p,再由aVa1,求出V的属于1的特征向量d1,在条件111aaT数学模型-93-是唯一的p维特征向量1a。于是得XayT11(2.4)二、主成份分析一般协方差方阵为非负定,对角线上各阶主子式都大于等于零,即特征值有:120p设前m个都大于零,依次为12m,相应的特征向量为maaa,,,21,则XayT11,Tay22,,XayTmm即为第一,第二,…,第m个主成份,由线性代数知识可知,不同的特征根对应的不同的特征向量线性无关,由于V是实对称阵,则maaa,,,21,变换后的各主成份yyym12,,,相互无关。即对xxxp12,,,进行了一次正交变换。在实际应用中,V阵往往是