4.5.2梯度法的优化效能评价梯度法的迭代路线如图4.16所示。由于相邻两次迭代的搜索方向是两相邻迭代点的负梯度方向,而且一维搜索是采用最优步长法,因此两搜索方向必正交,从而整个搜索过程的路线呈直角锯齿形状,并且越接近极小点,齿距越密。收敛速度就越慢。梯度法的有点事迭代过程简单,要求的存储量少,而且在远离极小点时,函数下降比较快。因此,常将与其他方法结合,在计算的前期实用负梯度方向,当接近极小点时,再改用其他方向。4.6牛顿法4.6.1概述牛顿法的基本思路为:根据已知点Xk)(,构造一条过(Xk)(,ƒ(Xk)())点的二次曲线,求出该曲线的极小点。若这一极小点与ƒ(X)的最优点(ƒ(X)的极小点)的误差太大,则以该极小点替换上述的Xk)(,重复以上步骤。这样,就可不断地用构造函数的二次曲线的极小点,逐步逼近到ƒ(X)的极小点,图4.17为n=1是的示意图。由上述基本思路及图4.17可以看出,牛顿法的关键为:(1)如图构造出过(Xk)(,ƒ(Xk)())点的二次曲线方程;(2)如何求取多元二次曲线的极值。下一节的内容,主要解决这两个问题。4.6.2牛顿法的原理与迭代式1)过(Xk)(,ƒ(Xk)())点的二次曲线方程由第二章中的“多元函数的泰勒近似式”可知,多元函数在已知点附近可用二次曲线来近似。即在Xk)(点处对ƒ(X)用多元泰勒展开式展开,并取前两项ƒ(X)≈ƒ(Xk)()+[ƒ(Xk)()]TX+1/2(HXTXk)()X(4.6.1)式(4.6.1)的右边,就是过(Xk)(,ƒ(Xk)())点且与ƒ(X)误差最小的二次曲线方程,将其P(X)表示P(X)=ƒ(Xk)()+[(Xk)()]TX+1/2(HXTXk)()X}(4.6.2)X=X-Xk)(2)求二次曲线P(X)的极小点注意到式(4.6.2)中,仅X=X-Xk)(为变量,由向量函数梯度公式可得'p(X)=ƒ(Xk)()+H(Xk)()(X-Xk)()令'p(X)=0,则ƒ(Xk)()+H(Xk)()(X-Xk)()=0(4.6.3)若黑塞矩阵H(Xk)()正定,则H(Xk)()可逆,将[H(Xk)()]1左乘式(4.6.3)可得[H(Xk)()]1ƒ(Xk)()+In(X-Xk)()=0式中,In表示n阶单位阵。则P(X)的极值点'X=Xk)(-[H(Xk)()]1ƒ(Xk)()(4.6.4)3)牛顿法迭代式因P(X)的极值点'X是用于构造新的过('X,ƒ('X))点的二次曲线的,即式(4.6.4)中的'X的一个新迭代点,所以可令Xk)1(=X',由式(4.6.4)可得Xk)1(=Xk)(-[H(Xk)()]1ƒ(Xk)()(4.6.5)式(4.6.5)即为牛顿法的基本迭代式。4.6.3广义牛顿法由牛顿法的方法原理可知,当目标函数为二次函数时,因为泰勒近似式是二次函数的标准式,Ρ(X)=ƒ(X),所以Ρ(X)的极值点X'就是目标函数的极值点X*。这样,只需一次计算即可收敛于目标函数的极小点。若目标函数不是二次函数,由于是用二次函数去近似目标函数,那么,采用牛顿法迭代计算时,如果初始点选择不当,很可能无法收敛于目标函数极小点。因此,要求初始点X)0(不能离目标函数极值点(最优点)太远,一般要求||X)0(-X*||1。针对牛顿法对初始点的选择选取较严格,可作如下改进。分析式(4.6.4),牛顿法迭代式Xk)1(=Xk)(-[H(Xk)()]1ƒ(Xk)()可等效为Xk)1(=Xk)(+Sk)((k)αSk)(=-[H(Xk)()]1ƒ(Xk)()(4.6.6)α)(k=1若在迭代中对式(4.6.6)中的α)(k不取1,而是对α)(k求一维优化的最优步长,则式(4.6.6)改变为Xk)1(=Xk)(+Sk)((k)αƒ(Xk)(+Sk)((k)α)=minαƒ(Xk)(+αSk)()(4.6.7)Sk)(=-[H(Xk)()]1ƒ(Xk)()式(4.6.7)是牛顿法的一种改进形式,称为广义牛顿法或阻尼牛顿法。4.7变尺度法4.7.1引言——牛顿的缺陷广义牛顿法虽然改进了牛顿法对初始点要求严格的缺点。但由于牛顿法在每一个迭代点上,都需要计算目标函数的全部二阶导数,以此构造黑塞矩阵,并计算黑塞矩阵的逆矩阵。这在实际应用中不仅十分麻烦,而且常常难以做到。另外,只要在某一个迭代点Xk)(上,黑塞矩阵H(Xk)(非正定,就无法得到其逆矩阵[H(Xk)()]1,迭代计算就将终止而导致失败。为克服这些缺陷,产生了不用计算黑塞矩阵逆矩阵的广义牛顿法的改进形式——变尺度法。4.7.2变尺度法的方法原理1)基本思路在应用广义牛顿法进行迭代时,不用计算黑塞矩阵和它的逆矩阵而是构造一个近似矩阵Hk)(来代替黑塞矩阵的逆矩阵[H(Xk)()]1,并在迭代过程中,不断修正Hk)((故称其为变尺度矩阵)使其逐渐逼近[H(Xk)()]1。2)构造变尺度矩阵Hk)(的基本要求(1)Hk)(必须使Sk)(=-Hk)(ƒ(Xk)()为函数值下降的方向。这一要求相应的条件为Sk)(与-ƒ(Xk)()之间的夹角小于90°,即-[H(Xk)()]TSk)(0(4.7.1)