3.1矩阵矩阵是研究优化方法的一个有力工具。1、矩阵及其主要形式:=mnmmnnaaaaaaaaaA212222111211系数矩阵:mnmnmmnnnnbxaxaxabxaxaxabxaxaxa=+++=+++=+++.........22112222212111212111方程组:2、矩阵的形式:3、矩阵的运算:矩阵的加、减、乘、矩阵的转置、逆矩阵等=4321A0246≠−=+−=A=−1A−−=−−−=−−=−21231213242113244321143211例:求矩阵解:因为A的行列式所以矩阵A为非奇异矩阵,其逆矩阵存在的逆矩阵。3.2向量1、基本概念x1oXYXYXYCx2A(x1A,x2A)TB(x1B,x2B)T向量=AAxxX21为二维平面列向量三维空间向量n维向量——超越空间向量向量和点都可用矩阵表示为:=nxxxX21向量与分量关系单位向量:不能单独的说单位向量,只能说某个向量的单位向量。单位向量就是指模是一的向量。它有方向,其方向与原来的那个向量相同。其求法是用原来的那个向量除以它的模。向量X的长度称为模,记作∑==+++=niinxxxxX1222121XX/2、向量的运算向量的加减:数与向量相乘:向量的点积(也称内积、数积)∑==+++=⋅niiinnyxyxyxyxYX12211θCOSYXYX=⋅XYYXYXTT=⋅=或向量的正交2πθ=0cos==⋅θYXYX0=YXT若两个非零向量X,Y的夹角为正交向量。或正交向量必有:,则称它们KXXX,,21)(0jiXXji≠=⋅设为k个非零向量,若对于所有向量有:则称该向量系为正交向量系。3、向量的线性相关和线性独立naaa,,,21nλλλ,,,2102211=+++nnaaaλλλ若有非零向量系,存在一组不全为零的实数,使成立,则称该向量系线性相关。只有当021====nλλλ则该向量系为线性无关。时,上式才能成立,则称如果n个向量系naaa,,,21其它n-1个向量的线性组合表示出来,则称这n个向量是线性相关的,否则就是线性无关。中,至少有一个向量可以用TTTaaa]0,1,1[,]1,0,1[,]2,1,3[321===3212aaa+=例:讨论向量系解:很显然,由于此向量系中,第一个向量可以用其他两个向量的线性组合形式表示出来,即:故此向量系是线性相关的。的线性相关性。2、一阶导数和方向导数一阶导数:nkkkxXfxXfxXf∂∂∂∂∂∂)(,...,)(,)()(2)(1)(对于一个连续可微函数f(x)在某一点的偏导数为:)(xf)(kX它表示函数处沿各坐标轴方向的变化率。在点)(xf)(kX处沿各坐标轴的斜率。即函数在点Ox2x1x10x20x0∆x1∆x2∆sxSθ1θ2方向导数:为了描述函数沿任一方向S的函数的变化率,引入方向导数概念。二元函数在点x0处沿s方向的方向导数:22)0(2)0(12)0(2)0(1112)0(2)0(12)0(21)0(10)0(2)0(12)0(21)0(10)0(),(),(),(),(),(),()(limlimρρρρρxxxxfxxxfxxxxxfxxxxfxxfxxxxfSXf∆⋅∆−∆++∆⋅∆∆+−∆+∆+=−∆+∆+=∂∂→→22)0(11)0(cos)(cos)(θθxXfxXf∂∂+∂∂=特例:1)0()0()()(xXfSXf∂∂=∂∂2)0()0()()(xXfSXf∂∂=∂∂90,021==θθ0,9021==θθ—方向导数的计算公式偏导数是方向导数的特例22)0(11)0()0(cos)(cos)()(ααxXfxXfSXf∂∂+∂∂=∂∂πππππ8234cos44cos2)(2121)0(=+=∂∂xxxSXf4)(,2)(212211xxXfxxxXfππ=∂∂=∂∂解:因为)(Xf)0(X所以,在点处沿S方向的方向导数为:22141)(xxXfπ=)(XfTX]1,1[)0(=421παα==例:设函数,求在点的方向导数。向量S的方向为处沿S方向3、梯度目的:判断函数在给定点X(0)处沿哪个方向的变化率最大。(0)1(0)2210()(coc)sosfXxfXxghθθ∂∂∂∂==(0)(0)(0)1212(0)(0)10122()()()coscoscos()()cosTfXfXfXSxxfXfXghxxαααα∂∂∂=+∂∂∂∂∂==∂∂(0)(0)(0)12(0)(0)(0)12coscoscos()()()()()()cosfXfXfXxxfXfXfshXhθθθθ∂=∂∂∂∂=∇⋅⋅=∇∂=∇梯度的模:22(0)(0)(0)12()()()fffxx∇=+∂∂XXX梯度方向和s方向重合时,方向导数值最大。(0)(0)(01(0)2)()()()()fXfxfxfX∂∂∇==∂∂XXgrad——称为函数在X(0)处的梯度方向导数梯度Ox2x1x0变化率为零的方向最速下降方向下降方向上升方向最速上升方向-∇f(x0)∇f(x0)梯度方向是函数值变化最快的方向,而梯度的模就是函数变化率的最大值。梯度方向与等值线的关系多元函数的梯度(0)1(0)(0)(0)(0)212(0)()()()()()()TnnfxfffFxfxxxfx∂∂∂∂∂∂∂∇==∂∂∂∂∂XXXXXX(0)(0)(0)(0)1()()cos()()cosnTiiifffhfsxθθ=∂∂==∇=∇∂∂∑XXXX1(0)2(0)21()()()niiffx=∂∇=∂∑XX(0)()f∇X梯度模:1、函数的梯度方向与函数等值面相垂直,也就是和等值面上过x0的一切曲线相垂直。即:函数在给定点的梯度方向是函数等值线或等值面在该点的法线方向2、由于梯度的模因点而异,即函数在不同点处的最大变化率是不同的。因此,梯度是函数的一种局部性质。函数梯度的几个特征:3、梯度大小是函数在该点的方向导数的最大值,梯度方向是函数具有最大变化率的方向。它的正向是函数值最速上升的方向,负向是最速下降方向。θcos)()()0()0(XfSXf∇=∂∂1cos=θ2π与其相差的方向,必为该点的法线方向,这时使得函数的变化率最大,此时S的方向就是函数在该点的梯度方向。2πθ=SXf∂∂)()0(当时,函数的变化率为零,此时S)0(X的方向就是函数的等值线或等值面在点处的切线方向4、例:求函数在点[3,2]T的梯度。22121()44fxxx=+−+x112224()2fxxfxfx∂∂−∇==∂∂x(1)1(1)2242()24xxfx−∇==x在点x(1)=[3,2]T处的梯度为:解:()()12121264,42fXfXxxxxxx∂∂=−=−+∂∂()()()121211200121021644422xxxxfXxxxPfXxxfXx====∂−∂−++=−∇===+−∂−∂例2:试求目标函数在点处的最速下降方向,并求沿这个方向移动一个单位长度后新点的目标函数值。()2221212143,xxxxxxf+−=[]00,1TX=[]00,1TX=则函数在处的最速下降方向是解:由于10225505511151555XXe++=+=+=−−()()()()00224252514255fXefX++−∇−===−∇++−−()012211222634|255XfXxxxx=−+=−•新点是这个方向上的单位向量是:几种特殊类型函数求梯度的公式:一般二次函数的梯度公式为:BXAXf+=∇)(CXBXAXfxdxdcxxbxaxfxdxdcxxbxxaXfTT++=+++++=+++++=21)22221)(22112221212211222121(=∇==∇==∇=BXfXBXfXXfXXXfXAXfXAXXfTTT)()(2)()(2)()(3.4函数的二阶导数矩阵(Hessian,海森矩阵)nnnnnnxxXfxxXfxxXfxxXfxxXfxxXfxxXfxxXfxxXf∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂)(,...,)(,)()(,...,)(,)()(,...,)(,)(222122222212212212112),...,2,1,()(2njixxXfji=∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂=nnnnnnxxXfxxXfxxXfxxXfxxXfxxXfxxXfxxXfxxXfH)(,...,)(,)()(,...,)(,)()(,...,)(,)(222122222212212212112),...,2,1,()()(22njixxXfXfHji=∂∂∂=∇=二阶偏导数Hessian,海森矩阵22221121222222122222212()()()()()()()()nkkkkknkkknnnFFFxxxxxfxfxfxxxxxxfxHxfxfxfxxxxxx∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∇==∂∂∂∂∂∂∂∂)(Xf)(kX称为函数在点处的Hessian矩阵。()−−−−=∇2202220222Xf2,2,20,2,2232322222312212212=∂∂−=∂∂∂=∂∂=∂∂∂−=∂∂∂=∂∂xfxxfxfxxfxxfxf()[]TxxxxxxxXf233122122,3222,22−+−−−=∇()23322xxxXf−=∂∂()21122xxxXf−=∂∂()32223122+−−=∂∂xxxxXf22212312233223xxxxxxxx++−−+例1:求目标函数f(X)=的梯度和Hessian矩阵。解:则又因为:故Hessian矩阵为:3.5多元函数的泰勒展开式2)0()0('')0()0(')0())((21))(()()(xxxfxxxfxfxf−+−+=一元函数的泰勒展开式为:jinjijiiniixxxxXfxxXfXfXf∆∆∂∂∂+∆∂∂+≈∑∑==1,)0(21)0()0()(!21)()()()0(X)(Xf多元函数在点的泰勒展开式为[]∂∂∂∂∂∂=∇nTxXfxXfxXfXf)()()()()0(2)0(1)0()0(∆∆∆=∆nxxxX21),...2,1,()()0(20njixxXFHji=∂∂∂=(0)()TfXX∇∆0TXHX∆∆2)0()0('')0()0(')0())((21))(()()(xxxfxxxfxfxf−+−+=+∆+∆∆+∆∆+∆+∆+∆∆+∆+∆+∆+=]),(),(3),(3),([!31]),(),(2),([!21]),(),([),(),(3)0()0()3(2)0()0()3(2)0()0()3(3)0()0()3(2)0()0('')0()0(''2)0()0('')0()0(')0()0(')0()0(3223yyxfyxyxfyxyxfxyxfyyxfyxyxfxyxfyyxfxyxfyxfyxfyyxyxxyyxyxxyx一元函数二元函数jinjijiiniixxxxXfxxXfXfXf∆∆∂∂∂+∆∂∂+≈∑∑=