凸函數、Jensen不等式與Legendre變換一、前言凸函數的出現絕非偶然,在古典力學中的動能,就是最自然直接的凸函數,其他如熵(entropy)……等皆是,當然從幾何的角度而言就是拋物線。近代分析由於受凸分析研究所得之進展的影響,使得在非線性分析,非線性微分方程皆有長足之進展與突破,其中較重要的就是逐漸將非線性(nonlinearity)視為一個體,而非只是線性化(linearization)而已。凸函數是如此地美麗且重要,而一般教科書只是提個定義然後定理之後便是習題。對於這樣的數學,我們實在不滿足地無法忍受,畢竟數學要教導我們聰明並學習如何去思考。因此本文秉持此原則,將著重於幾何與物理直觀,並與一些相關聯的領域作一些對應,以思索在我們前面的那些數學巨人是如何思考問題。二、凸函數我們從凸函數之定義開始定義:f為一定義在區間上之一實值函數(real-valuedfunction)若對任意的,,f滿足下式則稱f為一凸函數(convexfunction)。圖一其幾何意義為連接(a,f(a)),(b,f(b))兩點的弦,永遠在弧y=f(x)之上(圖一)。利用分點公式我們可將(1)式表為下列之形式:由(2)式可得即圖二其幾何意義從圖形上之斜率可知。我們的主要目的在於如何將(1)式推廣至一般情形。首先同時也是自然而然地(在數學上2與n是沒有差別的)將(1)式推廣至n個點x1,…,xn。(可用歸納法)其中,,,。有時候我們(有目的地)令則(4)式可改寫為這就是Jensen不等式之一形式。若取特殊的pi,例如:則(6)式可表為典型的凸函數有底下的類型:在尚未做進一步推廣前,Jensen不等式最直接的應用就是幾何平均與算數平均之關係;讀者可自行練習例題1:(幾何-算數平均)試證(a)(b)三、Jensen不等式的意義我們感興趣的問題是關於Jensen不等式(6)式或(7)式之幾何意義與物理意義,首先介紹質量中心:假設平面上有n個點且它們皆有相同之質量,其位置向量為,,則質量中心之位置向量為或這意思是從點到各點之向量彼此互相抵消。圖三我們可以這麼想像:在每一點為一釘有木樁而後用一條橡皮筋連接各點。則如此可形成一多邊形H(陰影區域)而這就是的「凸包」(convexhull)。圖四質量中心(9)式告訴我們的就是這點可由圖形直觀而得。通過任意一點P,P在該集合之外部,我們可劃一直線L使得H及其所圍區域完全落在L之一邊。當然這些向量不可能互相抵消,因為它們在法向量上均有正的分量。註:上面所談的這個概念其實就是泛函分析中BanachSeparation定理之一雛形。有了這個預備工作之後,我們回到原來的點:圖五令K={(x,f(x))}為函數f之圖形(graph),同時我們也連接兩端點(x1,f(x1)),(xn,f(xn)),則由質量中心為必定落在陰影區域H之內部,即這就是(7)式,其意義為:質量中心必定在圖形K之上方。而通過(x1,f(x1)),(xn,f(xn))兩點之弦方程式為由圖形亦知而且對所有下式成立這個不等式我們可視為比較定理(Comparison定理)最簡單的形式,而這在微分方程理論中扮演著舉足輕重的角色。比較(7)與(12)式,各等式要成立其充分必要條件為質量中心落在圖形K上,即這相當於如果將視為xi之機率分配(一致分配),則Jensen不等式(7),也可以用機率的角度來看E為期望值。對於較一般的(6)式其意義仍是一樣的,即視x1,…,xn為n個點但其質量分別為pi而為其總質量,故有若視為點xi之機率分配,則上式可以期望值之形式表達出來,其形式與(15)式同。若仔細推敲,可知我們前面這些推導的過程中對維數(dimension)之依賴並不深,因此我們可自然地推廣至n維空間。例如設z=f(x,y)為一向上凹之曲面,則(7)式可推廣為或用向量之形式另一個方向的推廣則是想像粒子數目增加至無窮多個,如此我們便可以從離散型過渡到連續型,表記如下:這就是我們在數學上,尤其是分析學思想的過程而需要克服的問題──「收斂性」,即無窮級數或積分是否有意義(即是否收斂)。在區間[a,b]我們可以取分割點由(6)式知將上式表為Riemann和之形式再取極限,我們就有積分形式的Jensen不等式。定理(Jensen不等式一)若p滿足,且f為一凸函數,則更一般情形則將區間[a,b]代換為任意可測集合A()定理(Jensen不等式二)讀者若有機率或測度(measure)之概念,則可將p視為一密度函數,故有定理(Jensen不等式三)作個簡單的習題,其實就是例題1之推廣例題2:,,,試證四、Legendre變換關於Jensen不等式之證明,最簡單直接的方法就是用支撐線(supportingline)之概念,而這方法在F.Riesz寫給Hardy的信中(1930年)就曾提過關於幾何-算術平均不等式的證明,就是利用底下之不等式這就是支撐線(supportingline)之概念。圖六若f為區間(0,1)上的一個正的且可積函數,則由(24)式知()其中為f之算數平均,將上式積分一次得由對數函數之性質知或者表為仿此精神我們證明Jensen不等式圖七由圖形知y=f(r)+m(x-r),m=f'(r)為凸函數f(x)之支撐線(supportingline),即現在取r為質量中心而x則取為,則(26)式成為兩邊同時乘p並積分得但由r之選法知故得這就是Jensen不等式。在尚未作進一步論述之前,我們不禁要對F.Riesz的想法獻上我們的敬意。所謂的「好數學」便是以簡單的方法來解決困難的問題,而不是學了很深的數學然後再說Trivial簡單、容易。這基本土是對數學的無知。另外一門好的數學就是其本身有「將來性」,而非解完一個問題便壽終正寢。我們要特別強調的是Riesz所提支撐線的概念,實際上就是Legendre變換之化身。不失一般性可設函數上通過原點,f(0)=0因此通過(r,f(r))之切線方程式(即支撐線)為這式子告訴我們(f'(r),f(r)-rf'(r))唯一決定點(r,f(r))即這兩者之間可定義某種變換關係,而這就是我們要談的Legendre變換。在還沒有正式談Legendre變換之前,我們先看看(28)式之幾何意義。圖八首先將切線平移為通過原點斜率為f'(r)之直線因此[rf'(r)-f(r)]為直線y=f'(r)x之y截距,由圖形可知其實即直線y=f'(r)x與曲線y=f(x)相割後垂直距離最寬者,而這就是Legendre變換。記為直接由(31)式,即Legendre變換之定義可得的就是Young's不等式一般我們所熟知的形式為(利用Jensen不等式)有時候我們可略作變化則(33)式可改寫為這個技巧在分析尤其是偏微分方程中是常用的。上面這些探討主要是告訴讀者Legendre變換之本質是支撐線(supportingline)而實際上就是Young's不等式的另一形式。除此之外,支撐線的概念也提供我們重新定義凸函數之方法:定義:f為一定義在區間[a,b]之一連續函數,若對任意的點皆存在一相應之值,滿足下式則稱f為一凸函數。這個定義可由Taylor展開式來看。f在ξ點之Taylor展開式為若f為一凸函數,則f''0故有因此通常(35)式中之λ是取。五、Jensen不等式之應用應用一任給兩個正數a,b,其p階平均為現在考慮函數,pq,因為,故f為一凸函數(convexfunction)。因此由Jensen不等式知即故即如果將Np視為p之函數,則Np為p之增函數。同理可得積分形式的p階平均:則其中表示Ω之面積或體積。讀者若有實變函數論的觀念,則(39)式所表示的函數空間之關係為其中函數空間表示p次方後可積分之函數所形成之集合要特別叮嚀的是(40)式之關係,只有在之條件下才成立,因為此時質量中心才有定義。應用二凸函數在二維或更高維數的空間,例如複變函數,所對應的便是次調合函數(subharmonicfunction)對於此類函數具有非常重要地位的平均值不等式(mean-valueinequality)為BR(y)表示以y為圓心,半徑為R之n維球,則表示其球面,為n維單位球之體積。(43)式實際上就是Jensen不等式之一特例,但要特別叮嚀的是(41)式之積分區域務必要取均勻的球BR(y)或球面,因為此時y是BR(y)或的質量中心。由(43)式可推得最大值原理(maximumprinciple)。定理最大值原理(maximumprinciple):,,則這定理告訴我們一個定義在有界區域Ω之次調合函數,其最大值必定發生在邊界上。關於這件事實,我們亦可以凸函數之性質來想像。讀者可參考底下之圖形圖九另外在偏微分方程中的Laplace方程,解之存在性證明方法中的Perron方法,也可由此角度來思考。圖十1.D.GilbargandN.S.Trudinger,EllipticPartialDifferentialEquationsofSecondOrder,2nded.,Springer-Verlag(1983).2.G.H.Hardy,J.E.LittlewoodandG.Pólya,Inequalities,CambridgeUniversityPress,Cambridge(1952).3.FritzJohn,PartialDifferentialEquations,4thed.,Appl.Math.Sci.,1,Springer-Verlag(1982).4.T.Needham,AVisualExplanationofJensen'sInequality,AmericanMath.Monthly100,768-771(1993).附录CJensen不等式这个附录的目的是理解Jensen不等式,它是在本书中频频被引用的一个结果。假定x是一个带有均值E(x)的随机变量,并且f(x)是x的一个凸函数。命题C.1Jensen不等式(Jensen’sinequality)陈述的是如果f(x)是凸的,那么对于x的任何概率分布,E[f(x)]f[E(x)](C.1)如果f(x)是凹的,不等式是颠倒的。为了理解这个结果我们首先需要一些定义。如果一个函数弯曲成像一个碗的横截面,它是凸的;如果它弯曲成像一个倒扣着的碗的横截面,一个函数是凹的。i我们将提供一些例子以说明Jensen不等式,并随后提供一个证明(包括一个对凸性的更精确的证明)。C.1例:指数函数图C-1显示了一个指数函数的图形,f(x)=ex。注意ex是凸的。令x~Binomial(–1,1;0.5)。我们有E(x)=(0.5×–1)+(0.5×1)=0我们也有f(1)=e1=2.7183f(–1)=e–1=0.3679因此,f[E(x)]=eE(x)=e0=1和E[f(x)]=(0.5×e1)+(0.5×e–1)=1.5431它与Jensen不等式是一致的。图表\800.tif图C-1在图上,f(1)和f(–1)的平均位于连接那些点的弦上,它是图C-1中的直线。f(0)低于这个弦,这正是Jensen不等式所陈述的。C.2有关E(ex)的一个重要事实假定x~Binomial(–a,a;0.5)。Jensen不等式告诉我们,一般来说,E(ex)eE(x)。然而,假定我们通过从指数中减去0.5a2来调整指数函数。即,我们估计g(x)=250a.xe有趣的事实是,当a变小时,E[g(x)]趋于1。例如,假定a=0.1。那么E[g(x)]=0.52105010...e+0.52105010...e=0.5×1.0997+0.5×0.90031问题C.3要求你验证对于a的一个范围,E[g(x)]大约等于1,当a变得更大时,这个近似变差。例如,对于a=1,E[g(x)]=0.9359。这是一个相关的结果,在附录18.A中所证明的,如果z是带有均值0和方差1的正态分布,即,z~(0,1),那么E(ez)=250.e这给予我们以下结果:E(z.e250)=eC.3例:一个看涨期权的价格这里是Jensen不等