變分法理解2——基本方法

09-12

變分法理解2——基本方法

來自專欄機器學習與數學9 人贊了文章

本文是變分法理解系列的第2篇文章，第一篇文章見變分法理解1——泛函簡介，本文的要點如下：

基本概念
兩個引理
什麼是函數的變分
什麼是泛函的變分
歐拉-拉格朗日方程（Euler–Lagrange equation）的證明

基本概念

具有某種共同性質的函數構成的集合稱為類函數，記作F。例如在最速降線例子中的所有曲線都通過點O和A，通過點O和A就是函數集合具有的共同性質。

如果一個類函數中的某個函數能夠使某個泛函取得極值或可能取得極值，則該類函數稱為變分問題的可取類函數。可取類函數中的函數有無窮多個，其中任何一個都稱為可取函數。

類函數中能使泛函取得極值或可能取得極值的函數或曲線稱為極值函數，也稱為變分問題的解。

變分法的核心問題就是求解泛函的極值函數和極值函數對應的泛函極值。

如果可取曲線類的曲線端點預先給出且為定值，則所求泛函極值的問題稱為固定端點變分問題。

引理

引理1

如果函數 f(x) 在[a,b]內連續， $eta(x) in [a,b]$ 是滿足 $eta(a)=eta(b)=0$ 的任意函數，如果

$int_a^b f(x)eta(x)dx=0$

成立，那麼對於所有的 $x in [a,b]$ ，有 $f(x) equiv 0$ 。

證明：

反證法，設f(x)不恆為0

由 $eta(x)$ 的任意性，取 $eta(x)=-f(x)(x-a)(x-b)$ ，x是a和b之間變動的變數，所以(x-a)(x-b)為負，由f(x)不恆為0，有：

$int_a^b f(x)eta(x)dx=int_a^b -f(x)^2 (x-a)(x-b)>0$

與條件矛盾，所以 $f(x) equiv 0$

引理2

如果函數 f(x),g(x) 在[a,b]內連續， $eta(x),xi(x) in [a,b]$ 是滿足 $eta(a)=eta(b)=0$ 且 $xi(a)=xi(b)=0$ 的任意函數，如果

$int_a^b [f(x)eta(x)+ g(x)xi(x)]dx=0$

成立，那麼對於所有的 $x in [a,b]$ ，有 $f(x) equiv g(x) equiv 0$ 。

證明：

反證法，設f(x)和g(x)不恆為0

由 $eta(x),xi(x)$ 的任意性，取 $eta(x)=-f(x)(x-a)(x-b),xi(x)=-g(x)(x-a)(x-b)$ ，x是a和b之間變動的變數，所以(x-a)(x-b)為負，則：

$int_a^b [f(x)eta(x)+ g(x)xi(x)]dx=int_a^b [f(x)^2+ g(x)^2][-(x-a)(x-b)]dx > 0$

這與條件矛盾，所以 $f(x) equiv g(x) equiv 0$

函數的變分

對於任意定值 $x in [x_0,x_1]$ ，可取函數 y(x) 與另一可取函數 $y_0(x)$ 之差 $y(x)-y_0(x)$ 稱為函數y(x) 在 $y_0(x)$ 處的變分或者叫函數的變分，記作 $delta y$ ，其中 $delta$ 稱為變分運算元，那麼

$delta y = y(x)-y_0(x)=epsilon eta(x)$

關於 $epsilon eta(x)$ 下文會詳細講

這裡注意一下函數的變分 $delta y$ 與函數的增量 $Delta y$ 之間的區別，如圖所示：

函數的變分 $delta y$ 是兩個不同的函數 y(x) 和 $y_0(x)$ 在自變數x固定時的差，這是函數發生了改變。
函數的增量 $Delta y$ 是自變數x的增量使得函數 y(x) 產生的增量，函數依然是原來的函數。

最簡泛函的變分

設 F(x,y(x),y(x)) 是三個獨立變數 x,y(x),y(x) 在區間 $[x_0,x_1]$ 上的已知函數，且二階連續可微，其中 y(x) 和 y(x) 是x的未知函數，則泛函：

$J[y(x)]=int_{x_0}^{x_1} F(x,y(x),y(x))dx$

被稱為最簡泛函，被積函數F成為泛函的核。

在 $y=y(x)$ 的一階鄰域內，任取一曲線 $y=y_1(x)$ ，則：

$delta y = y_1(x)-y(x),delta y=y_1(x)-y(x)$

那麼最簡泛函 J[y(x)] 的增量為：

$Delta J = J[y_1(x)]-J[y(x)]=J[y(x)+delta y]-J[y(x)]$

$= int_{x_0}^{x_1} F(x,y+delta y,y+delta y)dx-int_{x_0}^{x_1} F(x,y,y)dx$

$=int_{x_0}^{x_1} [F(x,y+delta y,y+delta y)-F(x,y,y)] dx$

可以證明 $Delta J=delta J+d[y(x),delta y]$ ，其中 $d[y(x),delta y]$ 是 $delta y$ 高階的無窮小量，而 $delta J$ 稱為泛函的變分：

$delta J = int_{x_0}^{x_1} (F_y delta y + F_{y} delta y)dx$

Euler–Lagrange equation

回顧變分法理解1——泛函簡介中的最速降線問題：

設 $ilde y(x)$ 是一個可取類函數，即圖中所有實線和虛線的集合。

在可取類函數 $ilde y(x)$ 中存在一個二階可微的極值函數y(x)（圖中的實線）使得重物從O到A點的時間最短，即y(x)可以使泛函 $displaystyle t=J[ ilde y(x)]=int_0^a sqrt{frac{(1 + ( ilde y)^2)}{2g ilde y}}dx$ 取得極值。

可以用y(x)表示可取類函數中的所有曲線：

$ilde{y}(x)= y(x)+delta y= y(x)+epsilon eta(x)$

其中 $epsilon$ 為Lagrange引入的實數， $eta(x)$ 是滿足 $eta(x_0)=eta(x_1)=0$ 的可微函數，可以看出在 $epsilon=0$ 時 $ilde{y}(x)= y(x)$ ，使泛函 $displaystyle t=J[ ilde y(x)]=int_0^a sqrt{frac{(1 + ( ilde y)^2)}{2g ilde y}}dx$ 取得極值為 J[y(x)]。

而泛函 $J[ ilde y(x)]$ 可以表示為：

$phi(epsilon)=J[ ilde y(x)]=J[y(x)+epsilon eta(x)] = int_{x_0}^{x_1} F(x,y(x)+epsilon eta(x),y(x)+epsilon eta(x))dx$

上式是一個關於 x 積分式，在求解積分之後，剩下的只有 $epsilon$ ，因此它其實是 $epsilon$ 的函數，這個函數的特性是在 $epsilon=0$ 時取得極值J[y(x)]，也就是在 $epsilon=0$ 時， $phi(epsilon)$ 滿足：

$frac{d phi}{d epsilon}|_{epsilon=0} = 0$

由求導與積分順序的可交換性， $displaystyle frac{d phi}{d epsilon}$ 形式如下：

$frac{d phi}{d epsilon} = int_{x_0}^{x_1} {F_y[x,y(x)+epsilon eta(x),y(x)+epsilon eta(x)]eta(x)+ F_{y}[x,y(x)+epsilon eta(x),y(x)+epsilon eta(x)]eta(x) }dx$