Conditions of Optimality
考虑对 f(x) 在极小值点 x∗ 进行泰勒展开,则有
f(x)=f(x∗)+[∇f(x∗)]TΔx∗+21[Δx∗]T[∇2f(x∗)]Δx∗+R其中 Δx∗=x−x∗, R 是包含高次 Δx∗ 的多项式。
如果梯度向量 ∇f(x)=0,这就说明 x 是一个稳定点 stationary point,例如极值点、鞍点、拐点等等。此时,我们可以通过 Hessian Matrix 进一步判断 x∗ 究竟是极小值点、极大值点、或是鞍点。
如果 quadratic form 满足
[Δx∗]T[∇2f(x∗)]Δx∗>0,Δx∗=0即 quadratic form 恒大于 0,我们称 Hessian Matrix 为 positive definite. 若不等号为 >0,则称之为 positive semidefinite. 类似的,可以定义出 negative definite 和 negative semidefinite. 若既有可能 positive 又有可能 negative,则称为 indefinite.
也可以通过检查 Hessian Matrix 的所有 eigenvalues 来判断。若全都 >0 则为 positive definite;若全都 ≥0,则为 positive semidefinite.
……无约束条件的优化问题
First-Order Necessary Condition
如果 x∗ 是极小值点,则 f(x) 在该点处的 Gradient Vector 为 0.
x∗ is a local minimum⟹∇f(x∗)=0
Second-Order Necessary Condition
如果 x∗ 是函数 f(x) 的极小值点,则 f(x) 在此处的二阶导为 positive definite 或者 positive semidefinite.
x∗ is a local minimum⟹∇2f(x) is positive (semi)definite
Second-Order Sufficient Condition
若 ∇2f(x∗) 是 positive definite 的,并且满足了 First Order Necessary Condition,那么,x=x∗ 是 f(x) 的极小值点。
如果 x0 只满足必要条件,但不满足任何充分条件,我们无法断定 x0 是极小值点。
……有约束条件的优化问题
新的问题:最优解的点可能会出现在边界上
为了解决这个问题,我们对约束条件乘上 Lagrange multiplier λ 然后加到 objective function 里面,组成新的复合 objective function Lagrange Function (Lagrangean) L.
=++L(x,λ,s)f(x)j=1∑mλj[gj(x)+sj2]k=1∑lλm+k[hk(x)]其中 s 为 slack variable,λi 是 Lagrange Multiplier。Lagrange Function 的设计使得我们可以像处理 unconstrained problem 那样处理 constrained problems,通过 λ 和 slack variable 保证约束的满足。
此时也要把 λ,sj 也看成是变量,对其求导并令其导数为 0.
Conditions of Optimality 使用条件
当且仅当 x0 是 Regular point 的时候才可以对 constrained problem 使用 unconstrained problem 的判定技巧。
Regular point 是指,等式约束以及 active 的不等式约束在 x0 处的一阶导数 ∇hk(x0),∇gj(x0) 是 线性无关 (linearly independent) 的
Karush-Kuhn-Tucker Conditions(有约束情形下的一阶导必要条件)
通过对 Lagrange function 求导,我们既可以得到约束条件,又可以得到 f(x) 的导数:
∇L(x∗,λ,s)=∇f(x∗)+j=1∑mλj∇gj(x∗)+k=1∑lλm+k∇hk(x∗)=0∂λj∂L=gj(x∗)+sj2=0∂λm+k∂L=hk(x∗)=0∂sj∂L=2λjsj=0
- λj 需要非负,λm+k 则随意
- 对 sj2 项求导可知,要么 sj=0 要么 λj=0(或者都是)
Second Order Necessary Condition(有约束情形下的二阶导必要条件)
若 x=x∗ 是 f(x) 的极小值点,则 Lagrange Function 的 Hessian Matrix 的 Quadratic form 满足:
(Δx∗)T∇2L(x∗,λ∗,s∗)(Δx)≥0其中 Δx∗=0 并且与 Active Constraints 的 Gradient Vector 互相 Orthogonal,即
[∇gj(x∗)]TΔx∗=0,where gj(x∗)≤0 is active[∇hk(x∗)]TΔx∗=0这是为了保证 Δx∗ 的移动方向是 feasible 的.
Second Order Sufficient Condition(有约束情形下的二阶导充分条件)
若 Lagrange Function 的 Hessian Matrix 满足
(Δx∗)T∇2L(x∗,λ∗,s∗)Δx∗>0并且 Δx∗=0 满足
⎩⎨⎧∇gj(x∗)TΔx∗=0,∇gj(x∗)TΔx∗≤0,∇hk(x∗)TΔx∗=0,if λj∗>0if λj∗=0k={1,2,…,l}