最优化考试内容
期末考试题型
总分100,时间120min
简答题(名词解释),共5小题,每题6分,共30分
计算题,共5小题,每题10分,共50分
证明题,共2小题,每题10分,共20分
简答题
- 凸集、仿射集、凸锥
- 凸函数、凸函数的判定定理、与标量函数的复合、共轭函数
- 凸优化问题的标准形式、线性规划的标准形式、二次规划的标准形式、半定规划的标准形式
- Armijo准则、次梯度的定义
- 拉格朗日函数、拉格朗日对偶函数、拉格朗日对偶问题、弱对偶原理、Slater条件与强对偶、KKT条件
- 交替方向乘子法适用的类型、算法步骤
计算题
- 课件中的例子
- 平时作业
- 2.6(1)和(2),2.7,2.12(b)
- 2.13,4.1,4.3
- 6.2
- 5.7,5.10(求出KKT点),5.16
证明题
- 凸优化问题的可行域、解集都是凸集
- 弱对偶原理
- Slater条件满足时,KKT条件是凸问题全局最优解的一阶充要条件
- Slater条件说明强对偶性成立,且最优化可以达到
- 必要性,充要性
- 交替方向乘子法的收敛性准则
相关内容
简答题
- 凸集、仿射集、凸锥
定义:
【凸集】: 如果连接集合
\mathcal{S}
中的任意两点的线段都在\mathcal{S}
内,则称\mathcal{S}
为凸集,即x_{1},x_{2}\in S\Rightarrow\theta x_{1}+(1-\theta)x_{2}\in S,0\leqslant\forall\theta\leqslant1
【仿射集】: 若过集合
\mathcal{S}
中的任意两点的直线都在\mathcal{S}
内,则称\mathcal{S}
为仿射集,即x_{1},x_{2}\in S\Rightarrow\theta x_{1}+(1-\theta)x_{2}\in S,\forall\theta\in\mathbb{R}.
锥: 对于集合
\mathcal{S}
中的任意点x
和任意\theta\geq 0
都有\theta x\in \mathcal{S}
.锥组合: 形如
x=\theta_{1}x_{1}+\cdot\cdot\cdot+\theta_{k}x_{k},\theta_{i}\geqslant0~(i=1,\cdot\cdot\cdot\cdot,k).
的点称为
x_1,\cdots, x_k
的锥组合.【凸锥】: 若集合
\mathcal{S}
中任意点的锥组合都在\mathcal{S}
中,则称\mathcal{S}
为凸锥.
凸函数、凸函数的判定定理、与标量函数的复合、共轭函数
【凸函数定义】:
函数
f:\mathbb{R}^{n}\to\mathbb{R}
,若\mathrm{dom}f
是凸集,且f(\theta x+(1-\theta)y)\le\theta f(x)+(1-\theta)f(y)
对所有
x,y\in\mathsf{d o m}f~,0\le\theta\le1
都成立,则称f
是凸函数
【凸函数的判定定理】:
f:\mathbb{R}^{n}\to\mathbb{R}
是凸函数,当且仅当对每个x\in\mathsf{d o m}f,v\in\mathbb{R}^{n}
,函数g:\mathbb{R}\to\mathbb{R}
是关于t
的凸函数g(t)=f(x+t\nu),\quad\mathrm{dom}~g=\{t|x+t\nu\in\mathrm{dom}f\}
【与标量函数的复合】:
给定函数g: \mathbb{R}^n\rightarrow \mathbb{R}
和h:\mathbb{R}\rightarrow \mathbb{R}
,
f(x)=h(g(x))
若
g
是凸函数,h
是凸函数,\tilde{h}
单调不减g
是凹函数,h
是凸函数,\tilde{h}
单调不增
那么f
是凸函数
对于n=1
,g,h
都可微分的情况,给出简证
f^{\prime\prime}(x)=h^{\prime\prime}(g(x))g^\prime(x)^2+h^\prime(g(x))g^{\prime\prime}(x).
要使得f^{\prime\prime}(x)\geq 0
,那么需要每一项都大于等于,充分条件为:
h^{\prime\prime}(g(x))\geq 0,h^\prime(g(x))\geq 0,g^{\prime\prime}(x)\geq 0
h^{\prime\prime}(g(x))\geq 0,h^\prime(g(x))\leq 0,g^{\prime\prime}(x)\leq 0
那么则分别对应两种情况
h
为凸函数,h
不递减,g
为凸函数h
为凸函数,h
不递增,g
为凹函数
g,h
不可微分的时候,结论依然成立
推论:
- 如果
g
是凸函数,则\exp g(x)
是凸函数 - 如果
g
是正值凸函数,则1/g(x)
是凸函数
【共轭函数】
函数f
的共轭函数定义为
f^{*}(y)=\operatorname*{sup}_{x\in\mathrm{dom}f}(y^\mathsf{T}x-f(x))
例子:f(x)=-\log x
和f(x)=(1/2)x^{T}Q x,~Q\in\mathbb{S}_{++}^{n}
- 凸优化问题的标准形式、线性规划的标准形式、二次规划的标准形式、半定规划的标准形式
【凸优化问题的标准形式】
标准形式的凸优化问题
\begin{align} \min _{x \in D} \quad & f(x) \\ \text { s.t. } \quad & g_i(x) \leq 0, \quad i=1, \ldots, m \\ & A x=b \end{align}
- 目标函数
f
、不等式约束条件g_i
都是凸函数,必须是Ax=b
- 定义域
D=\text{dom }f\cap (\cap_{i=1}^m\text{dom }g_i)
通常省略 - 可行域为
X=D\cap\{x\mid g_i(x)\leq 0,i=1,2,\cdots,m,Ax=b\}
注意:凸优化问题的可行域为凸集
【线性规划的标准形式】
标准形式的线性规划问题
\begin{align}{} \operatorname*{min}_{x \in \mathbb{R}^n} \quad & c^\mathsf{T}x \\ \text { s.t. } \quad &Ax=b, \quad i=1, \ldots, m \\ & x\geq 0. \end{align}
【二次规划的标准形式】
二次规划的标准形式
\begin{align}{} \operatorname*{min}_{x} \quad & \frac{1}{2}x^\mathsf{T}Px+q^\mathsf{T}x \\ \text { s.t. } \quad & x\geq 0,\\\quad &Ax=b. \end{align}
P\in \mathcal{S}^n_+
(半正定)
【半定规划的标准形式】
半定规划的标准形式
\begin{align}{} \operatorname*{min}_{x} \quad & \langle C, X\rangle, \\ \text { s.t. } \quad & \langle A_1,X\rangle=b_1,\\ &\cdots\\ \quad &\langle A_m,X\rangle=b_m,\\ &X\succeq0. \end{align}
Armijo准则、次梯度的定义
【Armijo准则】
设
d^k
是点x^k
处的下降方向,若f(x^{k}+\alpha d^{k})\le f(x^{k})+c_{1}\alpha\nabla f(x^{k})^{\mathrm{T}}d^{k},
则称步长
\alpha
满足\mathbf{Armijo}
准则,其中c_1\in (0,1)
是一个常数.
\phi(\alpha)=f(x^{k}+\alpha d^{k})
可知\phi(0)=f(x^k),\phi^{\prime}(\alpha)=\nabla f(x^{k}+\alpha d^{k})^{T}d^{k}
,在\alpha=0
处的一阶近似为\phi(\alpha){\approx}f(x^{k})+\alpha\nabla f(x^{k})^{T}d^{k}
- 引入Armijo准则的目的是保证每一步迭代充分下降
- Armijo准则有直观的几何含义,它指的是点
(\alpha,\phi(\alpha))
必须要在直线
l(\alpha)=\phi(0)+c_{1}\alpha\nabla f(x^{k})^{\mathrm{T}}d^{k}
的下方,上图中区间[0,\alpha_1]
中的点均满足Armijo准则
- 参数
c_1
通常选一个很小的正数,例如c_1=10^{-3}
【次梯度的定义】
- 可微凸函数
f
的一阶条件:f(y)\geq f(x)+\nabla f(x)^\mathsf{T}(y-x),
即凸函数
f
的线性近似总是在其下方.
- 设
f
为凸函数,x\in \mathrm{dom} f
. 若向量g\in\mathbb{R}^n
满足f(y)\geq f(x)+g^\mathsf{T}(y-x),\quad \forall y\in \mathrm{dom} f,
则称
g
为函数f
在点x
处的一个次梯度.
f(x)+g^{\mathrm{T}}(y-x)
是f(y)
的一个全局下界- 凸函数
f(x)
的次梯度总是存在(x
是定义域的内点) - 如果
f
是可微凸函数,那么\nabla f(x)
是f
在点x
处的唯一次梯度 - 例:
g_2,g_3
是点x_2
的次梯度,g_1
是点x_1
处的次梯度
拉格朗日函数、拉格朗日对偶函数、拉格朗日对偶问题、弱对偶原理、Slater条件与强对偶、KKT条件
【拉格朗日函数】
一般的约束优化问题(没有要求是凸问题)
\begin{align*}
\min_{x\in\mathbb{R}}\quad &f_0(x)\\
\text{s.t.}\quad &f_i(x)\leq,i = 1,\cdots,m,\\
& h_j(x)=0,j=1,\cdots ,q.
\end{align*}
最优值是p^*
,可行域是所有约束条件的交集\mathcal{X}
拉格朗日函数定义
L:\mathbb{R}^{n}\times\mathbb{R}_{+}^{m}\times\mathbb{R}^{q}~\to~\mathbb{R}
L(x,\lambda,\nu)=f_{0}(x)+\sum_{i=1}^{m}\lambda_{i}f_{i}(x)+\sum_{j=1}^{q}\nu_{j}h_{j}(x)
\lambda_i
为第i
个不等式约束的乘子\nu_j
为第j
个等式约束的乘子
【拉格朗日对偶函数】
拉格朗日对偶函数
g:\mathbb{R}_{+}^{m}\times\mathbb{R}^{q}~\to~[-\infty,+\infty)
\begin{align*} g(\lambda,v)&=\inf_{x\in\mathbb{R}^n} L(x,\lambda,v)\\ &=\inf_{x\in\mathbb{R}^n} (f_{0}(x)+\sum_{i=1}^{m}\lambda_{i}f_{i}(x)+\sum_{j=1}^{q}\nu_{j}h_{j}(x)) \end{align*}
PS:inf
是下界的意思
对偶函数g(\lambda, \nu)
是L(x,\lambda,\nu)
对任意x
的下界
【弱对偶原理】
若
\lambda \geq 0
则g(\lambda, \nu)\leq p^*
.
弱对偶原理描述了原问题和对偶问题间关系。如果\lambda\geq 0
那么g(\lambda,\nu)
最优值d^*
永远小于等于最优值p^*
原因是因为对偶函数对于x
没有限制,而拉格朗日函数对x
有约束。
那么既然可行域都不一样,研究还有什么意义吗?其实对偶函数的解是拉格朗日函数解的下界,可以通过研究对偶值d^*
来判断原始问题解的质量。在KKT条件下(强对偶条件),d^*=p^*
。
【拉格朗日对偶问题】
拉格朗日对偶问题:
\operatorname*{max}_{\lambda\ge0,\nu}~g(\lambda,\nu)=\operatorname*{max}_{\lambda\ge0,\nu}\operatorname*{inf}_{x\in\mathbb{R}^{n}}~L(x,\lambda,\nu)
- 称
\lambda
和\nu
为对偶变量,对于最优值设为d^*
d^*
为p^*
的最优下界,称p^*-d^*
为对偶间隙- 无论原问题是否为凸,拉格朗日对偶问题总是凸优化问题
\mathsf{d o m}~g=\{(\lambda,\nu)\mid\lambda\ge0,g(\lambda,\nu)>-\infty\}
,其中元素称为对偶可行性解
【Slater条件与强对偶】
Slater约束品性定义:
对凸优化问题
\operatorname*{min}_{x\in\mathcal{D}}~~f_{0}(x),\quad\mathrm{s.t.}~~f_{i}(x)\leqslant0,~i=1,2,\cdots,m,\quad A x=b,
若存在
x\in\mathrm{relint}~\mathcal{D}
满足f_{i}(x)<0,\quad i=1,2,\cdots,m,\quad A x=b,
则称对此问题Slater约束品性满足. 该约束品性也称为Slater条件
\mathcal{D}
是可行域,\mathrm{relint}
表示相对内部,需要存在一个严格满足所有不等式约束的点,并且满足等式约束。- 核心要求:Slater条件要求在凸优化问题中,至少存在一个“严格可行点”(strictly feasible point),它位于不等式约束的内部。
- 如果不等式约束是仿射函数时候,可以放宽,前
k
个不等式若仿射则可以等于
举例(满足Slater条件):
\begin{aligned}{}{\underset{x}{\operatorname*{min}}}\quad &{{}x_{1}^{2}+x_{2}^{2},}\\ {\mathrm{s.t.}}\quad &{{}x_{1}+x_{2}\le1,}\\ &{x_{1}-x_{2}\le1.}\end{aligned}
不等式约束形成了一个多边形区域,我们可以找到一个点x=(0,0)
满足不等式约束,所以Slater条件成立,满足强对偶性。(内部非空)
几何意义:如果所有可行点都“刚好”位于约束边界例如f_i(x)=0
,那么拉格朗日函数下界可能过于松弛。
通过这种几何自由度,可以证明拉格朗日乘子\lambda, \nu
存在,并且优化问题的原始最优值 p^*
与对偶最优值 d^*
是相等的。
【强对偶性】
定理:
若凸优化问题满足Slater条件,则强对偶性成立.
Slater条件:
- 凸问题.
- 可行域内存在
x
使得非仿射不等式约束严格成立.
【KKT条件】
定理(凸优化问题的一阶充要条件)
考虑凸优化问题,且
f_0
和f_i
可微,\nabla f_0,\nabla f_i
表示梯度. 若强对偶性成立,则x^*
和\lambda^*,\nu^*
分别是原始和对偶问题的全局最优解当且仅当KKT
条件成立,KKT
条件为稳定性条件
\quad 0=\nabla f_{0}\left(x^{*}\right)+\sum_{i=1}^{m} \lambda_{i}^{*} \nabla f_{i}\left(x^{*}\right)+A^{T} \nu^{*}
,原始可行性条件
f_{i}\left(x^{*}\right) \leq 0, i=1, \cdots, m ; \quad A x^{*}=b
,对偶可行性条件
\quad \lambda_{i}^{*} \geq 0, i=1, \cdots, m
,互补松驰条件
\quad \lambda_{i}^{*} f_{i}\left(x^{*}\right)=0, i=1, \cdots, m .
我的作业
最优化理论与方法 作业 1
练习2.6:
-
计算下列矩阵变量函数的导数
(a)
f(X) = a^\mathsf{T}Xb
,这里X \in \mathbb{R}^{m \times n}, a \in \mathbb{R}^m, b \in \mathbb{R}^n
为给定的向量。
解答:
通过定义求解,对于任意方向V\in\mathbb{R}^{m\times n}
,可以求解:
\begin{align*}
\lim_{t\rightarrow 0}\dfrac{f(X+tV)-f(X)}{t}&=\lim_{t\rightarrow 0}\dfrac{a^\mathsf{T}(x+tV)b-a^\mathsf{T}xb}{t}\\
&=\lim_{t\rightarrow 0}\dfrac{ta^\mathsf{T}Vb}{t}\\
&=a^\mathsf{T}Vb\\
&=\mathrm{Tr}(a^\mathsf{T}Vb)\\
&=\mathrm{Tr}(ba^\mathsf{T}V)\\
&=\langle (ba^\mathsf{T})^\mathsf{T},V\rangle\\
&=\langle ab^\mathsf{T},V\rangle
\end{align*}
所以f(X) = a^\mathsf{T}Xb
的导数是\nabla f(X)=ab^\mathsf{T}
(b) f(X) = \mathrm{Tr}(X^\mathsf{T}AX)
,其中 X \in \mathbb{R}^{m \times n}
是长方形矩阵,A
是方阵(但不一定对称)。
解答:
通过定义求解,对于任意方向V\in\mathbb{R}^{m\times n}
,可以求解:
\begin{align*}
\lim_{t\rightarrow 0}=\dfrac{f(X+tV)-f(X)}{t}&=\lim_{t\rightarrow 0}\dfrac{\mathrm{Tr}((X+tV)^\mathsf{T}A(X+tV))-\mathrm{Tr}(X^\mathsf{T}AX)}{t}\\
&=\lim_{t\rightarrow 0}\dfrac{\mathrm{Tr}(X^\mathsf{T}AX)+t\mathrm{Tr}(X^\mathsf{T}AV)+t\mathrm{Tr}(V^\mathsf{T}AX)+t^2\mathrm{Tr}(V^\mathsf{T}AV)-\mathrm{Tr}(X^\mathsf{T}AX)}{t}\\
&=\lim_{t\rightarrow 0}\dfrac{t(\mathrm{Tr}(X^\mathsf{T}AV)+\mathrm{Tr}(V^\mathsf{T}AX))+t^2\mathrm{Tr}(V^\mathsf{T}AV)}{t}\\
&=\mathrm{Tr}(X^\mathsf{T}AV)+\mathrm{Tr}(V^\mathsf{T}AX)\\
&=\langle A^\mathsf{T}X,V\rangle+\langle V,AX\rangle\\
&=\langle A^\mathsf{T}X+AX,V\rangle
\end{align*}
所以f(X) = \mathrm{Tr}(X^\mathsf{T}AX)
的导数是\nabla f(X)=A^\mathsf{T}X+AX
练习2.7
- 考虑二次不等式
x^\mathsf{T}Ax+b^\mathsf{T}x+c\leq 0
其中A
为n
阶对称矩阵,设C
为上述不等式的解集.
(a) 证明:当 A
正定时,C
为凸集。
解答:
对于二次不等式x^\mathsf{T}Ax+b^\mathsf{T}x+c\leq 0
进行分析,因为矩阵A
对称正定,所以x^\mathsf{T}Ax> 0
恒成立,所以该二次型是关于x
的凸函数。并且b^\mathsf{T}x+c
是线性函数,即x^\mathsf{T}Ax+b^\mathsf{T}x+c\leq 0
也是个凸函数,该问题是一个凸优化问题。
要证明C
为凸集,则可以利用凸函数的下水平集是凸集的性质,因此集合C
是凸函数f(x)
对应的下水平集:
C=\{x\in\mathbb{R}^{n}|f(x)\leq 0\}
因此C
是凸集,证毕。
也可以通过定义证明,要想证明C
是凸集,对于集合C
,对于任意的x_1,x_2\in C
且\theta\in [0,1]
,都有
x=\theta x_1+(1-\theta)x_2\in C
则C
为凸集。
现在对于任意的x_1,x_2\in C
且\theta\in [0,1]
,有
\begin{align*}
f(x_1)&=x_1^\mathsf{T}Ax_1+b^\mathsf{T}x_1+c\leq 0\\
f(x_2)&=x_2^\mathsf{T}Ax_2+b^\mathsf{T}x_2+c\leq 0\\
x&=\theta x_1+(1-\theta)x_2
\end{align*}
代入f(x)
中有:
\begin{align*}
f(x)&=f(\theta x_1+(1-\theta)x_2)\\
&=(\theta x_1+(1-\theta)x_2)^\mathsf{T}A(\theta x_1+(1-\theta)x_2)+b^\mathsf{T}(\theta x_1+(1-\theta)x_2)+c\\
&=\theta^2x_1^\mathsf{T}Ax_1+(1-\theta)^2x_2^\mathsf{T}Ax_2+\theta x_1^\mathsf{T}(1-\theta)x_2+(1-\theta)x_2^\mathsf{T}A\theta x_1+\theta b^\mathsf{T}x_1+(1-\theta)b^\mathsf{T}x_2+c
\end{align*}
利用凸函数的性质,若证明C
为凸集,即证明x\in C
,则需要满足
f(\theta x_1+(1-\theta)x_2)\leq \theta f(x_1)+(1-\theta)f(x_2)\leq 0
我们先计算该线性组合:
\begin{align*}
\theta f(x_1) + (1-\theta)f(x_2) &= \theta \left( x_1^\mathsf{T}Ax_1 + b^\mathsf{T}x_1 + c \right) + (1-\theta) \left( x_2^\mathsf{T}Ax_2 + b^\mathsf{T}x_2 + c \right) \\
&= \theta x_1^\mathsf{T}Ax_1 + \theta b^\mathsf{T}x_1 + \theta c + (1-\theta)x_2^\mathsf{T}Ax_2 + (1-\theta)b^\mathsf{T}x_2 + (1-\theta)c \\
&= \theta x_1^\mathsf{T}Ax_1 + (1-\theta)x_2^\mathsf{T}Ax_2 + \theta b^\mathsf{T}x_1 + (1-\theta)b^\mathsf{T}x_2 + c
\end{align*}
我们将二者做差,可以得到:
\begin{align*}
\theta f(x_1) + (1-\theta)f(x_2) - f(\theta x_1 + (1-\theta)x_2) &= \theta \left( x_1^\mathsf{T}Ax_1 + b^\mathsf{T}x_1 + c \right) + (1-\theta)\left( x_2^\mathsf{T}Ax_2 + b^\mathsf{T}x_2 + c \right) \\
&\quad - \left( \theta^2 x_1^\mathsf{T}Ax_1 + 2\theta(1-\theta)x_1^\mathsf{T}Ax_2 + (1-\theta)^2 x_2^\mathsf{T}Ax_2 \right. \\
&\quad \left. + \theta b^\mathsf{T}x_1 + (1-\theta)b^\mathsf{T}x_2 + c \right) \\
&= \theta x_1^\mathsf{T}Ax_1 + (1-\theta)x_2^\mathsf{T}Ax_2 + \theta b^\mathsf{T}x_1 + (1-\theta)b^\mathsf{T}x_2 + c \\
&\quad - \theta^2 x_1^\mathsf{T}Ax_1 - 2\theta(1-\theta)x_1^\mathsf{T}Ax_2 - (1-\theta)^2 x_2^\mathsf{T}Ax_2 \\
&= \theta(1-\theta)x_1^\mathsf{T}Ax_1 + (1-\theta)\theta x_2^\mathsf{T}Ax_2 - 2\theta(1-\theta)x_1^\mathsf{T}Ax_2 \\
&= \theta(1-\theta) \left( x_1^\mathsf{T}Ax_1 + x_2^\mathsf{T}Ax_2 - 2x_1^\mathsf{T}Ax_2 \right) \\
&= \theta(1-\theta) (x_1 - x_2)^\mathsf{T}A(x_1 - x_2)
\end{align*}
因为A
是对称正定的,所以\forall x
都满足x^\mathsf{T}Ax >0
,那么(x_1-x_2)^\mathsf{T}A(x_1-x_2)>0
,因为\theta\in [0,1]
,所以\theta (1-\theta)\geq 0
,所以等式左边恒大于,即
\begin{align*}
&\theta f(x_1) + (1-\theta)f(x_2) - f(\theta x_1 + (1-\theta)x_2) \geq 0\\
&f(\theta x_1 + (1-\theta)x_2) \leq \theta f(x_1) + (1-\theta)f(x_2)\leq 0
\end{align*}
所以x=\theta x_1+(1-\theta)x_2\in C
,C
是一个凸集,证毕。
(b) 设 C^\prime
是 C
和超平面 g^\mathsf{T} x + h = 0
的交集(g \neq 0
),若存在 \lambda \in \mathbb{R}
,使得 A + \lambda g g^\mathsf{T}
半正定,证明:C^\prime
为凸集。
解答:
首先通过第一问我们可以得到当A
是正定的时候,x^\mathsf{T}Ax+b^\mathsf{T}x+c\leq 0
的解集是一个凸集,如果是半正定同理也可以。\
现在有g^\mathsf{T}+h=0
的约束条件,C^\prime
是C
和g^\mathsf{T}x+h=0
的交集,若要证明C^\prime
是凸集,则需要在f(x)
基础上加上约束条件并证明其是凸函数。\
考虑到f(x)
中有二次型x^\mathsf{T}Ax
,我们可以增加(g^\mathsf{T}x+h)^2=0
的约束条件,并且引入\lambda
,可以构造:
\begin{align*}
g(x)&=x^\mathsf{T}Ax+b^\mathsf{T}x+c+\lambda(g^\mathsf{T}x+h)^2\\
&=x^\mathsf{T}Ax+b^\mathsf{T}x+c+\lambda(g^\mathsf{T}x)^2+2\lambda hg^\mathsf{T}x+\lambda h^2\\
&=x^T(A+\lambda gg^\mathsf{T})x+(b^\mathsf{T}+2\lambda hg^\mathsf{T})x+\lambda h^2+c
\end{align*}
现在对g(x)
进行分析,其中二次型为x^T(A+\lambda gg^\mathsf{T})x
,因为A+\lambda gg^\mathsf{T}
是半正定的,所以该二次型是凸函数。而线性部分为(b^\mathsf{T}+2\lambda hg^\mathsf{T})x+\lambda h^2+c
也是线性函数,所以g(x)
是凸函数。\
因为g(x)
是一个凸函数,所以其的解集是凸集。因为该函数是由f(x)
和约束条件构成的,所以C^\prime
就是该解集,即C^\prime
就是凸集,证毕。
练习2.12
求下列函数的共轭函数
- (b) 矩阵对数:
f(x) = -\ln \det(X)
解答:
对于函数f(X) = -\ln \det(X)
,其共轭函数是f^*(X)\sup_{x\in\text{dom }f}(\mathrm{Tr}(Y^\mathsf{T}X)-f(X))
,我们令函数\
g(X)=\mathrm{Tr}(Y^\mathsf{T}X)-f(X)=\mathrm{Tr}(Y^\mathsf{T}X)+\ln\det(X)
对其求导,使用行列式求导公式\dfrac{\partial\det (X)}{\partial X}=\det(X)(X^{-1})^\mathsf{T}
,并另其等于可以得到
\begin{align*}
g^\prime(X)&=Y+\dfrac{1}{\det(X)}\cdot\dfrac{\partial\det(X)}{\partial (X)}\\
&= Y+\dfrac{1}{\det(X)}\cdot\det(X)(X^{-1})^\mathsf{T}\\
&=Y+(X^{-1})^\mathsf{T} =0
\end{align*}
这样就可以得到
X^*=-(Y^{-1})^\mathsf{T}
那么对于共轭函数f^*(Y)=g(X)=\mathrm{Tr}(Y^\mathsf{T}X)+\ln\det(X)
则有
\begin{align*}
f^*(Y)&=\mathrm{Tr}(Y^\mathsf{T}(-(Y^{-1})^\mathsf{T}))+\ln\det(-(Y^{-1})^\mathsf{T})\\
&=\mathrm{Tr}(-Y^\mathsf{T}\cdot(Y^\mathsf{T})^{-1})+\ln\det(-Y^{-1})\\
&=\mathrm{Tr}(-I)-\ln\det(-Y)\\
&=-n-\ln\det(-Y)
\end{align*}
所以,f(X) = -\ln \det(X)
共轭函数为-n-\ln\det(-Y)
,并且需要满足Y\prec 0
.
文章评论