[二次型] - 线性代数,最优化总结

若函数f:RnRf: \mathbb{R}^n \rightarrow \mathbb{R}可以表示为

f=xTAxf = \mathbf{x}^TA\mathbf{x}

其中xR\mathbf{x} \in RAAn×nn \times n的对称矩阵,那么称ffR2\mathbf{R}^2上的二次型AA二次型矩阵

二次型矩阵为对称矩阵

主轴定理

由于AA为对称矩阵,存在正交矩阵PP,使得A=PΛPTA = P\Lambda P^TΛ\LambdaAA的特征值矩阵,有

Λ=P1A(PT)1=PTAP\Lambda = P^{-1}A(P^T)^{-1} = P^TAP

其中PP的列向量的集合是Rn\mathbb{R}^n的一个基,由基变换中过渡矩阵一定是非奇异矩阵(可逆矩阵 \Rightarrow 行满秩矩阵,列满秩矩阵),其中因为PP是正交矩阵(PT=P1P^T=P^{-1}),则任意标准基下的向量x\mathbf{x}都可以表示为PP下的向量y\mathbf{y}的乘积

x=Py\mathbf{x} = P\mathbf{y}

上述变换:变量变换
PP为正交矩阵的时候,上述变换为:正交变量变换


  • m×nm \times n矩阵:
    • AABB等价:存在mm阶可逆矩阵PPnn阶可逆矩阵,使得PAQ=BPAQ = B
  • n×nn \times n矩阵:
    • AABB相似\Leftrightarrow存在可逆矩阵PP,使得P1AP=BP^{-1}AP = B
    • AABB合同\Leftrightarrow存在可逆矩阵PP,使得PTAP=BP^TAP = B
    • AABB正交相似\Leftrightarrow存在正交矩阵PP,使得PTAP=P1AP=BP^TAP = P^{-1}AP = B

相似,合同,正交相似,都是等价的一种,正交相似关系最强,等价关系最弱

二次型规范形

将上述式子带入到二次型当中,得到

f=xTAx=(Py)TA(Py)=yTΛy=λ1y12+λ2y22++λnyn2\begin{aligned} f &= \mathbf{x}^TA\mathbf{x} = (P\mathbf{y})^TA (P\mathbf{y}) =\mathbf{y}^T\Lambda \mathbf{y} \\ &= \lambda_1y^2_1 + \lambda_2y^2_2 + \cdots + \lambda_ny^2_n \end{aligned}

上述中PP为二次型xTAx\mathbf{x}^TA\mathbf{x}主轴

二次型标准形

任给二次型f=i,j=1naijxixj(aij=aji)f = \sum^n_{i,j = 1}a_{ij}x_ix_j(a_{ij} = a_{ji}),总存在正交变换x=Py\mathbf{x}=P\mathbf{y},使得ff化为标准型

f=λ1y12+λ2y22++λnyn2f = \lambda_1y^2_1 + \lambda_2y^2_2 + \cdots + \lambda_ny^2_n

  • 二次型标准形不是唯一的,但是标准形中所含的项数是确定的
  • 二次型矩阵有很多,但是只有一个是对称的,也就是Hermitian矩阵(A=AA^* = A
  • 在限定变换为实变换的时候,标准形中正系数的个数是不变的

其中λi\lambda_iff的矩阵AA的特征值

初等变换法

任意实对称矩阵可以同时进行相同行和列的初等变换化为对角形

对一个nn阶实对称矩阵AA,都存在可逆矩阵CC,使得

CTAC=diag(d1,d2,,dn)C^TAC = diag(d_1, d_2, \cdots, d_n)

  • CC不一定实正交矩阵
  • d1,d2,,dnd_1, d_2, \cdots, d_n不一定是AA的特征值
  • 如果CC是正交矩阵,则did_i为特征值

初等变换,就是对矩阵乘上初等矩阵

PiTAPiPkTP2TP1TAP1P2Pn\begin{gathered} P^T_iAP_i \\ \Downarrow \\ P^T_k \cdots P^T_2P^T_1\color{red}A\color{black}P_1 P_2 \cdots P_n\end{gathered}

C=P1P2PnC=P_1 P_2 \cdots P_n,则

CTACC^TAC

为了得到CC,可以对单位矩阵进行同等操作

(AI)(CTACC)\begin{pmatrix} A \\ I \end{pmatrix} \longrightarrow \begin{pmatrix} C^TAC \\ C \end{pmatrix}

惯性定理

设二次型f(x)=xTAxf(\mathbf{x}) = \mathbf{x}^TA\mathbf{x},它的秩为rr,有2个可逆变换

x=Cyx=Pz\mathbf{x} = C\mathbf{y} \qquad \mathbf{x} = P\mathbf{z}

使得

f=k1y12+k2y22++kryr2(ki0)f=λ1y12+λ2y22++λryr2(λi0)\begin{aligned} f &= k_1y^2_1 + k_2y^2_2 + \cdots + k_ry^2_r & (k_i \neq 0) \\ f &= \lambda_1y^2_1 + \lambda_2y^2_2 + \cdots + \lambda_ry^2_r & (\lambda_i \neq 0) \end{aligned}

k1,k2,,krk_1, k_2, \cdots, k_r中正数的个数与λ1,λ2,,λr\lambda_1, \lambda_2, \cdots, \lambda_r中正数的个数相对

  • 正系数的个数,称为二次型的正惯性指数
  • 负系数的个数,称为二次型的负惯性指数
  • 正,负惯性指数的差,称为符号差

若二次型ff的正惯性指数为pp,秩为rr,则ff的规范性为

f=y12++yp2yp+12yr2f = y^2_1 + \cdots + y^2_p - y^2_{p+1} - \cdots - y^2_r

  • AA的正,负惯性指数分别为ppqq,则

Adiag(1,,1,1,,1,0,,0)A \simeq diag(1, \cdots, 1, -1, \cdots, -1, 0 ,\cdots, 0)

其中11pp个,1-1qq

正定性

  • 如果对任意x0\mathbf{x} \neq 0,都有f(x)>0f(\mathbf{x}) > 0,则称ff正定二次型,称矩阵AA正定矩阵
  • 如果对任意x0\mathbf{x} \neq 0,都有f(x)<0f(\mathbf{x}) < 0,则称ff负定二次型,称矩阵AA负定矩阵
  • 如果对任意x0\mathbf{x} \neq 0f(x)0f(\mathbf{x}) \leq 0,则称ff半正定二次型,称矩阵AA正定矩阵
  • 如果对任意x0\mathbf{x} \neq 0f(x)0f(\mathbf{x}) \geq 0,则称ff负定二次型,称矩阵AA负定矩阵

正定和半正定,以及负定和半负定⼆次型,统称为有定⼆次型,如果⼆次型不是有定的,就称为不定二次型

正定

二次型是正定的充要条件为

  • AA的正惯性指数为nn,即AIA \simeq I
  • 存在可逆矩阵PP,使得A=PTPA = P^TP
  • AAnn个特征值全为正
  • AAnn个顺序主子式全为正,即

a11>0a11a12a21a22>0a11a1nan1ann>0a_{11}>0 \quad \begin{vmatrix} a_{11} & a_{12} \\ a_{21} & a_{22} \end{vmatrix} > 0 \quad \begin{vmatrix} a_{11} & \cdots & a_{1n} \\ \vdots & & \vdots \\ a_{n1} & \cdots & a_{nn} \end{vmatrix} > 0

正定矩阵性质2

必要性:因为AA为正定矩阵,所以AIA \simeq I,即存在可逆矩阵CC,使得CTAC=IC^TAC = I,即

A=(C1)TC1A = -(C^{-1})^TC^{-1}

P=C1P = C^{-1},则有PP可逆,且A=PTPA = P^TP


充分性:因为存在可逆矩阵PP使得A=PTPA=P^TP,即

(PT)1AP1=I(P^T)^{-1}AP^{-1} = I

从而AIA \simeq I,所以AA为正定矩阵

正定矩阵性质3

Ax=λxxTAx=λxTx\begin{aligned} A\mathbf{x} &= \lambda \mathbf{x} \\ \mathbf{x}^TA\mathbf{x} &= \lambda \mathbf{x}^T\mathbf{x} \end{aligned}

其中xTAx>0,xTx>0\mathbf{x}^TA\mathbf{x} > 0, \mathbf{x}^T\mathbf{x} > 0,则可得λ>0\lambda > 0

负定

二次型是负定的充要条件为

  • AA的负惯性指数为nn,即AIA \simeq -I
  • 存在可逆矩阵PP,使得A=PTPA = -P^TP
  • AAnn个特征值全为负
  • 奇数阶顺序主子式为负,偶数阶顺序主兹式为正,即

(1)ra11a1rar1arr>0(r=1,2,,n)(-1)^r \begin{vmatrix} a_{11} & \cdots & a_{1r} \\ \vdots & & \vdots \\ a_{r1} & \cdots & a_{rr} \end{vmatrix} > 0 \quad (r=1,2,\cdots,n)

实对称

AAnn阶实对称矩阵的充要条件为

  • AA的正惯性指数<n< n
  • 存在降序矩阵P(r(P)<n)P(r(P) < n),使得A=PTPA = P^TP
  • AAnn个特征值全为非负,但至少有一个等于00
  • AA的各阶主子式非负,但是至少有一个为00

XY的二次型

f(x,y)=a11x2+a22y2+2a12xy+2b1x+2b2y+c=0=(xy)A(xy)+2(b1b2)(xy)+c=(xy1)(a11a12b1a21a22b2b1b2c)(xy1)\begin{aligned} f(x, y) &= a_{11}x^2 + a_{22}y^2 + 2a_{12}xy + 2b_1x + 2b_2y + c = 0 \\ &= \begin{pmatrix} x & y \end{pmatrix}A\begin{pmatrix} x \\ y \end{pmatrix}+2\begin{pmatrix} b_1 & b_2 \end{pmatrix}*\begin{pmatrix} x \\ y \end{pmatrix}+c \\ &=\begin{pmatrix} x & y & 1 \end{pmatrix}\begin{pmatrix} a_{11} & a_{12} & b_1 \\ a_{21} & a_{22} & b_2 \\ b_1 & b_2 & c \end{pmatrix} * \begin{pmatrix} x \\ y \\ 1 \end{pmatrix} \end{aligned}

A^=(a11a12b1a21a22b2b1b2c)A=(a11a12a21a22)\hat{A} = \begin{pmatrix} a_{11} & a_{12} & b_1 \\ a_{21} & a_{22} & b_2 \\ b_1 & b_2 & c \end{pmatrix} \qquad A = \begin{pmatrix} a_{11} & a_{12} \\ a_{21} & a_{22} \end{pmatrix}

  • ppAA的正固有值数量
  • qqAA的负固有值数量
  • p^\hat{p}A^\hat{A}的正固有值数量
  • q^\hat{q}A^\hat{A}的负固有值数量

则有一下关系

pp qq p^\hat{p} q^\hat{q} 形状
2 0 2 1 椭圆
1 1 2 1 双曲线
1 1 1 1 相交的两条直线
1 0 2 1 抛物线
1 0 1 1 平行的两条直线

同理,取

A^=(a11a12a13b1a21a22a23b2a31a32a33b3b1b2b3c)A=(a11a12a13a21a22a23a31a32a33)\hat{A} = \begin{pmatrix} a_{11} & a_{12} & a_{13} & b_1 \\ a_{21} & a_{22} & a_{23} & b_2 \\ a_{31} & a_{32} & a_{33} & b_3 \\ b_1 & b_2 &b_3 & c \end{pmatrix} \qquad A = \begin{pmatrix} a_{11} & a_{12} & a_{13} \\ a_{21} & a_{22} & a_{23} \\ a_{31} & a_{32} & a_{33} \end{pmatrix}

r~=p~+q~\tilde{r} = \tilde{p} + \tilde{q},则

pp qq p^\hat{p} q^\hat{q} r~\tilde{r} 形状
3 0 3 1 椭圆面
2 1 2 2 单叶双曲面
2 1 3 1 双叶双曲面
2 1 2 1 二次锥面
2 0 4 椭圆抛物面
2 0 2 1 椭圆柱
1 1 4 双面抛物面
1 1 3 双曲柱体
1 1 2 相交的两各面
1 0 3 抛物面柱体
1 0 1 1 平行的两各面

无约束凸二次规划

设有二次凸函数

f(x)=12xTAx+bTx+cf(\mathbf{x}) = \frac{1}{2}\mathbf{x}^TA\mathbf{x} + b^T\mathbf{x} + c

名称 式子
f(x)\nabla f(\mathbf{x}) Ax+bA\mathbf{x} + \mathbf{b}
2f(x)\nabla^2 f(\mathbf{x}) AA

无约束凸函数任何局部极小点xx^*都是该函数的一个全局极小点,若该函数时可微的,则满足f(x)x=0\frac{\partial f(x)}{\partial x} = 0

f(x)=Ax+b=0\nabla f(\mathbf{x}) = A\mathbf{x} + \mathbf{b} = 0

得到最优解

x=A1b\mathbf{x} = -A^{-1} \mathbf{b}

牛顿法求解

x1=x0A1f(x0)=x0A1(Ax+b)=A1b\begin{aligned} \mathbf{x}_1 &= \mathbf{x}_0 - A^{-1}\nabla f(\mathbf{x}_0) = \mathbf{x}_0 - A^{-1}(A\mathbf{x} + \mathbf{b}) = A^{-1}b \end{aligned}

即1次迭代到极小点,这种性质称为二次终止性

二次规划

minf(x)=12xTPx+qTx+rs.t.GxhAx=b\begin{aligned} min &\qquad f(\mathbf{x})=\frac{1}{2}\mathbf{x}^TP\mathbf{x} + \mathbf{q}^T\mathbf{x} + r \\ s.t. &\qquad G\mathbf{x} \preceq \mathbf{h} \\ &\qquad A\mathbf{x} = \mathbf{b} \end{aligned}

其中

  • PiR+nP_i \in \mathbb{R}^n_+
  • GRm×nG \in \mathbb{R}^{m \times n}
  • ARp×nA \in \mathbb{R}^{p \times n}

线性规划

A=0A = 0,二次规划问题则变为线性规划问题

minf(x)=cTx+ds.t.GxhAx=b\begin{aligned} min &\qquad f(\mathbf{x})=\mathbf{c}^T\mathbf{x} + d \\ s.t. &\qquad G\mathbf{x} \preceq \mathbf{h} \\ &\qquad A\mathbf{x} = \mathbf{b} \end{aligned}

等式约束二次规划

minf(x)=12xTP0x+c0Tx+d0s.t.12xTPix+ciTx+di0i=1,,mAx=b\begin{aligned} min &\qquad f(\mathbf{x})=\frac{1}{2}\mathbf{x}^TP_0\mathbf{x} + \mathbf{c}_0^T\mathbf{x} + d_0 \\ s.t. &\qquad \frac{1}{2}\mathbf{x}^TP_i\mathbf{x} + \mathbf{c}^T_i\mathbf{x} + d_i \leq 0 \qquad i = 1, \cdots, m \\ &\qquad A\mathbf{x} = \mathbf{b} \end{aligned}

其中

  • PiR+nP_i \in \mathbb{R}^n_+

利用Lagrange乘子法

L(x,λ)=12xTAx+cTx+λT(Axb)L(\mathbf{x}, \lambda) = \frac{1}{2}\mathbf{x}^TA\mathbf{x} + \mathbf{c}^T\mathbf{x} + \lambda^T(A\mathbf{x} - \mathbf{b})

L(x,λ)L(\mathbf{x}, \lambda)x\mathbf{x}λ\lambda的导数为零,得

Ax+cT+ATλ=0Axb=0\begin{aligned} A\mathbf{x} + \mathbf{c}^T + A^T\lambda = 0 \\ A\mathbf{x} - \mathbf{b} = 0 \end{aligned}

解得x\mathbf{x}即可

二次约束二次规划

minf(x)=12xTP0x+c0Tx+d0s.t.12xTPix+ciTx+di0i=1,,mAx=b\begin{aligned} min &\qquad f(\mathbf{x})=\frac{1}{2}\mathbf{x}^TP_0\mathbf{x} + \mathbf{c}_0^T\mathbf{x} + d_0 \\ s.t. &\qquad \frac{1}{2}\mathbf{x}^TP_i\mathbf{x} + \mathbf{c}^T_i\mathbf{x} + d_i \leq 0 \qquad i = 1, \cdots, m \\ &\qquad A\mathbf{x} = \mathbf{b} \end{aligned}

其中

  • PiR+nP_i \in \mathbb{R}^n_+