[线性代数] - 矩阵的分解总结

特征值·特征向量

假设 $\lambda_1, \lambda_2, \cdots, \lambda_n$ 为 $n$ 阶方阵 $A$ 的特征值， $x_1, x_2, \cdots, x_n$ 是对应的特征向量，并且他们线性无关，称

\Lambda = \begin{bmatrix} \lambda_1 & 0 & \cdots & 0 \\ 0 & \lambda_2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \lambda_n \end{bmatrix}

为 $A$ 的特征值矩阵，称

S = \begin{bmatrix} \mathbf{x}_1 & \mathbf{x}_2 & \cdots & \mathbf{x}_n \end{bmatrix}

为 $A$ 的特征向量矩阵

特性向量之间线性无关，因此 $S$ 是非奇异矩阵， $S$ 可逆

对角化

\begin{aligned} AS &= A\begin{bmatrix}\mathbf{x}_1, \mathbf{x}_2, \cdots, \mathbf{x}_n\end{bmatrix} \\ &= \begin{bmatrix} A\mathbf{x}_1, A\mathbf{x}_2, \cdots, A\mathbf{x}_n \end{bmatrix} \\ &=\begin{bmatrix} \lambda_1x_1, \lambda_2x_2, \cdots, \lambda_nx_n \end{bmatrix} \\ &=\begin{bmatrix} x_1, x_2, \cdots, x_n \end{bmatrix}\begin{bmatrix} \lambda_1 & 0 & \cdots & 0 \\ 0 & \lambda_2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \lambda_n \end{bmatrix} \\ &= S\Lambda \end{aligned}

因为上方提及 $S$ 可逆，则

S^{-1}AS = S^{-1}S\Lambda

化简后即可得到

\begin{aligned}S^{-1}AS = \Lambda\\A = S\Lambda S^{-1}\end{aligned}

以上即为 $A$ 的对角化，只有A的特性向量线性无关的时候，才是可对角化的

矩阵的幂

由上方的对角化，可以得到

\Lambda^2 = S^{-1} A \cancel{S S^{-1}} A S = S^{-1} A^2 S

进一步推导后，可以得到

\begin{aligned}\Lambda^n = S^{-1}A^nS\\A^n = S\Lambda^n S^{-1}\end{aligned}

正交对角化

设上方 $A$ 为对称矩阵，由对称矩阵的性质得知，它的特征向量互相正交，取一组正交基底向量 $P = \begin{bmatrix}\mathbf{p}_1, \mathbf{p}_2, \cdots, \mathbf{p}_n\end{bmatrix}$ ，由正交矩阵的性质，得知 $P^{-1} = P^T$ ，即有

A = P\Lambda P^{-1} = P\Lambda P^T

一个 $n \times n$ 的矩阵可正交对角化的充分必要条件时 $A^T = A$

主轴定理

由于 $P$ 的正交向量，则 $P$ 的列向量是 $\mathbf{R}^n$ 的一个基底，且是一个基变换矩阵，即任意标准基底下的向量 $\mathbf{x}$ ，可以表示为 $P$ 下的向量 $\mathbf{y}$ ，即

\mathbf{x} = P\mathbf{y}

上述叫做变量变换
特别的，如果 $P$ 是正交矩阵，则为正交变量变换

将此变换带入到二次型里面，可以得到

\begin{aligned} \mathbf{x}^TA\mathbf{x} &= (P\mathbf{y})^TA(P\mathbf{y}) \\ &= \mathbf{y}^T(P^TAP)\mathbf{y} \\ &= \mathbf{y}^T\Lambda\mathbf{y} \\ \\ &=\begin{bmatrix} y_1 & y_2 & \cdots & y_n \end{bmatrix} \begin{bmatrix} \lambda_1 & & & 0 \\ & \lambda_2 & & \\ & & \ddots & \\ 0 & & & \lambda_n \end{bmatrix} \begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{bmatrix} \\ &= \lambda_1 y_1^2 + \lambda_2 y_2^2 + \cdots + \lambda_n y_n^2 \end{aligned}

谱分解

$A$ 的特征值集合可以称为 $A$ 的谱，假设 $A$ 的 $n \times n$ 的对称矩阵

$A$ 有 $n$ 个实特征值
$A$ 的特征值 $\lambda$ 对应的特征空间的维数等于特征方程的根为该 $\lambda$ 时的重数
$A$ 的所有特征向量空间互相正交
$A$ 可以正交对角化

称为 $A$ 的谱定理，谱分解为

\begin{aligned} A &= P \Lambda P^T \\ &= \begin{bmatrix} \mathbf{p}_1 & \cdots & \mathbf{p}_n \end{bmatrix} \begin{bmatrix} \lambda_1 & & 0 \\ & \ddots & \\ 0 & & \lambda_n \end{bmatrix} \begin{bmatrix} \mathbf{p}_1^T \\ \vdots \\ \mathbf{p}_n^T \end{bmatrix} \\ &= \lambda_1 \mathbf{p}_1 \mathbf{p}_1^T + \lambda_2 \mathbf{p}_2 \mathbf{p}_2^T + \cdots + \lambda_n \mathbf{p}_n \mathbf{p}_1^n \end{aligned}

$\mathbf{p}_i\mathbf{p}_i^T$ 为秩一矩阵。

LU分解

LU分解实际上是高斯消元的另一种看法。即于任意的 $n$ 阶方阵 $A$ ，存在 $L$ 是单位下三角矩阵， $U$ 是上三角矩阵，使得

A = LU

这里对矩阵 $A$ 只要求是方阵

LU分解原理

对于任意的 $n$ 阶方阵 $A$ ，存在初等矩阵 $E_{ij}$ ，利用高斯消元，可以将 $A$ 变为上三角矩阵，假设3阶矩阵，则

E_{32}E_{31}E_{21}A = U

于是有

A = E^{-1}_{32}E^{-1}_{31}E^{-1}_{21}U

令 $E^{-1}_{32}E^{-1}_{31}E^{-1}_{21} = L$ ，则 $A = LU$ ，可以发现 $L$ 必定为单位下三角矩阵

如果方阵 $A$ 可逆，并且有三角分解，则该分解是唯一的
设 $A$ 为 $n$ 阶矩阵的前 $r(A)$ 个顺序主子式均非零，则 $A$ 存在三角分解，但不唯一

LU分解步骤

以 $3*3$ 为例

\begin{aligned} \begin{bmatrix} a_{11} & a_{12} & a_{13} \\ a_{21} & a_{22} & a_{23} \\ a_{31} & a_{32} & a_{33} \end{bmatrix} &= \begin{bmatrix} 1 & 0 & 0 \\ l_{21} & 1 & 0 \\ l_{31} & l_{32} & 1 \end{bmatrix} \begin{bmatrix} u_{11} & u_{12} & u_{13} \\ 0 & u_{22} & u_{23} \\ 0 & 0 & u_{33} \end{bmatrix} \\ &= \begin{bmatrix} 1 & 0 & 0 \\ l_{21} & 1 & 0 \\ l_{31} & l_{32} & 1 \end{bmatrix} \begin{bmatrix} a_{11} & a_{12} & a_{13} \\ 0 & u_{22} & u_{23} \\ 0 & 0 & u_{33} \end{bmatrix} \end{aligned}

可以得出

\begin{aligned} a_{21} &= u_{11} * l_{21} \\ a_{31} &= u_{11} * l_{31} \\ \\ a_{22} &= l_{21} u_{12} + u_{22} \\ a_{23} &= l_{21} u_{12} + u_{23} \\ \\ a_{32} &= l_{31}u_{12} + l_{32}u_{22} \\ a_{33} &= l_{31}u_{13} + l_{32}u_{23} + u_{33} \end{aligned}

Chelesky分解

Cchelesky分解的对象是：实正定矩阵
正定矩阵一般默认是对称的。实正定矩阵 $A$ 必存在三角分解 $A=LU$ ，且存在唯一的对角元素均为正的下三角矩阵 $C$ ，使得

A = LL^T

\begin{aligned} \begin{bmatrix} a_{11} & a_{12} & a_{13} \\ a_{21} & a_{22} & a_{23} \\ a_{31} & a_{32} & a_{33} \end{bmatrix} &= \begin{bmatrix} a & 0 & 0 \\ b & c & 0 \\ d & e & f \end{bmatrix} \begin{bmatrix} a & b & d \\ 0 & c & e \\ 0 & 0 & f \end{bmatrix} \\ &= \begin{bmatrix} a^2 & ab & ad \\ ab & b^2 + c^2 & bd + ce \\ ad & bd + ce & d^2 + e^2 + f^2 \end{bmatrix} \end{aligned}

Chelesky分解（LDL分解）

C^TAC = diag(d_1, d_2, \cdots, d_n)

$C$ 不一定实正交矩阵
$d_1, d_2, \cdots, d_n$ 不一定是 $A$ 的特征值
如果 $C$ 是正交矩阵，则 $d_i$ 为特征值

任意实对称矩阵可以同时进行相同行和列的初等变换化为对角形

Chelesky分解原理

初等变换，就是对矩阵乘上初等矩阵

\begin{gathered} P^T_iAP_i \\ \Downarrow \\ P^T_k \cdots P^T_2P^T_1\color{red}A\color{black}P_1 P_2 \cdots P_n\end{gathered}

记 $C=P_1 P_2 \cdots P_n$ ，则

C^TAC

为了得到 $C$ ，可以对单位矩阵进行同等操作

\begin{pmatrix} A \\ I \end{pmatrix} \longrightarrow \begin{pmatrix} C^TAC \\ C \end{pmatrix}

LR分解

又称满秩分解，其对象为： $m \times n$ 矩阵，假设其秩为 $r$ ，存在秩同样为 $r$ 两个矩阵 $L$ （列满秩）和 $R$ （行满秩），使得

A = LR

满秩分解不唯一：假设存在 $r$ 阶可逆方阵 $D$ ，则 $A=FG=F(DD^{-1})G=(FD)(D^{-1}G)=F'G'$
任何非零矩阵一定存在满秩分解

LR分解原理

假设存在初等变换矩阵 $B$ ，使得

BA = \begin{pmatrix} R \\ 0 \end{pmatrix}

则

\begin{aligned} A &= B^{-1}\begin{pmatrix} G \\ 0 \end{pmatrix} \\ &= (L|S)\begin{pmatrix} R \\ 0 \end{pmatrix} \\ &= LR \end{aligned}

QR分解

矩阵可逆也不一定存在三角分解，矩阵正交（Q）三角（R）分解是对任何可逆矩阵都存在的理想分解。其原理是斯密特正交化，设 $A \in \mathbb{C}^{n\times n}$ 为满秩的，则存在唯一的酉矩阵 $Q$ 和对角线元素均为正的上三角矩阵 $R$ ，使得

$Q$ 是标准正交矩阵
$R$ 是一个上三角矩阵

A = QR

对于实数矩阵，这里的酉矩阵类比为正交矩阵Q即可
矩阵A可以是非方阵，只需要列满秩（列向量是线性无关）
分解是唯一的

奇异值分解

参见：[线性代数] - 奇异值分解

总结

分解	公式	对象
谱分解	$\lambda_1 \mathbf{p}_1 \mathbf{p}_1^T + \lambda_2 \mathbf{p}_2 \mathbf{p}_2^T + \cdots + \lambda_n \mathbf{p}_n \mathbf{p}_1^n$	对称矩阵
LU分解	$A=LU = \text{下三角}\times\text{上三角}$	方阵
Chelesky分解	$C^TAC = diag(d_1, d_2, \cdots, d_n)$	实正定矩阵
LR分解	$A=LR=\text{列满秩}\times\text{行满秩}$	$m\times n$ 矩阵
QR分解	$A=QR=\text{标准正交矩阵}\times\text{上三角}$	满秩方阵
奇异值分解	$A=U\Sigma V^T = \text{左奇异向量}A\text{右奇异向量}$	所有矩阵

import numpy as np
import scipy.linalg

A = np.array([
    [1,3,5],
    [3,13,23],
    [5,23,42],
])

# Chelesky
L = np.linalg.cholesky(A)
print("Chelesky: ", end='')
print(np.allclose(A, L.dot(L.T)))

A = np.array([
    [3,1,2],
    [1,2,3],
    [2,3,1],
])

# LU
P, L, U = scipy.linalg.lu(A)
print("LU: ", end='')
print(np.allclose(A, np.linalg.inv(P).dot(L).dot(U)))

# QR
Q, R = scipy.linalg.qr(A)
print("QR: ", end='')
print(np.allclose(A, Q.dot(R)))

# SVD
U, sigma, V = np.linalg.svd(A)
S = np.zeros(A.shape)

for i in range(sigma.shape[0]):
    S[i][i] = sigma[i]

print("SVD: ", end='')
print(np.allclose(A, U.dot(S).dot(V)))