涉及矩阵和向量的求导可以分为五大类别
- 标量对矩阵
- 标量对向量
- 向量对标量
- 向量对向量
- 矩阵对标量
布局
矩阵求导有两种布局
∂x∂y=⎣⎢⎢⎢⎡∂x∂y1∂x∂y2⋮∂x∂yn⎦⎥⎥⎥⎤
∂x∂y=[∂x∂y1∂x∂y2⋯∂x∂yn]
可以随时在两种布局间进行转换
标量/向量
- f∈R
- x∈Rn
∂x∂f=(∂x1∂f∂x2∂f⋯∂xn∂f)T∈Rn
∂x∂xT∂2f=⎝⎜⎜⎜⎜⎛∂x1∂x1∂2f∂x2∂x1∂2f⋮∂xn∂x1∂2f∂x1∂x2∂f∂x2∂x2∂f⋮∂xn∂x2∂f⋯⋯⋱⋯∂x1∂xn∂f∂x2∂xn∂f⋮∂xn∂xn∂f⎠⎟⎟⎟⎟⎞T∈Rn
对向量的导数是函数关于向量元素的偏导数。因此,得到的导数结果是一向量,与向量的维度一致。
标量/向量的公式
原式 |
结果 |
∂x∂a |
0 |
∂x∂au(x) |
a∂x∂u(x) |
∂x∂(u+v) |
∂x∂u+∂x∂v |
∂x∂uv |
v∂x∂u+u∂x∂v |
∂x∂g(u(x)) |
∂u∂g(u)∂x∂u |
原式 |
结果 |
∂x∂aTx |
a |
∂x∂xTa |
a |
∂x∂xTx |
2x |
∂x∂xTAx |
(A+AT)x |
∂x∂(x−a)T(x−a) |
2(x−a) |
∂x∂(Ax−a)T(Ax−a) |
2AT(Ax−a) |
∂x∂(Ax−a)TC(Ax−a) |
2AT(C+CT)(Ax−a) |
标量/矩阵
- f∈R
- A∈Rn×m
∂A∂f=⎝⎜⎜⎜⎜⎛∂A11∂f∂A21∂f⋮∂An1∂f∂A12∂f∂A22∂f⋮∂An2∂f⋯⋯⋱⋯∂A1m∂f∂A2m∂f⋮∂Anm∂f⎠⎟⎟⎟⎟⎞
标量/矩阵的公式
原式 |
结果 |
∂A∂tr(A) |
I |
∂A∂tr(AB) |
BT |
∂A∂tr(BA) |
BT |
∂A∂tr(ABAT) |
A(B+BT) |
∂A∂tr(f(U=g(A))) |
∂U∂tr(f(U))∂Atr(g(A)) |
∂AT∂f(A) |
(∂A∂f(A))T |
∂A∂∣A∣ |
∣A∣(A−1)T |
∂A∂ln∣A∣ |
(A−1)T |
∂X∂∥AX−B∥F2 |
2AT(AX−B) |
∂X∂∥XA−B∥F2 |
2(XA−B)AT |
向量/标量
- y∈Rn
- x∈R
∂x∂y=(∂x∂y1∂x∂y2⋯∂x∂yn)T∈Rn
向量/标量的公式
原式 |
结果 |
∂x∂a |
0 |
∂x∂au(x) |
a∂x∂u |
∂x∂Au |
A∂x∂u |
∂x∂uT |
(∂x∂uT)T |
∂x∂(u+v) |
∂x∂u+∂x∂v |
∂x∂g(u) |
∂x∂g(u)∂x∂u |
向量/向量
- y∈Rm
- x∈Rn
∂x∂y=⎝⎜⎜⎜⎜⎛∂x1∂y1∂x2∂y1⋮∂xn∂y1∂x1∂y2∂x2∂y2⋮∂xn∂y2⋯⋯⋱⋯∂x1∂ym∂x2∂ym⋮∂xn∂ym⎠⎟⎟⎟⎟⎞∈Rn×m
向量/向量的公式
原式 |
结果 |
∂x∂a |
0 |
∂x∂x |
I |
∂x∂Ax |
AT |
∂x∂f(u=g(u)) |
∂x∂g(x)∂u∂f(u) |
∂x∂x∔y |
diag(y1,y2,⋯,yn) |
∂x∂(f(x1),f(x2),⋯,f(xn)) |
⎝⎜⎜⎜⎛f′(x1)0⋮00f′(x2)⋮0⋯⋯⋱000⋮f′(xn)⎠⎟⎟⎟⎞ |
矩阵/标量
- A∈Rm×n
- x∈R
∂x∂A=⎝⎜⎜⎜⎛∂x∂A11∂x∂A12⋮∂x∂A1n∂x∂A21∂x∂A22⋮∂x∂A2n⋯⋯⋱⋯∂x∂Am1∂x∂Am1⋮∂x∂Amn⎠⎟⎟⎟⎞∈Rn×m
多维随机变量
n个随机变量X1,X2,⋯,Xn组成下面的n元列向量
X=⎝⎜⎜⎜⎛X1X2⋮Xn⎠⎟⎟⎟⎞=(X1X2⋯Xn)
多维随机变量的期待值
E[X]=u=⎝⎜⎜⎜⎛u1u2⋮un⎠⎟⎟⎟⎞=⎝⎜⎜⎜⎛E[X1]E[X2]⋮E[Xn]⎠⎟⎟⎟⎞=(E[X1]E[X2]⋯E[Xn])
- E[aX+bY]=aE[X]+bE[Y]
- E[AX+b]=AE[X]+b
多维随机变量的方差
Var(aTX)=aTVar[X]a
协方差矩阵
给定n元的多维随机变量X和m元的多维随机变量Y,则它们的协方差矩阵为
Cov(X,Y)=Σ=⎣⎢⎢⎢⎡Cov(x1,y1)Cov(x2,y1)⋮Cov(xn,y1)Cov(x1,y2)Cov(x2,y2)⋮Cov(xn,y2)⋯⋯⋱⋯Cov(x1,ym)Cov(x2,ym)⋮Cov(xn,ym)⎦⎥⎥⎥⎤=E(XYT)−E(X)E(Y)T
其中Cov(X,X)为X自身的协方差矩阵可以写作
Cov(X,X)=E((X−u)(X−u)T)=E(XXT)−uuT
- Cov(AX,BY)=A Cov(X,Y) BT
- Cov(AX,AX)=A Cov(X,X)AT
- E(XTAX)=trAΣ+θTAθ
Gauss-Markov的定理
我们考虑下列线性回归模型
y=xβ+ε
我们假定
- E(ε ∣ X)=0
- var(ε ∣ X)=E(εε′ ∣ X)=σε2IN
则以下成立
β^=(X′X)−1X′y
Gauss-Markov的定理证明
在一个模型里,一个最好的估计量是拥有最小的方差的。因为我们拥有的数据是y,所以我们需要的估计量是y的线性方程,即
β~=m+My
- β,m:k×1
- M:k×n
- y:n×1
同时,因为我们需要的是无偏估计,所以我们需要
E(β~)=β
由β~=m+My,我们可以得到
E(β~)=E(m+My)=E(m)+E(My)=E(m)+ME(y∣X)=m+ME(Xβ+ε∣X)=m+MXβ+ME(ε∣X)=m+MXβ
因此我们可以得到
{mMX=0=Ik
我们注意到最小二乘推定量β^=(XTX)−1XTy,则
M=(XTX)−1XT
且
MX=(XTX)−1XTX=Ik
于是我们知道我们需要寻找以下形式的线性不偏估计量
β~=My,MX=Ik
为了不失去一般性,我们重新定义M为以下形式
MMX=(X′X)−1X′+C=Ik⇒((X′X)−1X′+C)X=Ik⇒Ik+CX=Ik⇒CX=0
于是
β~β~−β=MεE(β~−β∣X)=My=M(Xβ+ε)=β+Mε=0
于是不偏估计量的协方差矩阵为
E((β~−β)(β~−β)′∣X)=E(Mε(Mε)′∣X)=E(Mεε′M′∣X)=M(Eεε′∣X)M′=Mσε2InM′=σε2MM′
其中
MM′=((X′X)−1X′+C)((X′X)−1X′+C)′=(X′X)−1X′X(X′X)−1+(X′X)−1X′C′+CX(X′X)−1+CC′
因为CX=0,同理C′X′=0,则
MM"=(X′X)−1+CC′
当CC′=0时,我们得到最好的估计量,可以表现为
var(xTβ~)≥var(xTβ^)