[概率论] - 随机变量的数字特征

数学期望

离散型随机变量

设离散型随机变量X的分布律为

P(X=x_k)=p_k \quad k=1, 2, \cdots

若级数

\sum_{k=1}^\infty x_kp_k

绝对收敛，则称级数 $\sum_{k=1}^\infty x_kp_k$ 为随机变量 $X$ 的数学期望，记为 $E(X)$

连续型随机变量

设连续型随机变量的概率密度函数为

f(x)

若积分

\int_{-\infty}^\infty xf(x)dx

绝对收敛，则称积分 $\int_\infty^\infty xf(x)dx$ 为随机变量 $X$ 的数学期望，记为 $E(X)$

数学期望的性质

$E(c) = c$
$E(cX) = cE(X)$
$E(X+Y)=E(X)+E(Y)$
$E(XY)=E(X)E(Y) \quad X,Y\text{相互独立}$
设 $Y$ $Y$ 是随机变量 $X$ $X$ 的函数 $Y=g(X)$ $Y = g (X)$ （ $g$ $g$ 是连续函数），则有
- $X$ 是离散型： $E(Y) = E(g(X)) = \sum^\infty_{k=1}g(x_k)p_k$
- $X$ 是连续型： $E(Y) = E(g(X)) = \int^\infty_\infty g(x)f(x)dx$

条件期望的性质

$E[a|Y] = a$
$E[aX + bZ|Y] = aE[X|Y] + bE[Z|Y]$
$E[X|Y] = E[X](\text{独立})$
$E[E[X|Y]] = E[X]$
$E[Xg(Y)|Y] = g(Y)E[X|Y]$
$E[X|Y,g(Y)] = E[X|Y]$
$E[E[X|Y,Z]] = E[X|Y]$

期待频数

\text{期待度数} = \frac{\text{列的周边度数}\times \text{行的周边度数}}{\text{全体的度数}}

离差

定义： $X - E(X)$

方差

设 $X$ 是一个随机变量，若 $E((X - E(X))^2)$ 存在，则称

D(X) = E((X - E(X))^2)

为随机变量 $X$ 的方差，记为 $D(X)$ 或 $Var(X)$

方差 - 离散型随机变量

D(X)=\sum_{k=1}^\infty[x_k - E(X)]^2 p_k

方差 - 连续型随机变量

D(X)=∫_{-\infty}^\infty[x - E(X)]^2 f(x)dx

方差的性质

$D(c) = 0$
$D(cX) = c^2D(x)$
$D(X) = E(X^2) - E(X)^2$
$D(X \pm Y) = D(X) \color{red}+\color{black} D(Y) \pm 2Cov(X,Y)$

方差是协方差的一种特殊情况，即变量与自身的协方差

条件方差的性质

$Var[Y|X] = E[Y - E[Y|X]^2|X]$
$E[Var[Y|X]] = E[E[Y^2|X]] - E[E[Y|X]^2] = E[Y^2] - E[E[Y|X]^2]$
$Var[E[Y|X]] = E[E[Y|X]^2] - E[E[Y|X]]^2 = E[E[Y|X]^2] - E[Y]^2$
$E[Var[Y|X]] + Var[E[Y|X]] = E[Y^2] - E[Y]^2 = Var[Y]$

标准差（均方差）

\sigma(X) = \sqrt{D(X)} = \sqrt{\frac{1}{N}\sum^N_{i=1}(x_i - \mu)^2}

$\sigma(X + c) = \sigma(X)$
$\sigma(cX) = c \cdot \sigma(X)$
$\sigma(X + Y) = \sqrt{\sigma^2(X) + \sigma^2(Y) + 2Cov(X, Y)}$

协方差

\begin{aligned} Cov(X,Y) &= E[(X-E(X))(Y-E(Y))] \\ &= \frac{\sum^n_{i=1}(X_i - \overline{X})(Y_i - \overline{Y})}{n-1} \end{aligned}

协方差的意义

$Cov(X,Y) > 0$ ，正相关
$Cov(X,Y) < 0$ ，负相关
$Cov(X,Y) = 0$ ，不相关

协方差的计算

\begin{aligned} Cov(X,Y) &= E[(X-E(X))(Y-E(Y))] \\ &= E(XY-XE(Y)-YE(X)+E(X)+E(Y)) \\ &= E(XY)-E(X)E(Y)-E(Y)E(X)+E(X)E(Y) \\ &= E(XY)-E(X)E(Y) \end{aligned}

协方差的性质

$Cov(aX, bY) = abCov(X,Y)$ ， $a,b$ 是常数
$Cov(X_1 + X_2, Y) = Cov(X_1, Y) + Cov(X_2, Y)$
$Cov(X, X) = E(X^2) - E(X)^2 = D(X)$

\rho_{xy\cdot z} = \frac{\rho_{xy} - \rho_{xz}r_{yz}}{\sqrt{1 - r^2_{xz}}\sqrt{1 - r^2_{yz}}}

其性质和相关系数一样

假设两个对同一因素的线性回归模型的残差分别为 $e_1,e_2$ ，则除去这一因素的相关系数（即偏相关系数）为两残差的相关系数

Spearman相关系数

$i$	$x_i$	$y_i$	转换	$R^x_i$	$R^y_i$
$1$	$1$	$1$	$\rightarrow$	$1.5$	$1.5$
$2$	$1$	$2$	$\rightarrow$	$1.5$	$3.5$
$3$	$2$	$1$	$\rightarrow$	$3.5$	$1.5$
$4$	$2$	$3$	$\rightarrow$	$3.5$	$5$
$5$	$3$	$2$	$\rightarrow$	$5$	$3.5$
$6$	$6$	$6$	$\rightarrow$	$6$	$6$

然后按照右边的数据计算相关系数即可，不容易收到离群值的影响
在没有相同位的情况下

r = 1 - \frac{6}{n(n^2 - 1)}\sum^n_{i=1}(R^x_i - R^y_i)^2

例子：

$R^x_i$	$R^y_i$	$(R^x_i - R^y_i)^2$
$1$	$3$	$4$
$2$	$1$	$1$
$3$	$2$	$1$
$4$	$5$	$1$
$5$	$4$	$1$
$6$	$7$	$1$
$7$	$6$	$1$
$8$	$8$	$0$

r = 1 - \frac{6}{8(8^2 - 1)} \times 10 = 0.881

标准误差

样本均值的估计标准误差，简称**平均值标准误差**

SD_{\overline{x}} = \frac{\sigma}{\sqrt{n}}

但是通常 $\sigma$ 未知，此时可以用样本的标准差 $s$ 来估计 $SD_{\overline{x}}$

SE_{\overline{x}} = \frac{s}{\sqrt{n}}

$SD_{\overline{x}}$ ：样本平均值的标准差
$s$ ：样本的标准差
$SE_{\overline{x}}$ ：样本平均值的标准误

如果随机变量服从正态分布，则 $95$ %置信区间可以表示为

[\overline{x} \pm (SE_{\overline{x}} \times 1.96)]

变异系数

c_v = \frac{\sigma}{\mu}

矩

$X,Y$ 为一个随机变量， $k=1,2,\cdots$

若 $E(X^k)$ 存在，则称之为 $X$ 的 $k$ 阶(原点)矩
若 $E[(X - E(X))^k]$ 存在，则称之为 $X$ 的 $k$ 阶中心矩
若 $E(X^k Y^l)$ 存在，则称之为 $X$ 与 $Y$ 的 $k+l$ 阶混合(原点)矩
若 $E[(X - E(X))^k (Y - E(Y))^l]$ 存在，则称之为 $X$ 与 $Y$ 的 $k$ 阶混合中心矩

期望： $1$ 阶原点矩
方差： $2$ 阶中心矩

尖度

E\Big[(\frac{X - \mu}{\sigma})^3\Big]

峰度

E\Big[(\frac{X - \mu}{\sigma})^4\Big]

概率母函数

G_X(t) = \sum^{\infty}_{i=0}P(X=i)t^i = E(t^X) \quad |t| \leq 1

一个离散随机变量的概率母函数是指该随机变量的概率质量函数的幂级数表达式。

\begin{aligned} G_X(1) &= 1 \\ G_X'(1) &= E(X) \\ G''(1) + G'(1)(1 - G'(1)) &= var(X) \\ G_X(0) &= p_0 \end{aligned}

常见概率母函数

伯努利分布

G_X(t) = q + pt

几何分布

G_X(t) = \frac{pt}{1 - qt} \quad |t| < q^{-1}

二项分布

G_X(t) = (q + pt)^n \quad (q = 1 - p)

泊松分布

G_X(t) = \sum^{\infty}_{k=0}\frac{1}{k!}\lambda^ke^{-\lambda}t^k = e^{\lambda(t - 1)}

负二项分布

G_X(t) = \sum^{\infty}_{k=0}\begin{pmatrix} k - 1 \\ n - 1 \end{pmatrix}p^nq^{k-n}t^k = (\frac{pt}{1 - qt})^n \quad |t|< q^{-1}, p+q=1

唯一性定理

如果对于所有 $t$

G_X(t) = G_Y(t)

则

P(X = k) = P(Y = k)

矩母函数

M(t) = \sum^{\infty}_{n=0}\frac{t^n}{n!}E[X^n] = E(e^{tX})

性质： $0$ 处的 $n$ 阶导数为 $X$ 的 $n$ 阶(原点)矩

E(X^n) = M^{(n)}(0)

与概率母函数关系

M_X(\log(t)) = E(e^{t\log(X)}) = E(X^t) = G_X(t)

概率母函数和矩母函数都和分布一一对应

特征函数

针对收敛半径为 $0$ 的矩母函数的情况，好处是总是收敛。性质和矩母函数都差不多，就是有的地方多出了一个 $i$ 。

\begin{aligned} \text{离散}:& \phi(t) = \sum^{\infty}_{n=0}\frac{(it)^n}{n!}E[X^n] = M(it) = E(e^{itX}) \\ \text{连续}:& \int e^{itX} f(X)\mathrm{d}X \end{aligned}

特征函数是唯一确定分布的

设 $Z = X + Y$ ， $X, Y$ 相互独立，则

\begin{aligned} \phi_Z(t) &= E(e^{itZ}) \\ &= E(e^{it(X + Y)}) \\ &= E(e^{itX}e^{itY}) \\ &= E(e^{itX})E(e^{itY}) \\ &= \phi_X(t)\phi_Y(t) \end{aligned}

一般的

\phi_{X_1 + X_2 + \cdots + X_n}(t) = \phi_{X_1}(t)\phi_{X_2}(t)\cdots\phi_{X_n}(t)

正态分布的峰度和尖度都为0

雅可比矩阵

多元函数在一个点的微分是一个局部线性变换，将该点的一个邻域映到一个开集，因此微分可以用矩阵的形式给出，每个列向量是偏导数，这个形式被称为雅可比矩阵

J = \begin{bmatrix} \frac{\partial\mathbf{f}}{\partial x_1} & \cdots & \frac{\partial\mathbf{f}}{\partial x_n} \end{bmatrix} = \begin{bmatrix} \frac{\partial f_1}{\partial x_1} & \cdots & \frac{\partial f_1}{\partial x_n} \\ \vdots & \ddots & \vdots \\ \frac{\partial f_m}{\partial x_1} & \cdots & \frac{\partial f_m}{\partial x_n} \end{bmatrix}

雅可比矩阵 $J_f(p)$ 就是函数 $f$ 在 $n$ 维空间某点 $p$ 处的导数

若 $Y = g(X)$ ，则

f_Y(\mathbf{y}) = f_X(g^{-1}(\mathbf{y}))||J||

参考

常用概率分布的矩母函数、特征函数以及期望、方差的推导

huhu's Blog