[数理统计] - 方差分析

方差来源 平方和 自由度 均方和 F比值 p值
因素A SAS_A s1s - 1 SA=SAs1\overline{S}_A = \frac{S_A}{s - 1} F=SASEF = \frac{\overline{S}_A}{\overline{S}_E } p(A)p(A)
误差 SES_E nsn - s SE=SEns\overline{S}_E = \frac{S_E}{n - s} - -
总和 STS_T n1n-1 - - -

项目 平方和 自由度 均方和 F比值 p值
因素A SAS_A r1r - 1 SA=SAs1\overline{S}_A = \frac{S_A}{s - 1} FA=SASEF_A = \frac{\overline{S}_A}{\overline{S}_E } p(A)p(A)
因素B SBS_B s1s - 1 SB=SBs1\overline{S}_B = \frac{S_B}{s - 1} FB=SBSEF_B = \frac{\overline{S}_B}{\overline{S}_E } p(B)p(B)
交互作用 SA×BS_{A\times B} (r1)(s1)(r - 1)(s - 1) SA×B=SA×B(r1)(s1)\overline{S}_{A\times B} = \frac{S_{A\times B}}{(r-1)(s - 1)} FA=SA×BSEF_A = \frac{\overline{S}_{A\times B}}{\overline{S}_E } p(AB)p(AB)
误差 SES_E rs(t1)rs(t - 1) SE=SErs(t1)\overline{S}_E = \frac{S_E}{rs(t - 1)} - -
总和 STS_T rst1rst - 1 - - -

在科学实验和生产实践中,影响一事物的因素有很多,为了使生产过程得以稳定,保证优质,高产,就需要找出对产品质量有显著影响的那些因素,方差分析就是根据实验的结果进行分析,鉴别各个有关因素对实验结果的影响的有效方法

  • 实验指标:要考察的指标
  • 因素:影响实验指标的条件
    • 可控因素
    • 不可控因素
    • 水平:因素所处的状态
  • 单因素实验:一项实验的过程中只有一个因素在改变
  • 多因素实验:一项实验的过程中有多个因素在改变

单因素实验的方差分析

设因素AAss个水平A1,A2,,AsA_1, A_2, \cdots, A_s,在水平Aj(j=1,2,,s)A_j(j = 1, 2, \cdots, s)下,进行nj(nj2)n_j(n_j \geq 2)次独立实验

观察结果\水平 A1A_1 A2A_2 \cdots AsA_s
X11X_{11} X12X_{12} \cdots X1sX_{1s}
X21X_{21} X22X_{22} \cdots X2sX_{2s}
\vdots \vdots \ddots \vdots
Xn11X_{n_11} Xn22X_{n_22} \cdots XnssX_{n_ss}
样本总和 T1T_{\cdot 1} T2T_{\cdot 2} \cdots TsT_{\cdot s}
样本均值 X1\overline{X}_{\cdot 1} X2\overline{X}_{\cdot 2} \cdots Xs\overline{X}_{\cdot s}
总体均值 μ1\mu_1 μ2\mu_2 \cdots μs\mu_s

我们假定

各个水平Aj(j=1,2,,s)A_j(j = 1, 2, \cdots, s)下的样本X1j,X2j,,XnnjX_{1j}, X_{2j}, \cdots, X_{n_nj}来自具有

  • 相同方差σ2\sigma^2
  • 均值分别为uj(j=1,2,,s)u_j(j = 1, 2, \cdots, s)

的正态总体N(μj,σ2)N(\mu_j, \sigma^2)μj\mu_jσ2\sigma^2未知,且设不同水平AjA_j下的样本之间相互独立
由于XijN(μj,σ2)X_{ij} \sim N(\mu_j, \sigma^2),即有XijμjN(μj,σ2)X_{ij} - \mu_j \sim N(\mu_j, \sigma^2),因此XijμjX_{ij} - \mu_j可以看作为随机误差,记错Xijμj=εijX_{ij} - \mu_j = \varepsilon_{ij},则XijX_{ij}可写成

{Xij=μj+εijεijN(0,σ2),εij独立i=1,2,,n,j=1,2,,s\begin{cases} X_{ij} = \mu_j + \varepsilon_{ij} \\ \varepsilon_{ij} \sim N(0, \sigma^2), \text{各}\varepsilon_{ij}\text{独立} \\ i = 1, 2, \cdots, n, j = 1, 2, \cdots, s \end{cases}

称上式为单因素实验方差分析的数学模型。这是我们研究的对象

  • 检验ss各总体N(μ1,σ2),,N(μs,σ2)N(\mu_1, \sigma^2), \cdots, N(\mu_s, \sigma^2)的均值是否相等,即检验假设

H0:μ1=μ2==μs原假设H1:μ1,μ2,,μs不全相等备择假设\begin{aligned} H_0&: \mu_1 = \mu_2 = \cdots = \mu_s & \text{原假设} \\ H_1&: \mu_1, \mu_2, \cdots, \mu_s \text{不全相等} & \text{备择假设} \end{aligned}

  • 作出未知参数μ1,μ2,,μs,σ2\mu_1, \mu_2, \cdots, \mu_s, \sigma^2的估计

简化形式

  • 总平均μ1,μ2,,μs\mu_1, \mu_2, \cdots, \mu_s的加权平均值μ=1nj=1snjμj,n=j=1snj\mu = \frac{1}{n}\sum^s_{j=1}n_j\mu_j, \quad n = \sum^s_{j = 1}n_j,记作μ\mu
  • δj=μjμ\delta_j = \mu_j - \mu

此时有n1δ1+n2δ2++nsδs=0n_1\delta_1 + n_2\delta_2 + \cdots + n_s\delta_s = 0δj\delta_j表示水平AjA_j下的总体平均值与总平均的差异,习惯上把δj\delta_j称为水平AjA_j效应,从而模型可以改写为

{Xij=μ+δj+εijεijN(0,σ2),εij独立i=1,2,,n,j=1,2,,sj=1snjδj=0\begin{cases} X_{ij} = \mu + \delta_j + \varepsilon_{ij} \\ \varepsilon_{ij} \sim N(0, \sigma^2), \text{各}\varepsilon_{ij}\text{独立} \\ i = 1, 2, \cdots, n, j = 1, 2, \cdots, s \\ \sum^s_{j=1}n_j\delta_j = 0 \end{cases}

而假设也可以等价于

H0:δ1=δ2==δs原假设H1:δ1,δ2,,δs不全为0备择假设\begin{aligned} H_0&: \delta_1 = \delta_2 = \cdots = \delta_s & \text{原假设} \\ H_1&: \delta_1, \delta_2, \cdots, \delta_s \text{不全为}0 & \text{备择假设} \end{aligned}

这是一个检测在某一因素不同下,同方差的多个正态总体的均值是否相等的问题

平方和的分解

引入总偏差平方和

ST=j=1si=1nj(XijX)2X=1nj=1si=1njXij\begin{aligned} S_T &= \sum^s_{j = 1}\sum^{n_j}_{i = 1} (X_{ij}- \overline{X})^2 \\ \overline{X} &= \frac{1}{n}\sum^s_{j = 1}\sum^{n_j}_{i = 1} X_{ij} \end{aligned}

  • X\overline{X}:为数据的总平均
  • STS_T:能够反映全部试验数据之间的差异,称为总变差
  • STS_T除以n1n - 1其实就是方差

记水平AjA_j下的样本平均值为Xj\overline{X}_{\cdot j},即

Xj=1ni=1njXij\overline{X}_{\cdot j} = \frac{1}{n}\sum^{n_j}_{i=1}X_{ij}

STS_T写成

ST=j=1si=1nj[(XijXj)+(XjX)]=j=1si=1nj(XijXj)2+j=1si=1nj(XjX)2+2j=1si=1nj(XijXj)(XjX)\begin{aligned} S_T &= \sum^s_{j = 1}\sum^{n_j}_{i = 1} [(X_{ij} - \overline{X}_{\cdot j}) + (\overline{X}_{\cdot j} - \overline{X})] \\ &= \sum^s_{j = 1}\sum^{n_j}_{i = 1} (X_{ij} - \overline{X}_{\cdot j})^2 + \sum^s_{j = 1}\sum^{n_j}_{i = 1} (\overline{X}_{\cdot j} - \overline{X})^2 + 2 \sum^s_{j = 1}\sum^{n_j}_{i = 1}(X_{ij} - \overline{X}_{\cdot j})(\overline{X}_{\cdot j} - \overline{X}) \end{aligned}

上面的第三项

2j=1si=1nj(XijXj)(XjX)=2j=1s(XjX)[i=1nj(XijXj)]=2j=1s(XjX)(i=1njnjXj)=0\begin{aligned} &2 \sum^s_{j = 1}\sum^{n_j}_{i = 1}(X_{ij} - \overline{X}_{\cdot j})(\overline{X}_{\cdot j} - \overline{X}) \\ &= 2 \sum^s_{j = 1}(\overline{X}_{\cdot j} - \overline{X})[\sum^{n_j}_{i = 1}(X_{ij} - \overline{X}_{\cdot j})] \\ &= 2 \sum^s_{j = 1}(\overline{X}_{\cdot j} - \overline{X})(\sum^{n_j}_{i=1} - n_j\overline{X}_{\cdot j}) \\ &= 0 \end{aligned}

于是STS_T被分解为

ST=SE+SASE=j=1si=1nj(XijXj)2SA=j=1si=1nj(XjX)2=j=1snj(XjX)2=j=1snjXj2nX2\begin{aligned} S_T &= S_E + S_A \\ \\ S_E &= \sum^s_{j = 1}\sum^{n_j}_{i = 1} (X_{ij} - \overline{X}_{\cdot j})^2 \\ S_A &= \sum^s_{j = 1}\sum^{n_j}_{i = 1} (\overline{X}_{\cdot j} - \overline{X})^2 \\ &= \sum^s_{j = 1} n_j(\overline{X}_{\cdot j} - \overline{X})^2 \\ &= \sum^s_{j = 1} n_j\overline{X}^2_{\cdot j} - n\overline{X}^2 \end{aligned}

  • SES_E的各项(XijXj)2(X_{ij} - \overline{X}_{\cdot j})^2:表示在水平AjA_j下,样本观测值与样本均值的差异
    • SES_E误差平方和
  • SAS_A的各项nj(XjX)2n_j(\overline{X}_{\cdot j} - \overline{X})^2:表示AjA_j水平下的样本平均值与数据总水平的差异
    • 这是由水平AjA_j的效应的差异以及随机误差引起的
    • SAS_A效应平方和

SES_ESAS_A的统计特性

SES_E的统计特性

SE=i=1n1(Xi1X1)2++i=1ns(XisXs)2S_E = \sum^{n_1}_{i=1} (X_{i1} - \overline{X}_{\cdot 1})^2 + \cdots + \sum^{n_s}_{i=1} (X_{is} - \overline{X}_{\cdot s})^2

其中i=1nj(XijXj)2\sum^{n_j}_{i=1} (X_{ij} - \overline{X}_{\cdot j})^2是总体N(μj,σ2)N(\mu_j, \sigma^2)的样本方差的nj1n_j - 1倍,于是有

i=1nj(XijXj)2σ2χ2(nj1)\frac{\sum^{n_j}_{i=1} (X_{ij} - \overline{X}_{\cdot j})^2}{\sigma^2} \sim \chi^2(n_j - 1)

因为XijX_{ij}相互独立,则SES_E的各平方和相互独立,由χ2\chi^2分布的可加性可知

SEσ2χ2(j=1s(nj1))SEσ2χ2(ns)n=j=1snj\begin{gathered} \frac{S_E}{\sigma^2} \sim \chi^2(\sum^s_{j=1}(n_j - 1)) \Rightarrow \frac{S_E}{\sigma^2} \sim \chi^2 (n - s) \\ n = \sum^s_{j = 1}n_j \end{gathered}

SES_E的自由度为nsn - s,且有

E(SE)=(ns)σ2E(S_E) = (n - s)\sigma^2

SAS_A的统计特性

SAS_Ass个变量nj(XjX),(j=1,2,,s)\sqrt{n_j}(\overline{X}_{\cdots j} - \overline{X}), (j=1, 2, \cdots, s)的平方和,它们之间由线性约束条件

j=1snj[nj(XjX)]=j=1snj(XjX)=j=1si=1njXijnX=0\begin{aligned} \sum^s_{j =1} \sqrt{n_j} [\sqrt{n_j}(\overline{X}_{\cdots j} - \overline{X})] &= \sum^s_{j = 1}n_j(\overline{X}_{\cdot j} - \overline{X}) \\ &= \sum^s_{j = 1}\sum^{n_j}_{i = 1} X_{ij} - n\overline{X} \\ &= 0 \end{aligned}

故知道SAS_A的自由度是s1s - 1,由于X\overline{X}nn个正态总体的期望,则

XN(μ,σ2n)\overline{X} \sim N(\mu, \frac{\sigma^2}{n})

即可得到

E(SA)=E[j=1snjXj2nX2]=j=1snjE(Xj2)nE(X2)=j=1snj[σ2nj+(μ+δj)2]n(σ2n+μ2)=(s1)σ2+2μj=12njδj+nμ2+j=12njδj2nμ2\begin{aligned} E(S_A) &= E[\sum^s_{j=1}n_j \overline{X}^2_{\cdot j} - n\overline{X}^2] \\ &= \sum^s_{j = 1}n_j E(\overline{X}^2_{\cdot j}) - n E(\overline{X}^2) \\ &=\sum^s_{j=1}n_j [\frac{\sigma^2}{n_j} + (\mu + \delta_j)^2] - n(\frac{\sigma^2}{n} + \mu^2) \\ &= (s - 1)\sigma^2 + 2\mu\sum^2_{j=1}n_j\delta_j + n\mu^2 + \sum^2_{j=1}n_j\delta^2_j - n\mu^2 \end{aligned}

因为j=1snjδj=0\sum^s_{j=1} n_j\delta_j = 0,所以有

E(SA)=(s1)σ2+j=12njδj2E(S_A) = (s - 1)\sigma^2 + \sum^2_{j=1}n_j\delta^2_j

进一步还可以证明SAS_ASES_E独立,且当H0H_0为真时

SAσ2χ2(s1)\frac{S_A}{\sigma^2} \sim \chi^2(s - 1)

假设检验问题的拒绝域

H0H_0为真时

E(SAs1)=σ2E(\frac{S_A}{s - 1}) = \sigma^2

SAs1\frac{S_A}{s - 1}σ2\sigma^2的无偏估计,而当H1H_1为真时,j=1snjδj2>0\sum^s_{j = 1}n_j\delta^2_j > 0,此时

E(SAs1)=σ2+1s1j=1snjδj2>σ2E(\frac{S_A}{s - 1}) = \sigma^2 + \frac{1}{s - 1}\sum^s_{j = 1}n_j\delta^2_j > \sigma^2

又由E(SE)=(ns)σ2E(S_E) = (n - s)\sigma^2可知

E(SEns)=σ2E(\frac{S_E}{n - s}) = \sigma^2

即不管H0H_0是否为真,SEns\frac{S_E}{n - s}都是σ2\sigma^2的无偏估计


综上所述,分式F=SA/(s1)SE/(ns)F = \frac{S_A/(s - 1)}{S_E/(n - s)}的分子与分母独立,分母SEns\frac{S_E}{n - s}不论H0H_0是否为真,其数学期望总是σ2\sigma^2,当H0H_0为真时,分子的数学期望为σ2\sigma^2,当H0H_0不为真时,由E(SA)=(s1)σ2+j=12njδj2E(S_A) = (s - 1)\sigma^2 + \sum^2_{j=1}n_j\delta^2_j的分子的取值由偏大的趋势,于是知道检验问题的拒绝域具有形式

F=SA/(s1)SE/(ns)kF = \frac{S_A/(s - 1)}{S_E/(n - s)} \geq k

其中kk由预先给定的显著性水平aa确定,由SEσ2χ2(ns)\frac{S_E}{\sigma^2} \sim \chi^2 (n - s)SAσ2χ2(s1)\frac{S_A}{\sigma^2} \sim \chi^2(s - 1)以及SE,SAS_E, S_A的独立性可以知道,当H0H_0为真时

SA/(s1)SE/(ns)=SA/σ2s1/SE/σ2nsF(s1,ns)\frac{S_A/(s - 1)}{S_E/(n - s)} = \frac{S_A/\sigma^2}{s-1}/\frac{S_E/\sigma^2}{n - s} \sim F(s - 1, n - s)

由此可以得到检验问题的拒绝域为

F=SA/(s1)SE/(ns)Fa(s1,ns)F = \frac{S_A/(s - 1)}{S_E/(n - s)} \geq F_a(s - 1, n - s)

上述分析的结果可排成表,称为方差分析表

方差来源 平方和 自由度 均方和 F比值 p值
因素A SAS_A s1s - 1 SA=SAs1\overline{S}_A = \frac{S_A}{s - 1} F=SASEF = \frac{\overline{S}_A}{\overline{S}_E } p(A)p(A)
误差 SES_E nsn - s SE=SEns\overline{S}_E = \frac{S_E}{n - s} - -
总和 STS_T n1n-1 - - -
  • SA=SAs1\overline{S}_A = \frac{S_A}{s - 1}SAS_A的均方
  • SE=SEns\overline{S}_E = \frac{S_E}{n - s}SES_E的均方

因为STS_Tnn个变量XijXX_{ij} - \overline{X}之间仅满足一个约束条件,故STS_T的自由度为n1n - 1

名称 公式
STS_T j=1si=1nj(XijXj)2+j=1si=1nj(XjX)2\sum^s_{j = 1}\sum^{n_j}_{i = 1} (X_{ij} - \overline{X}_{\cdot j})^2 + \sum^s_{j = 1}\sum^{n_j}_{i = 1} (\overline{X}_{\cdot j} - \overline{X})^2
SAS_A j=1si=1nj(XjX)2\sum^s_{j = 1}\sum^{n_j}_{i = 1} (\overline{X}_{\cdot j} - \overline{X})^2
SES_E j=1si=1nj(XijXj)2\sum^s_{j = 1}\sum^{n_j}_{i = 1} (X_{ij} - \overline{X}_{\cdot j})^2

在实际中,可以按一下方式简化公式来计算ST,SA,SES_T, S_A, S_E,记

{Tj=i=1njXij,j=1,2,,s,T=j=1si=1njXij\begin{cases} T_{\cdot j} = \sum^{n_j}_{i=1}X_{ij}, j = 1, 2, \cdots, s, \quad T_{\cdot\cdot} = \sum^s_{j=1}\sum^{n_j}_{i=1} X_{ij} \end{cases}

即有

ST=j=1si=1njXij2nX2=j=1si=1njXij2T2nSA=j=1snjXj2nX2=j=1sTj2njT2nSE=STSA\begin{aligned} S_T &= \sum^s_{j=1}\sum^{n_j}_{i=1} X^2_{ij} - n\overline{X}^2 = \sum^s_{j=1}\sum^{n_j}_{i=1} X^2_{ij} - \frac{T^2_{\cdot\cdot}}{n} \\ S_A &= \sum^s_{j=1}n_j \overline{X}^2_{\cdot j} - n\overline{X}^2 = \sum^s_{j=1}\frac{T^2_{\cdot j}}{n_j} - \frac{T^2_{\cdot\cdot}}{n} \\ S_E &= S_T - S_A \end{aligned}

与t检验的区别

方差检验(方差分析)和t检验

  • 相同点
    • 自变量不同产生的差异 / 随机因素产生的差异(error) ,来检验因为自变量不同产生的差异是否足够大到可以结论说这个自变量对因变量有显著影响。
    • 方差用F检验,t检验用t检验,但是本质是一样的:t值的平方就是F值
  • 不同点
    • t检验的显著性测试有Type 1误差,如果要比较三组数据,就要进行两次的t检验,这就增加误差
    • 方差可以同时检验两组以上的数据,这样就减少了Type 1 误差
    • 方差可以同时多组比较,减小误差