方差来源 |
平方和 |
自由度 |
均方和 |
F比值 |
p值 |
因素A |
SA |
s−1 |
SA=s−1SA |
F=SESA |
p(A) |
误差 |
SE |
n−s |
SE=n−sSE |
- |
- |
总和 |
ST |
n−1 |
- |
- |
- |
项目 |
平方和 |
自由度 |
均方和 |
F比值 |
p值 |
因素A |
SA |
r−1 |
SA=s−1SA |
FA=SESA |
p(A) |
因素B |
SB |
s−1 |
SB=s−1SB |
FB=SESB |
p(B) |
交互作用 |
SA×B |
(r−1)(s−1) |
SA×B=(r−1)(s−1)SA×B |
FA=SESA×B |
p(AB) |
误差 |
SE |
rs(t−1) |
SE=rs(t−1)SE |
- |
- |
总和 |
ST |
rst−1 |
- |
- |
- |
在科学实验和生产实践中,影响一事物的因素有很多,为了使生产过程得以稳定,保证优质,高产,就需要找出对产品质量有显著影响的那些因素,方差分析就是根据实验的结果进行分析,鉴别各个有关因素对实验结果的影响的有效方法
- 实验指标:要考察的指标
- 因素:影响实验指标的条件
- 单因素实验:一项实验的过程中只有一个因素在改变
- 多因素实验:一项实验的过程中有多个因素在改变
单因素实验的方差分析
设因素A有s个水平A1,A2,⋯,As,在水平Aj(j=1,2,⋯,s)下,进行nj(nj≥2)次独立实验
观察结果\水平 |
A1 |
A2 |
⋯ |
As |
|
X11 |
X12 |
⋯ |
X1s |
|
X21 |
X22 |
⋯ |
X2s |
|
⋮ |
⋮ |
⋱ |
⋮ |
|
Xn11 |
Xn22 |
⋯ |
Xnss |
— |
— |
— |
— |
— |
样本总和 |
T⋅1 |
T⋅2 |
⋯ |
T⋅s |
样本均值 |
X⋅1 |
X⋅2 |
⋯ |
X⋅s |
总体均值 |
μ1 |
μ2 |
⋯ |
μs |
我们假定
各个水平Aj(j=1,2,⋯,s)下的样本X1j,X2j,⋯,Xnnj来自具有
- 相同方差σ2
- 均值分别为uj(j=1,2,⋯,s)
的正态总体N(μj,σ2),μj与σ2未知,且设不同水平Aj下的样本之间相互独立
由于Xij∼N(μj,σ2),即有Xij−μj∼N(μj,σ2),因此Xij−μj可以看作为随机误差,记错Xij−μj=εij,则Xij可写成
⎩⎪⎨⎪⎧Xij=μj+εijεij∼N(0,σ2),各εij独立i=1,2,⋯,n,j=1,2,⋯,s
称上式为单因素实验方差分析的数学模型。这是我们研究的对象
- 检验s各总体N(μ1,σ2),⋯,N(μs,σ2)的均值是否相等,即检验假设
H0H1:μ1=μ2=⋯=μs:μ1,μ2,⋯,μs不全相等原假设备择假设
- 作出未知参数μ1,μ2,⋯,μs,σ2的估计
简化形式
- 总平均:μ1,μ2,⋯,μs的加权平均值μ=n1∑j=1snjμj,n=∑j=1snj,记作μ
- δj=μj−μ
此时有n1δ1+n2δ2+⋯+nsδs=0,δj表示水平Aj下的总体平均值与总平均的差异,习惯上把δj称为水平Aj的效应,从而模型可以改写为
⎩⎪⎪⎪⎨⎪⎪⎪⎧Xij=μ+δj+εijεij∼N(0,σ2),各εij独立i=1,2,⋯,n,j=1,2,⋯,s∑j=1snjδj=0
而假设也可以等价于
H0H1:δ1=δ2=⋯=δs:δ1,δ2,⋯,δs不全为0原假设备择假设
这是一个检测在某一因素不同下,同方差的多个正态总体的均值是否相等的问题
平方和的分解
引入总偏差平方和
STX=j=1∑si=1∑nj(Xij−X)2=n1j=1∑si=1∑njXij
- X:为数据的总平均
- ST:能够反映全部试验数据之间的差异,称为总变差
- ST除以n−1其实就是方差
记水平Aj下的样本平均值为X⋅j,即
X⋅j=n1i=1∑njXij
将ST写成
ST=j=1∑si=1∑nj[(Xij−X⋅j)+(X⋅j−X)]=j=1∑si=1∑nj(Xij−X⋅j)2+j=1∑si=1∑nj(X⋅j−X)2+2j=1∑si=1∑nj(Xij−X⋅j)(X⋅j−X)
上面的第三项
2j=1∑si=1∑nj(Xij−X⋅j)(X⋅j−X)=2j=1∑s(X⋅j−X)[i=1∑nj(Xij−X⋅j)]=2j=1∑s(X⋅j−X)(i=1∑nj−njX⋅j)=0
于是ST被分解为
STSESA=SE+SA=j=1∑si=1∑nj(Xij−X⋅j)2=j=1∑si=1∑nj(X⋅j−X)2=j=1∑snj(X⋅j−X)2=j=1∑snjX⋅j2−nX2
- SE的各项(Xij−X⋅j)2:表示在水平Aj下,样本观测值与样本均值的差异
- SA的各项nj(X⋅j−X)2:表示Aj水平下的样本平均值与数据总水平的差异
- 这是由水平Aj的效应的差异以及随机误差引起的
- SA:效应平方和
SE,SA的统计特性
SE的统计特性
SE=i=1∑n1(Xi1−X⋅1)2+⋯+i=1∑ns(Xis−X⋅s)2
其中∑i=1nj(Xij−X⋅j)2是总体N(μj,σ2)的样本方差的nj−1倍,于是有
σ2∑i=1nj(Xij−X⋅j)2∼χ2(nj−1)
因为Xij相互独立,则SE的各平方和相互独立,由χ2分布的可加性可知
σ2SE∼χ2(j=1∑s(nj−1))⇒σ2SE∼χ2(n−s)n=j=1∑snj
SE的自由度为n−s,且有
E(SE)=(n−s)σ2
SA的统计特性
SA是s个变量nj(X⋯j−X),(j=1,2,⋯,s)的平方和,它们之间由线性约束条件
j=1∑snj[nj(X⋯j−X)]=j=1∑snj(X⋅j−X)=j=1∑si=1∑njXij−nX=0
故知道SA的自由度是s−1,由于X是n个正态总体的期望,则
X∼N(μ,nσ2)
即可得到
E(SA)=E[j=1∑snjX⋅j2−nX2]=j=1∑snjE(X⋅j2)−nE(X2)=j=1∑snj[njσ2+(μ+δj)2]−n(nσ2+μ2)=(s−1)σ2+2μj=1∑2njδj+nμ2+j=1∑2njδj2−nμ2
因为∑j=1snjδj=0,所以有
E(SA)=(s−1)σ2+j=1∑2njδj2
进一步还可以证明SA与SE独立,且当H0为真时
σ2SA∼χ2(s−1)
假设检验问题的拒绝域
当H0为真时
E(s−1SA)=σ2
即s−1SA是σ2的无偏估计,而当H1为真时,∑j=1snjδj2>0,此时
E(s−1SA)=σ2+s−11j=1∑snjδj2>σ2
又由E(SE)=(n−s)σ2可知
E(n−sSE)=σ2
即不管H0是否为真,n−sSE都是σ2的无偏估计
综上所述,分式F=SE/(n−s)SA/(s−1)的分子与分母独立,分母n−sSE不论H0是否为真,其数学期望总是σ2,当H0为真时,分子的数学期望为σ2,当H0不为真时,由E(SA)=(s−1)σ2+∑j=12njδj2的分子的取值由偏大的趋势,于是知道检验问题的拒绝域具有形式
F=SE/(n−s)SA/(s−1)≥k
其中k由预先给定的显著性水平a确定,由σ2SE∼χ2(n−s)和σ2SA∼χ2(s−1)以及SE,SA的独立性可以知道,当H0为真时
SE/(n−s)SA/(s−1)=s−1SA/σ2/n−sSE/σ2∼F(s−1,n−s)
由此可以得到检验问题的拒绝域为
F=SE/(n−s)SA/(s−1)≥Fa(s−1,n−s)
上述分析的结果可排成表,称为方差分析表
方差来源 |
平方和 |
自由度 |
均方和 |
F比值 |
p值 |
因素A |
SA |
s−1 |
SA=s−1SA |
F=SESA |
p(A) |
误差 |
SE |
n−s |
SE=n−sSE |
- |
- |
总和 |
ST |
n−1 |
- |
- |
- |
- SA=s−1SA为SA的均方
- SE=n−sSE为SE的均方
因为ST中n个变量Xij−X之间仅满足一个约束条件,故ST的自由度为n−1
名称 |
公式 |
ST |
∑j=1s∑i=1nj(Xij−X⋅j)2+∑j=1s∑i=1nj(X⋅j−X)2 |
SA |
∑j=1s∑i=1nj(X⋅j−X)2 |
SE |
∑j=1s∑i=1nj(Xij−X⋅j)2 |
在实际中,可以按一下方式简化公式来计算ST,SA,SE,记
{T⋅j=∑i=1njXij,j=1,2,⋯,s,T⋅⋅=∑j=1s∑i=1njXij
即有
STSASE=j=1∑si=1∑njXij2−nX2=j=1∑si=1∑njXij2−nT⋅⋅2=j=1∑snjX⋅j2−nX2=j=1∑snjT⋅j2−nT⋅⋅2=ST−SA
与t检验的区别
方差检验(方差分析)和t检验
- 相同点
- 自变量不同产生的差异 / 随机因素产生的差异(error) ,来检验因为自变量不同产生的差异是否足够大到可以结论说这个自变量对因变量有显著影响。
- 方差用F检验,t检验用t检验,但是本质是一样的:t值的平方就是F值
- 不同点
- t检验的显著性测试有Type 1误差,如果要比较三组数据,就要进行两次的t检验,这就增加误差
- 方差可以同时检验两组以上的数据,这样就减少了Type 1 误差
- 方差可以同时多组比较,减小误差