[数理统计] - 线性回归

线性回归分析,可以通过一个已知的变量的值,进而推断一个未知的变量的确切的值。

我们对于xx取定一组不完全相同的值x1,x2,,xnx_1, x_2, \cdots, x_n,设Y1,Y2,,YnY_1, Y_2, \cdots, Y_n分别是在x1,x2,,xnx_1, x_2, \cdots, x_n处对YY的独立观察结果,称

(x1,Y1),(x2,Y2),,(xn,Yn)(x_1, Y_1), (x_2, Y_2), \cdots, (x_n, Y_n)

是一个样本,对应的样本值记为

(x1,y1),(x2,y2),,(xn,yn)(x_1, y_1), (x_2, y_2), \cdots, (x_n, y_n)

一元线性回归

假设对于xx(在某个区间内)的每一个值有

YN(a+bx,σ2)Y \sim N(a + bx, \sigma^2)

其中a,ba,bσ2\sigma^2都是不依赖于xx的未知参数,记ε=Y(a+bx)\varepsilon = Y - (a + bx),对YY作这样的正态假设,即

Y=a+bx+ε,εN(o,σ2)Y = a + bx + \varepsilon, \quad \varepsilon \sim N(o, \sigma^2)

其中未知参数a,ba, bσ2\sigma^2都是不依赖于xx的未知参数,上式称为一元线性回归模型,其中bb称为回归系数

a,b的估计

xxnn个不全相同的值x1,x2,,xnx_1, x_2, \cdots, x_n作独立实验,得到样本

(x1,Y1),(x2,Y2),,(xn,Yn)(x_1, Y_1), (x_2, Y_2), \cdots, (x_n, Y_n)

由一元线性回归模型得到

Yi=a+bxi+εi,εiN(o,σ2).εi相互独立Y_i = a + bx_i + \varepsilon_i, \quad \varepsilon_i \sim N(o, \sigma^2).\text{各}\varepsilon_i\text{相互独立}

于是得到YiN(a+bxi,σ2),i=1,2,,nY_i \sim N(a + bx_i, \sigma^2), i = 1, 2, \cdots, n,由Y1,Y2,,YnY_1, Y_2, \cdots, Y_n的独立性,知道Y1,Y2,,YnY_1, Y_2, \cdots, Y_n的联合分布为

L=i=1n1σ2πexp[12σ2(yiabxi)]=(1σ2π)nexp[12σ2i=1n(yiabxi)]\begin{aligned} L &= \prod^n_{i=1}\frac{1}{\sigma \sqrt{2\pi}} \exp \Big[ -\frac{1}{2\sigma^2}(y_i - a -bx_i) \Big] \\ &= (\frac{1}{\sigma \sqrt{2\pi}})^n \exp \Big[ -\frac{1}{2\sigma^2}\sum^n_{i=1}(y_i - a -bx_i) \Big] \end{aligned}

利用最大似然估计法来估计未知参数a,ba,b,对于任意一组观察值y1,y2,,yny_1, y_2, \cdots, y_n上式就是样本的似然函数,只要LL取最大值,即右式方括号中的平方和最小,即

minQ(a,b)=i=1n(yiabxi)2\min \quad Q(a,b) = \sum^n_{i=1}(y_i - a -bx_i)^2

QQ分布关于a,ba,b的偏导数,令它们等于00

{Qa=2i=1n(yiabxi)=0Qb=2i=1n(yiabxi)xi=0\begin{cases} \frac{\partial Q}{\partial a} &= -2 \sum^n_{i=1} (y_i - a - bx_i) = 0 \\ \frac{\partial Q}{\partial b} &= -2 \sum^n_{i=1} (y_i - a - bx_i)x_i = 0 \end{cases}

得到方程组

{na+(i=1nxi)b=i=1nyi(i=1nxi)a+(i=1nxi2)b=i=1nxiyi\begin{cases} na + (\sum^n_{i=1}x_i)b = \sum^n_{i=1}y_i \\ (\sum^n_{i=1}x_i)a + (\sum^n_{i=1}x^2_i)b = \sum^n_{i=1}x_iy_i \end{cases}

称上式为正规方程组,上述线性方程的行列式

ni=1nxii=1nxii=1nxi2=ni=1nxi2(i=1nxi)2=ni=1n(xix)20\begin{vmatrix} n & \sum^n_{i=1}x_i \\ \sum^n_{i=1}x_i & \sum^n_{i=1}x^2_i \end{vmatrix} = n\sum^n_{i=1}x^2_i - (\sum^n_{i=1}x_i)^2 = n\sum^n_{i=1}(x_i - \overline{x})^2 \neq 0

故方程式由唯一的解,解得a,ba,b的最大似然估计值为

b^=ni=1nxiyi(i=1nxi)(i=1nyi)ni=1nxi2(i=1nxi)2=i=1n(xix)(yiy)i=1n(xix)2a^=1ni=1nyib^ni=1nxi=yb^x\begin{aligned} \hat{b} &= \frac{n\sum^n_{i=1}x_iy_i - (\sum^n_{i=1}x_i)(\sum^n_{i=1}y_i)}{n\sum^n_{i=1}x^2_i - (\sum^n_{i=1}x_i)^2} \\ &= \frac{\sum^n_{i=1}(x_i - \overline{x})(y_i - \overline{y})}{\sum^n_{i=1}(x_i - \overline{x})^2} \\ \\ \hat{a} &= \frac{1}{n}\sum^n_{i=1}y_i - \frac{\hat{b}}{n} \sum^n_{i=1}x_i = \overline{y} - \hat{b}\overline{x} \end{aligned}

于是对于给定的xx,取a^+b^x\hat{a} + \hat{b}x作为回归函数μ(x)=a+bx\mu(x) = a + bx的估计,则

y^=a^+b^x\hat{y} = \hat{a} + \hat{b}x

称为YY关于xx经验回归方程,简称回归方程,其图形称为回归直线

回归方程的简化表示

引入下述记号

Sxx=i=1n(xix)2Syy=i=1n(yiy)2Sxy=i=1n(xix)(yiy)\begin{aligned} S_{xx} &= \sum^n_{i=1}(x_i - \overline{x})^2 \\ S_{yy} &= \sum^n_{i=1}(y_i - \overline{y})^2 \\ S_{xy} &= \sum^n_{i=1}(x_i - \overline{x})(y_i - \overline{y}) \end{aligned}

a,ba,b的估计值可以写作

b^=SxySxxa^=1ni=1nyi(1ni=1nxi)b^\begin{aligned} \hat{b} &= \frac{S_{xy}}{S_{xx}} \\ \hat{a} &= \frac{1}{n}\sum^n_{i=1}y_i - (\frac{1}{n}\sum^n_{i=1}x_i)\hat{b} \end{aligned}

回归拟合优度

变量yy的取值是不同的,其原因有2各方面

  • 自变量xx的取值不同
  • xx以外的其他因素

离差

离差的大小可以用实际观测值yy与均值y\overline{y}的差yyy - \overline{y}来表示,其性质

  • i=1n(yiy)=0\sum^n_{i=1} (y_i - \overline{y}) = 0
  • i=1nxi(yiy)=0\sum^n_{i=1} x_i(y_i - \overline{y}) = 0,即自变量xix_i与残差直接没有关系

对于nn次观察值的总离差,则可以用离差的平方和来表示,称为总平方和,也叫总变差,记为SST,即

SST=i=1n(yiy)2SST = \sum^n_{i=1}(y_i - \overline{y})^2

残差

残差的大小可以用实际观测值yy与理论值y^\hat{y}的差e=yy^e = y - \hat{y}来表示,其性质

  • E(e)=0E(e) = 0
  • Cov(e,b^)=0Cov(e, \hat{b}) = 0
  • D(e)=σ2(IH)D(e) = \sigma^2(I - H)

对于nn次观察值的残差,则可以用残差的平方和来表示,称为残差平方和,记为SSE,即

SSE=i=1n(yiy^i)2SSE = \sum^n_{i=1}(y_i - \hat{y}_i)^2

由上图,可以得出

yy=(y^y)+(yy^)i=1n(yiy)2=i=1n(y^iy)2+i=1n(yiy^i)2+2i=1n(y^iy)(yiy^i)\begin{gathered} y - \overline{y} = (\hat{y} - \overline{y}) + (y - \hat{y}) \\ \Downarrow \\ \sum^n_{i=1}(y_i - \overline{y})^2 = \sum^n_{i=1}(\hat{y}_i - \overline{y})^2 + \sum^n_{i=1}(y_i - \hat{y}_i)^2 + 2\sum^n_{i=1}(\hat{y}_i - \overline{y})(y_i - \hat{y}_i) \end{gathered}

其中2i=1n(y^iy)(yiy^i)=02\sum^n_{i=1}(\hat{y}_i - \overline{y})(y_i - \hat{y}_i)= 0,即可得出

i=1n(yiy)2=i=1n(y^iy)2+i=1n(yiy^i)2\begin{aligned} \sum^n_{i=1}(y_i - \overline{y})^2 &= \sum^n_{i=1}(\hat{y}_i - \overline{y})^2 + \sum^n_{i=1}(y_i - \hat{y}_i)^2 \end{aligned}

也就是

总平方和(SST)=回归平方和(SSR)+残差平方和(SSE)\begin{aligned} \text{总平方和(SST)} &= \text{回归平方和(SSR)} + \text{残差平方和(SSE)} \end{aligned}

决定系数

可以从图中看出,如果回归直线拟合较好,那么残差平方和(SSE)应该是比较低的,定义以下变量为决定系数判定系数(coefficient of determination)

R2=回归平方和SSR    总平方和SST=1残差平方和SSE    总平方和SST=i=1n(y^iy)2i=1n(yiy)2=1i=1n(yiy^i)2i=1n(yiy)2\begin{aligned} R^2 &= \frac{\text{回归平方和}SSR}{\text{\ \ \ \ 总平方和}SST} = 1 - \frac{\text{残差平方和}SSE}{\text{\ \ \ \ 总平方和}SST} \\ &= \frac{\sum^n_{i=1}(\hat{y}_i - \overline{y})^2}{\sum^n_{i=1}(y_i - \overline{y})^2} = 1 - \frac{\sum^n_{i=1}(y_i - \hat{y}_i)^2}{\sum^n_{i=1}(y_i - \overline{y})^2} \end{aligned}

  • 如果所有观测点都落在直线上,拟合是完全的,则R2=1R^2 = 1
  • 如果yy的变换与xx无关,此时y^=y\hat{y} = \overline{y},则R2=0R^2 = 0

SSE代表了xx不能解释的一部分变动,它越小说明模拟拟合的越好

经调整决定系数

决定系数会随着自变量的增多,趋近于11,为了修正这一点,引入经调整决定系数(Adjusted coefficient of determination)

Rf2=1i=1n(yiy^i)2nk1i=1n(yiy)2n1R^2_f = 1 - \dfrac{\frac{\sum^n_{i=1}(y_i - \hat{y}_i)^2}{n - k - 1}}{\frac{\sum^n_{i=1}(y_i - \overline{y})^2}{n - 1}}

  • 比较自变量数不同的回归模型的时候,使用调整决定系数
  • 决定系数或调整决定系数越高,说明回归直线拟合越好

方差的估计

Y=a+bx+ε,εN(o,σ2)Y = a + bx + \varepsilon, \quad \varepsilon \sim N(o, \sigma^2)

得到

E[(Y(a+bx))2]=E[ε2]=D(ε)+E(ε)2=σ2E[(Y - (a + bx))^2] = E[\varepsilon^2] = D(\varepsilon) + E(\varepsilon)^2 = \sigma^2

其表示σ2\sigma^2越小,回归函数μ(x)=a+bx\mu(x) = a + bx作为YY的近似导致的均方差误差就越小。这样利用回归函数μ(x)=a+bx\mu(x) = a + bx去研究随机变量YYxx的关系就越有效,不过一般情况下σ2\sigma^2是未知的,所以我们需要从样本取估计σ2\sigma^2


xix_i处的残差yiy^iy_i - \hat{y}_i

y^i=y^x=xi=a^+b^xi\hat{y}_i = \hat{y}|_{x = x_i} = \hat{a} + \hat{b}x_i

则残差平方和为

Qe=i=1n(yiy^i)2=i=1n(yia^b^xi)2\begin{aligned} Q_e &= \sum^n_{i=1}(y_i - \hat{y}_i)^2 \\ &= \sum^n_{i=1}(y_i - \hat{a} - \hat{b}x_i)^2 \end{aligned}

QeQ_e做如下分解

Qe=i=1n(yiy^i)2=i=1n(yiyb^(xix))2=i=1n(yiy)22b^i=1n(xix)(yiy)+b^2i=1n(xx)2=Syy2b^Sxy+b^2Sxx\begin{aligned} Q_e &= \sum^n_{i=1}(y_i - \hat{y}_i)^2 \\ &= \sum^n_{i=1}(y_i - \overline{y} - \hat{b}(x_i - \overline{x}))^2 \\ &= \sum^n_{i=1}(y_i - \overline{y})^2 - 2\hat{b}\sum^n_{i=1}(x_i - \overline{x})(y_i - \overline{y}) + \hat{b}^2\sum^n_{i=1}(x - \overline{x})^2 \\ &= S_{yy} - 2\hat{b}S_{xy} + \hat{b}^2S_{xx} \end{aligned}

其中b^=Sxy/Sxx\hat{b} = S_{xy}/S_{xx},化简得到QeQ_e的一个分解式

Qe=Syyb^SxyQ_e = S_{yy} - \hat{b}S_{xy}

对于上式的残差平方和的统计量QeQ_e,我们先令y=Yy = Y

SYY=i=1n(YiY)2SxY=i=1n(xix)(YiY)\begin{aligned} S_{YY} &= \sum^n_{i=1}(Y_i - \overline{Y})^2 \\ S_{xY} &= \sum^n_{i=1}(x_i - \overline{x})(Y_i - \overline{Y}) \end{aligned}

则统计量QeQ_e

Qe=SYYb^SxYQ_e = S_{YY} - \hat{b}S_{xY}

其服从χ2(n2)\chi^2(n -2)分布

Qeσ2χ2(n2)\frac{Q_e}{\sigma^2} \sim \chi^2(n -2)

可以得到期望

E(Qeσ2)=n2E(\frac{Q_e}{\sigma^2}) = n - 2

于是从E(Qen2)=σ2E(\frac{Q_e}{n-2}) = \sigma^2,就得到σ2\sigma^2的无偏估计量

σ^2=Qen2=1n2(SYYb^SxY)\hat{\sigma}^2 = \frac{Q_e}{n-2} = \frac{1}{n-2}(S_{YY} - \hat{b}S_{xY})

线性假设的显著性检验

我们都是假定YY关于xx的回归μ(x)\mu(x)具有a+ba+b形式,但是我们无法断定μ(x)\mu(x)是否为xx的线性函数,一般需要通过假定检验才能确定,若Y=a+bx+εY = a + bx + \varepsilon满足实际,则bb不应为00,若b=0b = 0,则E(Y)=μ(x)E(Y) = \mu(x)不依赖于xx,因此检验假设

H0:b=0H1:b0\begin{aligned} H_0: \quad b = 0 \\ H_1: \quad b \neq 0 \end{aligned}

利用tt检验法,我们可以知道

b^N(b,σ2Sxx)\hat{b} \sim N(b, \frac{\sigma^2}{S_{xx}})

{Qeσ2χ2(n2)σ^2=Qen2=1n2(SYYb^SxY)(n2)σ^2σ2=Qeσ2χ2(n2)\begin{cases} \frac{Q_e}{\sigma^2} \sim \chi^2(n -2) \\ \hat{\sigma}^2 = \frac{Q_e}{n-2} = \frac{1}{n-2}(S_{YY} - \hat{b}S_{xY}) \end{cases}\Rightarrow \frac{(n - 2)\hat{\sigma}^2}{\sigma^2} = \frac{Q_e}{\sigma^2} \sim \chi^2(n - 2)

b^\hat{b}QeQ_e独立,可以得到

b^bσ2Sxx(n2)σ^2σn2t(n2)\frac{\frac{\hat{b} - b}{\sqrt{\frac{\sigma^2}{S_{xx}}}}}{\sqrt{\frac{\frac{(n - 2)\hat{\sigma}^2}{\sigma}}{n - 2}}} \sim t(n - 2)

也就是

b^bσ^Sxxt(n2),σ^=σ^2\frac{\hat{b} - b}{\hat{\sigma}} \sqrt{S_{xx}} \sim t(n - 2), \quad \hat{\sigma} = \sqrt{\hat{\sigma}^2}

H0H_0为真的时候,b=0b = 0,此时统计量tt的值为

t=b^σ^Sxxt(n2)t = \frac{\hat{b}}{\hat{\sigma}}\sqrt{S_{xx}} \sim t(n - 2)

E(b^)=b=0E(\hat{b}) = b = 0,即得到H0H_0的拒绝域为

t=b^σ^Sxxta/2(n2)|t| = \frac{|\hat{b}|}{\hat{\sigma}}\sqrt{S_{xx}} \geq t_{a/2}(n - 2)

当假设H0:b=0H_0: b = 0被拒绝时,也就是系数不为00,认为回归效果时显著的,反之,认为回归效果不显著,其原因可能为

  • 影响YY取值的,除xx及随机误差外还有其他不可忽略的因素
  • E(Y)E(Y)xx的关系不是线性的,而存在其他的关系
  • YYxx不存在关系

在实际中,我们还可能使用tt的值计算出P-值(Pr(>t)Pr(>|t|)),然后再进行检定

系数b的置信区间

当回归效果显著时,可能需要对系数bb作区间估计,由b^bσ^Sxxt(n2)\frac{\hat{b} - b}{\hat{\sigma}} \sqrt{S_{xx}} \sim t(n - 2)得到bb的置信水平为1a1 - a的置信水平为1a1 - a的置信区间为

(b^±ta/2(n2)×σ^Sxx)(\hat{b} \pm t_{a/2}(n - 2) \times \frac{\hat{\sigma}}{\sqrt{S_{xx}}})

可化为一元线性回归的例子

Y=aeβxε,lnεN(0,σ2)Y = ae^{\beta x} \cdot \varepsilon, \quad \ln \varepsilon \sim N(0,\sigma^2)

其中a,β,σ2a, \beta, \sigma^2是与xx无关的未知参数,两边取对数得到

lnY=lna+βx+lnε\ln Y = \ln a + \beta x + \ln \varepsilon

lnY=Y,lna=a,β=b,x=x,lnε=ε\ln Y = Y', \ln a = a, \beta = b, x = x', \ln \varepsilon = \varepsilon',则

Y=a+bx+ε,εN(0,σ2)Y' = a + bx' + \varepsilon', \quad \varepsilon' \sim N(0, \sigma^2)


Y=axβε,lnεN(0,σ2)Y = ax^\beta \cdot \varepsilon, \quad \ln \varepsilon \sim N(0, \sigma^2)

其中a,β,σ2a, \beta, \sigma^2是与xx无关的未知参数,两边取对数得到

lnY=lna+βlnx+lnε\ln Y = \ln a + \beta \ln x + \ln \varepsilon

lnY=Y,lna=a,β=b,lnx=x,lnε=ε\ln Y = Y', \ln a = a, \beta = b, \ln x = x', \ln \varepsilon = \varepsilon',则

Y=a+bx+ε,εN(0,σ2)Y' = a + bx' + \varepsilon', \quad \varepsilon' \sim N(0, \sigma^2)


Y=a+βh(x)+ε,εN(0,σ2)Y = a + \beta h(x) + \varepsilon, \quad \varepsilon \sim N(0,\sigma^2)

其中a,β,σ2a, \beta, \sigma^2是与xx无关的未知参数,h(x)h(x)xx的已知函数,
a=a,β=b,h(x)=xa = a, \beta = b, h(x) = x',则

Y=a+bx+ε,εN(0,σ2)Y = a + bx' + \varepsilon, \quad \varepsilon' \sim N(0, \sigma^2)

上述得到YY关于xx'的回归方程后,再将原自变量xx代回,就得到yy关于xx的回归方程,它的图形是一条曲线,也称为曲线回归方程

回归分析表

假设回归模型为(R语言)

y=a+β1×R1+β2×log(R2)+残差y = a + \beta_1 \times R_1 + \beta_2 \times \log(R_2) + \text{残差}

1
2
3
4
5
6
7
8
9
10
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.283e+03 1.137e+02 -11.278 1.39e-15
population -6.617e-02 1.046e-02 -6.326 5.87e-08
log(gdp) 1.757e+02 1.175e+01 14.959 < 2e-16
---

Residual standard error: 103.5 on 52 degrees of freedom
Multiple R-squared: 0.821 Adjusted R-squared: 0.8141
F-statistic: 119.2 on 2 and 52 DF, p-value: < 2.2e-16

翻译过来即

1
2
3
4
5
6
7
8
9
10
计算结果:
参数估计列 参数的标准差 t value Pr(>|t|)
(参数a的估计值) -1.283e+03 1.137e+02 -11.278 1.39e-15
population -6.617e-02 1.046e-02 -6.326 5.87e-08
log(gdp) 1.757e+02 1.175e+01 14.959 < 2e-16
---

残差的标准差: 103.5 on 自由度: 52
决定系数: 0.821 经调整决定系数: 0.8141
F统计量: 119.2 自由度: (2, 52), p值: < 2.2e-16
  • Coefficients:表示参数估计的计算结果。
  • Estimate:为参数估计列。Intercept行表示常数参数a的估计值 ,x行表示自变量x的参数b的估计值。
  • Std. Error:为参数的标准差,sd(a), sd(b)
  • t value:为t值,为T检验的值
  • Pr(>|t|):表示P-value值,用于T检验判定,匹配显著性标记
  • Residual standard error:表示残差的标准差,自由度为n-2
  • Multiple R-squared:为相关系数R2R^2的检验,越接近1则越显著。
  • Adjusted R-squared:为相关系数的修正系数,解决多元回归自变量越多,判定系数R2R^2越大的问题
  • F-statistic:表示F统计量,自由度为(1,n2)(1, n-2)
  • p-value:用于F检验判定,匹配显著性标记

Pr(>|t|)如果小于0.050.05,那么我们就有95%的信心相信,这个自变量的系数不是0,也就是原假设不成立。

多元线性回归

实际问题中,随机变量YY可能与多个普通变量x1,x2,,xp,(p>1)x_1, x_2, \cdots, x_p,(p > 1)有关,对于自变量x1,x2,,xpx_1, x_2, \cdots, x_p的一组确定的值,YY有他的分布,若YY的数学期望存在,则它是x1,x2,,xpx_1, x_2, \cdots, x_p的函数,这里研究的是μ(x1,x2,,xp)\mu(x_1, x_2, \cdots, x_p)x1,x2,,xpx_1, x_2, \cdots, x_p的线性函数的情况,即

Y=b0+b1x1+bpxp+ε,εN(0,σ2)Y = b_0 + b_1x_1 + \cdots b_px_p + \varepsilon, \quad \varepsilon \sim N(0, \sigma^2)

其中b0,b2,,bp,σ2b_0, b_2, \cdots, b_p, \sigma^2都是x1,x2,,xpx_1, x_2, \cdots, x_p无关的未知参数,设

(x11,x12,,x1p,y1)(x21,x22,,x2p,y2)(xn1,xn2,,xnp,yn)\begin{aligned} (x_{11}, x_{12}, &\cdots, x_{1p}, y_1) \\ (x_{21}, x_{22}, &\cdots, x_{2p}, y_2) \\ &\vdots \\ (x_{n1}, x_{n2}, &\cdots, x_{np}, y_n) \end{aligned}

是一个样本,类似一元线性回归的情况,采用最大似然估计法来估计参数,取b^0,b^1,,b^p\hat{b}_0, \hat{b}_1, \cdots, \hat{b}_p,使当b0=b^0,b1=b^1,,bp=b^pb_0 = \hat{b}_0, b_1 = \hat{b}_1, \cdots, b_p = \hat{b}_p

Q=i=1n(yib0b1xi1b2xi2bpxip)2Q = \sum^n_{i=1}(y_i - b_0 - b_1x_{i1} - b_2x_{i2} - \cdots - b_px_{ip})^2

达到最小,对QQ求分别关于b0,b2,,bpb_0, b_2, \cdots, b_p的偏导数,并令它们等于零,得到

Qb0=2i=1n(yib0b1xi1bpxip)=0Qbj=2i=1n(yib0b1xi1bpxip)xij=0,j=1,2,,p\begin{aligned} \frac{\partial Q}{\partial b_0} &= -2 \sum^n_{i=1}(y_i - b_0 - b_1x_{i1} - \cdots - b_px_{ip}) = 0 \\ \frac{\partial Q}{\partial b_j} &= -2 \sum^n_{i=1}(y_i - b_0 - b_1x_{i1} - \cdots - b_px_{ip})x_{ij} = 0, \quad j = 1,2,\cdots,p \end{aligned}

化简后得到

b0n+b1i=1nxi1+b2i=1nxi2++bpi=1nxip=i=1nyib0i=1nxi1+b1i=1nxi1+b2i=1nxi1xi2++bpi=1nxi1xip=i=1nxi1yib0i=1nxip+b1i=1nxip+b2i=1nxipxi2++bpi=1nxipxip=i=1nxipyi\begin{aligned} b_0 n + b_1\sum^n_{i=1}x_{i1} + b_2\sum^n_{i=1}x_{i2} + \cdots + b_p\sum^n_{i=1}x_{ip} &= \sum^n_{i=1}y_i \\ \\ b_0\sum^n_{i=1}x_{i1} + b_1\sum^n_{i=1}x_{i1} + b_2\sum^n_{i=1}x_{i1}x_{i2} + \cdots + b_p\sum^n_{i=1}x_{i1}x_{ip} &= \sum^n_{i=1}x_{i1}y_i \\ \vdots \\ b_0\sum^n_{i=1}x_{ip} + b_1\sum^n_{i=1}x_{ip} + b_2\sum^n_{i=1}x_{ip}x_{i2} + \cdots + b_p\sum^n_{i=1}x_{ip}x_{ip} &= \sum^n_{i=1}x_{ip}y_i \end{aligned}

上式称为正规方程组,为了更方便的表达,将上式写作矩阵的形式

X=(1x11x12x1p1x21x22x2p1xn1xn2xnp),Y=(y1y2yn),B=(b0b1bp)X = \begin{pmatrix} 1 & x_{11} & x_{12} & \cdots & x_{1p} \\ 1 & x_{21} & x_{22} & \cdots & x_{2p} \\ \vdots & \vdots & \vdots & \ddots &\vdots \\ 1 & x_{n1} & x_{n2} & \cdots & x_{np} \end{pmatrix}, \quad Y = \begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{pmatrix}, \quad B = \begin{pmatrix} b_0 \\ b_1 \\ \vdots \\ b_p \end{pmatrix}

即可化简为

XTXB=XTYX^TXB = X^TY

即为正规方程式的矩阵形式,若XTXX^TX可逆,则可以得到

B^=(b^0b^1b^p)=(XTX)1XTY\hat{B} = \begin{pmatrix} \hat{b}_0 \\ \hat{b}_1 \\ \vdots \\ \hat{b}_p \end{pmatrix} = (X^TX)^{-1}X^TY

即为(b0,b1,,bp)T(b_0,b_1,\cdots,b_p)^T的最大似然估计,取

b^0+b^1x1++b^pxp\hat{b}_0 + \hat{b}_1x_1 + \cdots + \hat{b}_px_p

作为μ(x1,x2,,xn)\mu(x_1, x_2, \cdots, x_n)的估计,方程

y^=b^0+b^1x1++b^pxp\hat{y} = \hat{b}_0 + \hat{b}_1x_1 + \cdots + \hat{b}_px_p

称为pp元经验线性回归方程,简称回归方程

多元线性假设的显著性检验

类似一元线性回归,多元线性假设的显著性检验需要检验假设

H0:b1=b2==bp=0H1:bi0,i=1,2,,p\begin{aligned} H_0&: \quad b_1 = b_2 = \cdots = b_p = 0 \\ H_1&: \quad b_i \neq 0, \quad i =1,2,\cdots,p \end{aligned}

总结

在实际问题中,与YY有关的因素可能有很多,有些自变量对YY的影响很小,删除后可以使回归方程变得简洁,易于应用,且能明确哪些因素的改变对YY由显著的影响,需要按照情况具体分析