[数理统计] - 样本及抽样分布

随机样本

总体:实验的全部可能的观察值
个体:每一个可能观察值
容量:中体中所包含的分体的个数
有限总体:容量为有限
无限总体:容量为无限

这里主要是探讨样本总体的区别和联系等等

总体 样本 样本观察值
期望 μ\mu X\overline{X} x\overline{x}
方差 σ2\sigma^2 S2S^2 s2s^2

  • 所谓从总体抽取一个个体,就是对总体XX进行一次观察并记录其结果
  • 在相同的条件下对总体X进行nn次重复的独立的观察,则nn的结果记为X1,X2,,XnX_1, X_2, \cdots, X_n,它们相互独立
  • 它们都是与XX具有相同分布的随机变量,一组这样的数据称为来自总体XX的一个简单随机样本

定义:设XX是具有分布函数FF的随机变量,若

X1,X2,,XnX_1, X_2, \cdots, X_n

是具有同一分布函数FF的,相互独立的随机变量,则称X1,X2,,XnX_1, X_2, \cdots, X_n为从分布函数FF(或总体FF,或总体XX)得到的容量nn简单随机样本,简称样本,他们的观察值

x1,x2,,xnx_1, x_2, \cdots, x_n

称为样本值,又称为XXnn独立的观察值

抽样方法

  • 简单随机抽样
    • 放回抽样
    • 不放回抽样
  • 分层抽样:按比例分层,各层取样合并
    • 每层的样本性质需要一样,不是随机
    • 精度可以提升
  • 整群抽样:分集合,在群里取全部的样
    • 可以节约费用,但是精度比无作为抽样小
  • 多阶段抽样:先抽几组,再在其中之一继续抽几组,以此循环到最后的单体样本
    • 节省费用,但是平均等精度会下降
  • 系统抽样:标号,间隔取样

实验方法

  • 随机对照实验
    • 将研究对象随机分组,对不同组实施不同的干预,在这种严格的条件下对照效果的不同
    • 在研究对象数量足够的情况下,这种方法可以抵消已知和未知的混杂因素对各组的影响
    • ===========
    • 完全随机设计
      • 是用随机化的方式来控制误差变异,认为经过随机化处理后,样本间的变异在各个处理水平上随机分布,这样就可将实验结果的差异归于不同处理的影响
      • 这种设计假设通过随机化能平衡被试间的差异,但实际上在实验结果当中常常会包括个体差异。如果我们可以将这些个体差异排除,实验结果才会更加精确
    • 随机区组设计
      • 通常是将受试对象(样本)按性质相同或相近者分成若干组,每个组中的受试对象分别随机分配到不同的处理组中去
      • 做到区组内尽量同质,使得实验结果的差异更好地归于不同处理的影响
    • 分层随机法
      • 简易的区组随机法是面向所有受试对象进行分组,只能保证将受试对象按照总体样本大小分成两组
      • 分组随机法可以实现平衡两组受试对象的生理特征
  • 交叉研究
    • 将研究对象分为2组,对A组进行X实验,对B组进行Y实验,然后过一定期间,交换实验方法再进行一次
  • 观察研究
    • 仅通过观察的方式收集数据,不进行任何其他干涉
  • 横向研究
    • 对一个因素进行断面的调查,如:年龄
  • 队列研究(纵向研究)
    • 对一群在特定时期内由共同特征的人进行调查
  • 病例对照研究
    • 选出一组病例,和对照组,调查这个病的特性,如:比较患某病群体与正常人的DNS的变异程度

Fisher试验设计三原则

  • 重复:评价偶然误差的大小
  • 分区组:将一部分系统误差通过分组的区别去除
  • 随机化:将其他意料之外的系统误差转换为偶然误差

经验分布函数

又称样本分布函数,可以将其看作,以等概率1/n1/n取值X1,X2,,XnX_1,X_2,\cdots,X_n的离散型随机变量的分布函数

  • 该函数的图形呈现跳跃式台阶形折现
  • 如果观测值不重复,则每一跳跃为1/n1/n
  • 如果观测值重复,则每一跳跃为1/n1/n的倍数

Fn(x)=1nS(x)=1ni=1n1xitF_n(x) = \frac{1}{n}S(x) = \frac{1}{n}\sum^n_{i=1}\mathbf{1}_{x_i \leq t}

对于经验分布函数Fn(x)F_n(x),有以下结论:对于x,n\forall x, n \rightarrow \infty时,Fn(n)F_n(n)以概率11一致收敛于分布函数F(x)F(x),即

P(limnsup<x<Fn(x)F(x)=0)=1P(\lim_{n \rightarrow \infty} \sup_{-\infty < x < \infty} | F_n(x) - F(x) | = 0) = 1

nn充分大的时候,经验分布函数的任一个观察值Fn(x)F_n(x)与总体分布函数F(x)F(x)只有微小的差别

抽样分布

定义:设

X1,X2,,XnX_1, X_2, \cdots, X_n

是来自总体XX的一个样本,

g(X1,X2,,Xn)g(X_1, X_2, \cdots, X_n)

X1,X2,,XnX_1, X_2, \cdots, X_n的函数,若gg中不含未知参数,则称g(X1,X2,,Xn)g(X_1, X_2, \cdots, X_n)是一统计量(统计量指的是样本的函数,比如一个可以算期望值的函数E(X)),因为X1,X2,,XnX_1, X_2, \cdots, X_n都是随机变量,所以统计量也是一个随机变量,设

x1,x2,,xnx_1, x_2, \cdots, x_n

是相对于样本X1,X2,,XnX_1, X_2, \cdots, X_n的样本值,则

g(x1,x2,,xn)g(x_1, x_2, \cdots, x_n)

g(X1,X2,,Xn)g(X_1, X_2, \cdots, X_n)观察值(也就是带入函数的实际的参数)

名称 统计量 观察值
样本平均值 X=1ni=1nXi\overline{X} = \frac{1}{n}\sum_{i=1}^nX_i x=1ni=1nxi\overline{x} = \frac{1}{n}\sum_{i=1}^nx_i
样本方差 S2=1n1i=1n(XiX)2S^2 = \frac{1}{n-1}\sum_{i=1}^n(X_i - \overline{X})^2 s2=1n1i=1n(xix)2s^2 = \frac{1}{n-1}\sum_{i=1}^n(x_i - \overline{x})^2
样品标准差 S=S2S = \sqrt{S^2} s=s2s = \sqrt{s^2}
样本kk阶原点矩 Ak=1ni=1nXikk=1,2,A_k = \frac{1}{n}\sum_{i=1}^nX_i^k \quad k=1,2,\cdots ak=1ni=1nxikk=1,2,a_k = \frac{1}{n}\sum_{i=1}^nx_i^k \quad k=1,2,\cdots
样本kk阶中心距 Bk=1ni=1n(XiX)kk=2,3,B_k = \frac{1}{n}\sum_{i=1}^n(X_i - \overline{X})^k \quad k=2,3,\cdots bk=1ni=1n(xix)kk=2,3,b_k = \frac{1}{n}\sum_{i=1}^n(x_i - \overline{x})^k \quad k=2,3,\cdots

统计量的分布称为抽样分布,在使用统计量机性统计推断的时候需要知道它的分布,当总体的分布函数已知时,抽样分布时确定的,打赏要求出统计量的精确分布,一般是很困难的,所以我们采用一些常用的统计量分布进行估计。

χ2\chi^2分布(卡方分布)

X1,X2,,XnX_1, X_2, \cdots, X_n是来自总体N(0,1)N(0,1)的样本,则称统计量

χ2=X12+X22++Xn2\chi^2 = X^2_1 + X^2_2 + \cdots + X^2_n

服从自由度为nnχ2\chi^2分布,记为χ2χ2(n)\color{red}\chi^2 \sim{} \chi^2(n),其中自由度为右端包含的独立变量的个数

χ2\chi^2分布概率密度函数

f(y)={12n/2Γ(n/2)yn/21ey/2y>00其他f(y) = \begin{cases} \frac{1}{2^{n/2}\Gamma{}(n/2)}y^{n/2-1}e^{-y/2} & y > 0 \\ 0 & \text{其他} \end{cases}

χ2\chi^2分布累积分布函数

Fk(x)=γ(k2,x2)k2F_k(x) = \frac{\gamma(\frac{k}{2}, \frac{x}{2})}{\frac{k}{2}}

χ2\chi^2分布的性质

  • 可加性:设χ12χ2(n1),χ22χ2(n2)\chi^2_1 \sim{} \chi^2(n_1), \chi^2_2 \sim{} \chi^2(n_2),并且χ12,χ22\chi^2_1, \chi^2_2相互独立,则χ12+χ22χ2(n1+n2)\chi^2_1 + \chi^2_2 \sim \chi^2(n_1 + n_2)

χ2\chi^2分布的数学期望和方差

E(χ2)=nD(χ2)=2n\begin{aligned} E(\chi^2) &= n \\ D(\chi^2) &= 2n \end{aligned}

χ2\chi^2分布的分位点

对于给定的正数aa,称满足条件

P(χ2>χa2(n))=χa2(n)f(y)dy=aa(0,1)P(\chi^2 > \chi^2_a(n)) = \int_{\chi^2_a(n)}^\infty f(y)dy = a \quad a \in (0,1)

的点χa2(n)\chi^2_a(n)χ2(n)\chi^2(n)分布的上aa分位点

tt分布

XN(0,1),Yχ2(n)X\sim{}N(0,1), Y\sim{}\chi^2(n),且X,YX,Y相互独立,则称随机变量

t=XY/nt = \frac{X}{\sqrt{Y/n}}

服从自由度为nntt分布,记为tt(n)t \sim{} t(n)

tt分布概率密度函数

h(t)=Γ[(n+1)/2]πnΓ(n/2)(1+t2n)(n+1/2)<t<h(t) = \frac{\Gamma[(n+1)/2]}{\sqrt{\pi n}\Gamma(n/2)}(1+\frac{t^2}{n})^{-(n+1/2)} \quad -\infty < t < \infty

  • 关于t=0t = 0对称
  • nn充分大的时候类似于标准正态变量概率密度的图形

limnh(t)=12πet2/2\lim_{n \rightarrow \infty} h(t) = \frac{1}{\sqrt{2\pi}}e^{-t^2/2}

tt分布累积分布函数

Fk(x)=12+xΓ((n+1)/2)2F1(12,(n+1)/2;32;x2n)πnΓ(n/2)F_k(x) = \frac{1}{2} + \frac{x \Gamma((n + 1)/2)_2F_1(\frac{1}{2}, (n + 1)/2;\frac{3}{2};-\frac{x^2}{n})}{\sqrt{\pi n}\Gamma(n/2)}

tt分布的分位点

对于给定的正数aa,称满足条件

P(t>ta(n))=ta(n)h(t)dt=a,a(0,1)P(t > t_a(n)) = \int^\infty_{t_a(n)} h(t)dt = a, \quad a \in (0,1)

的点ta(n)t_a(n)t(n)t(n)分布的上aa分位点

tt分布上aa分位点的定义及h(t)h(t)图形的对称性知

t1a(n)=ta(n)t_{1-a}(n) = -t_a(n)

FF分布

Uχ2(n1),Vχ2(n2)U \sim \chi^2(n_1), V \sim{} \chi^2(n_2),且U,VU, V相互独立,则称随机变量

F=U/n1V/n2F = \frac{U/n_1}{V/n_2}

服从自由度为(n1,n2)(n_1, n_2)FF分布,记为FF(n1,n2)\color{red}F \sim F(n_1, n_2)

FF分布概率密度函数

ψ(y)={Γ[(n1+n2)/2](n1/n2)n1/2yn1/21Γ(n1/2)Γ(n2/2)[1+(n1y/n2)](n1+n2)/2,y>00,其他\psi(y) = \begin{cases} \frac{\Gamma[(n_1 + n_2)/2](n_1/n_2)^{n_1/2}y^{n_1/2}-1}{\Gamma(n_1/2)\Gamma(n_2/2)[1 + (n_1y/n_2)]^{(n_1+n_2)/2}}, & y > 0 \\ 0, & \text{其他} \end{cases}

由定义可知,若FF(n1,n2)F \sim F(n_1, n_2),则

1FF(n2,n1)\frac{1}{F} \sim F(n_2, n_1)

FF分布的分位点

对于给定的a(0,1)a \in (0, 1),满足条件

P(F>Fa(n1,n2))=Fa(n1,n2)ψ(y)dy=aP(F > F_a(n_1, n_2)) = \int^\infty_{F_a(n_1, n_2)}\psi(y)dy = a

的点Fa(n1,n2)F_a(n_1, n_2)F(n1,n2)F(n_1, n_2)分布上的上aa分位点

FF分布是上aa分位点有如下的重要性质

F1a(n1,n2)=1Fa(n2,n1)F_{\color{red}1-a\color{black}}(n_{\color{red}1\color{black}}, n_{\color{red}2\color{black}}) = \frac{1}{F_{\color{red}a\color{black}}(n_{\color{red}2\color{black}}, n_{\color{red}1\color{black}})}

正态总体的样本均值与样本方差的分布

设总体(不管服从什么分布,只要均值和方差存在)的均值为μ\mu,方差为σ2\sigma^2X1,X2,,XnX_1, X_2, \cdots, X_n是来自XX的一个样本,X,S2\overline{X}, S^2分别是样本均值和样本方差,则

E(X)=μ,D(X)=σ2/nE(S2)=σ2\begin{aligned} E(\overline{X}) = \mu&, \quad D(\overline{X}) = \sigma^2/n \\ &E(S^2) = \sigma^2 \end{aligned}

定理一:设X1,X2,,XnX_1, X_2, \cdots, X_n是来自正态总体N(μ,σ2)N(\mu, \sigma^2)的一个样本,X\overline{X}是样本均值,则有

XN(μ,σ2/n)\overline{X} \sim N(\mu, \sigma^2/n)

定理二:设X1,X2,,XnX_1, X_2, \cdots, X_n是来自正态总体N(μ,σ2)N(\mu, \sigma^2)的一个样本,X,S2\overline{X}, S^2是样本均值和样本方差,则有

  • (n1)S2σ2χ2(n1)\frac{(n - 1)S^2}{\sigma^2} \sim \chi^2(n - 1)
  • X\overline{X}S2S^2相互独立

定理三:设X1,X2,,XnX_1, X_2, \cdots, X_n是来自正态总体N(μ,σ2)N(\mu, \sigma^2)的一个样本,X,S2\overline{X}, S^2是样本均值和样本方差,则有

XμS/nt(n1)\frac{\overline{X} - \mu}{S/\sqrt{n}} \sim t(n - 1)

及自由度为n1n-1tt分布

定理四:设X1,X2,,XnX_1, X_2, \cdots, X_nY1,Y2,,YnY_1, Y_2, \cdots, Y_n是来自正态总体N(μ1,σ12)N(\mu_1, \sigma^2_1)N(μ2,σ22)N(\mu_2, \sigma^2_2)的样本,它们相互独立,X1,S12\overline{X_1}, S^2_1X2,S22\overline{X_2}, S^2_2分别是样本均值和样本方差,则有

  • S12/S22σ12/σ22F(n11,n21)\frac{S^2_1/S^2_2}{\sigma^2_1/\sigma^2_2} \sim F(n_1 - 1, n_2 - 1)
  • σ12=σ12=σ\sigma^2_1 = \sigma^2_1 = \sigma

(XY)(μ1μ2)Sw1x1+1n2t(n1+n22)\frac{(\overline{X} - \overline{Y}) - (\mu_1 - \mu_2)}{S_w\sqrt{\frac{1}{x_1} + \frac{1}{n_2}}} \sim t(n_1 + n_2 - 2)

其中

Sw2=(n11)S12+(n21)S22n1+n22,Sw=Sw2S^2_w = \frac{(n_1 - 1)S^2_1 + (n_2 - 1)S^2_2}{n_1 + n_2 - 2}, \quad S_w = \sqrt{S^2_w}

总结

公式
样本均值,方差已知 XN(μ,σ2/n)\overline{X} \sim N(\mu, \sigma^2/n)
含有样本方差 (n1)S2σ2χ2(n1)\frac{(n - 1)S^2}{\sigma^2} \sim \chi^2(n - 1)
含有样本均值 XμS/nt(n1)\frac{\overline{X} - \mu}{S/\sqrt{n}} \sim t(n - 1)
2个样本 S12/S22σ12/σ22F(n11,n21)\frac{S^2_1/S^2_2}{\sigma^2_1/\sigma^2_2} \sim F(n_1 - 1, n_2 - 1)

这里的分布主要供接下来的置信区间,假设检验使用

分布的特点:

  • tt分布:对称性
  • FF分布:F1a(n1,n2)=1Fa(n1,n2)F_{1-a}(n_1, n_2) = \frac{1}{F_a(n_1, n_2)}