概率论 第六章

样本及抽样分布

数理统计的基本概念

总体与个体

  • 总体(母体):具有一定共性的研究对象的全体,记为 $\Bbb{X}$
  • 个体:构成总体的每一个成员
  • 总体的容量:个体的个数

样本与样本分布

  • 抽样:按一定的原则从$\Bbb{X}$中抽取若干个体
  • 样本:被抽出的部分个体(相互独立且同分布),记作$X_1,X_2,\ldots,X_n$
  • 总体分布:每一个个体可以看作一个随机变量,这个随机变量的分布即为总体分布
  • 样本容量:样本是一组随机变量$X_1,X_2,\ldots,X_n$,$n$即为样本容量
  • 样本值:对样本进行一次观察得到的一组观察值$x_1,x_2,\ldots,x_n$
  • 样本分布:样本$(X_1,X_2,\ldots,X_n)$的概率分布,有

$$ F(x_1,x_2,\ldots,x_n)=F(x_1)F(x_2)\ldots F(x_n)\ f(x)=f(x_1)f(x_2)\ldots f(x_n) $$

统计量

定义

设 $X_1,X_2,\ldots,X_n$ 是来自总体 $\Bbb{X}$ 的一个样本,称此样本的任一不含总体分布未知参数的函数为该样本的统计量

统计量是随机变量,不是一个数

常见的统计量及其观察值分布

  • 样本均值

$$ \overline{X}=\cfrac{1}{n}\sum\limits_{i=1}^{n}X_i\ \overline{x}=\cfrac{1}{n}\sum\limits_{i=1}^{n}x_i $$

  • 样本方差

$$ S^2=\cfrac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\overline{X})^2=\cfrac{1}{n-1}(\sum\limits_{i=1}^{n}X_i^2-n\overline{X}^2)\ s^2=\frac{1}{n-1}\sum\limits_{i-1}^n(x_i-\overline{x})^2 $$

  • 样本标准差

$$ S=\sqrt{\cfrac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\overline{X})^2}\ s=\sqrt{\frac{1}{n-1}\sum\limits_{i-1}^n(x_i-\overline{x})^2} $$

  • 样本 k 阶(原点)矩

$$ A_k=\cfrac{1}{n}\sum\limits_{i=1}^nX_i^k\qquad k=1,2,\ldots\ a_k=\cfrac{1}{n}\sum\limits_{i=1}^nx_i^k $$

  • 样本 k 阶中心矩

$$ B_k=\cfrac{1}{n}\sum\limits_{i=1}^n(X_i-\overline{X})^k\qquad k=2,3,\ldots\ b_k=\cfrac{1}{n}\sum\limits_{i=1}^n(x_i-\overline{x})^k $$

抽样分布

概念

称统计量的分布为抽样分布(统计分布)

分类

$\chi ^2$ 分布

  • 定义

设 $X_1,X_2,\ldots,X_n$ 是来自总体 $N(0,1)$ 的样本,则称统计量 $$ \chi^2=X_1^2+X_2^2+\ldots+X_n^2=\sum\limits_{i=1}^{n}X_i^2 $$ 服从自由度为 $n$ 的 $\chi^2$ 分布,记作 $\chi^2\sim \chi^2(n)$

  • 性质
    • $\chi_1^2+\chi_2^2\sim \chi^2(n_1+n_2)$
    • $E(\chi^2)=n\qquad D(\chi^2)=2n$
    • 图形特征(扩展)
      • 单峰曲线,在 n-2 时取到最大值
      • 不对称,n 越大越对称
      • 当 n 很大时可用正态分布来近似
image-20210104111808290

$t$ 分布

设$X\sim N(0,1),Y\sim \chi^2(n)$,且 $X,Y$ 相互独立,则称统计量 $$ t=\cfrac{X}{\sqrt{Y/n}} $$ 服从自由度为 $n$ 的 $t$ 分布(学生氏分布),记作 $t\sim t(n)$

image-20210104112030093

$F$ 分布

设 $U\sim \chi^2(n_1),V\sim \chi^2(n_2)$,且 $U,V$ 相互独立,则称统计量 $$ F=\cfrac{U/n_1}{V/n_2} $$ 服从自由度为 $(n_1,n_2)$的 $F$ 分布,记作 $F\sim F(n_1,n_2)$

image-20210104112110879

分位数

(Quantile)

概念

对随机变量$X,0<\alpha<1$

  • 若$P{X>t_\alpha}=\alpha$,则称$t_\alpha$为$X$的上$\alpha$分位点
  • 若$P({X<t_{\alpha_1}}\cup{X>t_{\alpha_2}})=\alpha(\alpha_1+\alpha_2=1)$,则称$t_{\alpha_1}$和$t_{\alpha_2}$为$X$的双侧$\alpha$分位点

通常取$\alpha_2=\alpha/2,\alpha_1=1-\alpha/2$

常见分布的分位点

标准正态分布

设 $X\sim N(0,1)$,若数 $z_\alpha$ 满足 $$ P{X>z_\alpha}=\alpha,0<\alpha<1 $$ 则称 $z_\alpha$ 为标准正态分布的上 $\alpha$ 分位点

image-20210104105159982

$\chi^2$ 分布

设$\mathcal{X}^2\sim X^2(n)$,若数${\mathcal X_\alpha^2}(n)$满足 $$ P{\mathcal{X}^2>X_\alpha^2(n)}=\alpha,0<\alpha<1 $$ 则称${\mathcal{X}_\alpha^2}(n)$为$\mathcal{X^2}(n)$分布的上$\alpha$分位点

image-20210104112014969

$t$ 分布

设 $t\sim t(n)$,若数 $t_\alpha(n)$ 满足 $$ P{t>t_\alpha(n)}=\alpha,0<\alpha<1 $$ 则称 $t_\alpha(n)$ 为 $t(n)$分布的上 $\alpha$ 分位点

  • 有$t_{1-\alpha}(n)=-t_\alpha(n)$
image-20210104112042351

$F$ 分布

设 $F\sim F(n_1,n_2)$,若数 $F_\alpha(n_1,n_2)$ 满足 $$ P{F>F_\alpha(n_1,n_2)}=\alpha,0<\alpha<1 $$ 则称 $F_\alpha(n_1,n_2)$ 为$F$分布的上 $\alpha$ 分位点

  • 有$F_\alpha(n_1,n_2)=\cfrac{1}{F_{1-\alpha}(n_2,n_1)}$
image-20210104112123618

总结

分布名上 $\alpha$ 分位点双侧 $\alpha$ 分位点
标准正态分布$z_\alpha$$\pm z_{\alpha/2}$
$\mathcal X^2$ 分布${\mathcal X_\alpha^2}(n)$${\mathcal X}^2_{\alpha/2}(n)\{\mathcal X}^2_{1-\alpha/2}(n)$
$t$ 分布$t_\alpha(n)$$\pm t_{\alpha/2}(n)$
$F$ 分布$F_\alpha(n_1,n_2)$$F_{\alpha/2}(n_1,n_2)\F_{1-\alpha/2}(n_1,n_2)$

正态总体的样本均值与样本方差的分布

设总体$\Bbb X$的均值为$\mu$,方差为$\sigma^2$,$X_1,X_2,\ldots,X_n$是来自$\Bbb X$的一个样本,$\overline{X}$和$S^2$分别为该样本的样本均值和样本方差,则 $$ E(\overline{X})=\mu,D(\overline{X})=\cfrac{\sigma^2}{n}\ E(S^2)=\sigma^2 $$

定理一

设总体$\Bbb X$的分布为$N(\mu,\sigma^2)$,$X_1,X_2,\ldots,X_n$是来自$\Bbb X$的一个样本,$\overline{X}$为该样本的样本均值,则 $$ (1) \quad \overline{X}\sim N(\mu,\sigma^2/n)\qquad (2)\quad\cfrac{\overline{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1) $$

定理二

设总体$\Bbb X$的分布为$N(\mu,\sigma^2)$,$X_1,X_2,\ldots,X_n$是来自$\Bbb X$的一个样本,$\overline{X}$和$S^2$分别为该样本的样本均值和样本方差,则 $$ (1)\quad\cfrac{n-1}{\sigma^2}S^2\sim\chi^2(n-1)\qquad(2)\quad\overline{X}与 S^2 相互独立 $$ image-20210106100451265

定理三

设总体$\Bbb X$的分布为$N(\mu,\sigma^2)$,$X_1,X_2,\ldots,X_n$是来自$\Bbb X$的一个样本,$\overline{X}$和$S^2$分别为该样本的样本均值和样本方差,则 $$ \cfrac{\overline{X}-\mu}{S/\sqrt{n}}\sim t(n-1) $$

定理四

设 $X_1,X_2,\ldots,X_{n1}$ 与 $Y_1,Y_2,\ldots,Y_{n2}$ 分别是来自两个相互独立的正态总体 $N(\mu_1,\sigma^2_1)$ 和 $N(\mu_2,\sigma^2_2)$ 的样本,$\overline{X}$ 和$ \overline{Y}$ 分别为这两个样本的样本均值,$S_1^2$ 和 $S_2^2$ 分别为这两个样本的样本方差,则 $$ (1)\quad\cfrac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{\sigma_1^2/n_1+\sigma_2^2/n_2}}\sim N(0,1)\qquad(2)\quad\cfrac{S_1^2/S_2^2}{\sigma_1^2/\sigma_2^2}\sim F(n_1-1,n_2-1)

\(3)当\sigma^2_1=\sigma^2_2=\sigma^2 时,\quad\cfrac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{S_w\sqrt{\cfrac{1}{n_1}+\cfrac{1}{n_2}}}\sim t(n_1+n_2-2) \其中 S_w=\sqrt{\cfrac{(n_1-1)S_1^2+(n_2-1)S^2_2}{n_1+n_2-2}} $$ 例

image-20210106101917339