概率论 第二章
随机变量及其分布
随机变量
定义:设随机试验的样本空间为 $S$,把试验的每一个可能的结果 $e\in S$ 与一 个
实数 $X(e)$ 对应起来,则称这种定义在S上的一个实值单值映射 $X=X(e)$ 为随机变量(Random Variables)
引入随机变量后,就可将对随机事件及其概率的研究转化为对随机变量及其取值规律的研究
离散型随机变量及其概率分布
定义
离散型随机变量
设$X$为一个随机变量,如果它的全部可能取值只有有限个或可数无穷个,则称$X$为一个离散型随机变量
概率分布
设离散型随机变量X所有可能取值为 $x_i(i=1,2,\ldots,n 或 i=1,2,\ldots)$,称$P{X=x_i}=p_i(i=1,2,\ldots,n 或 i=1,2,\ldots)$为$X$的概率分布或分布律
分布律可以更直观地用以下表格的形式来描述
$X$ | $x_1$ | $x_2$ | … | $x_n$ | … |
---|---|---|---|---|---|
$p_i$ | $p_1$ | $p_2$ | … | $p_n$ | … |
其中$p_i$满足
- $p_i \ge 0$
- $\sum\limits_{i=1}^{n(\infty)}p_i=1$
常见的三个离散型随机变量
(0-1) 或二值分布
$$ P{X=k}=p^k(1-p)^{1-k}\qquad k=0,1(0<p<1) $$
二项分布
n 次实验发生了 k 次,每次实验独立,或是放回抽样 $$ P{X=k}=C_n^kp^k(1-p)^{n-k}\qquad k=0,1,2,\ldots,n $$
记作 $X\sim B(n,p)$,$X$ 即为即为 $n$ 重贝努利试 验中 $A$ 发生的次数
泊松 (Possion) 分布
$$ P{X=k}=e^{-\lambda}\cfrac{\lambda^k}{k!}\qquad \lambda>0,k=0,1,2,\ldots $$
记作 $X\sim \pi(\lambda)$
例
- 某医院在一天的急诊病人数;
- 某一个时间间隔内某地区发生的交通事故的次数;
- 在一个时间间隔内某种放射性物质发出经过计数器的α 粒子数
泊松定理:当 n 很大,p 很小时有近似式: $$ C_n^kp^k(1-p)^{n-k}\approx e^{-\lambda}\cfrac{\lambda^k}{k!} $$ 有时可将较难计算的二项分布转化为泊松分布去计算
补充:超几何分布
N 个样本中有 $N_1$ 类和 $N_2$ 类,从中(不放回地)取 $n$ 个,取出 $N_1$ 的个数设为 $k$ $$ P(X=k)=\cfrac{C_{N_1}^kC_{N_2}^{n-k}}{C_N^n} $$ 当 N 很大,n 很小时,不放回近似为放回,超几何分布近似为二项分布
例
某人进行射击,设每次射击的命中率为 0*.*02,独立射击 400 次,试求至少击中两次的概率
设击中的次数为 X,则 $X\sim B(400,0.02)$,因此所求概率为(近似为泊松定理计算) $$ P{X \ge 2}=1-P{X<2}=1-P{X=0}-P{X=1}=0.9972 $$
某公司生产一种产品 300 件,废品率为 0*.*01,问在这 300 件产品中废品数大于 5 的概率是多少?
设 300 件产品中废品数为 X,则 $X \sim B(300,0.01)$,因此所求概率为 $$ P{X \ge 5}=1-\sum\limits_{k=0}^5C_{300}^k(0.01)^k(0.99)^{300-k}\approx 1-\sum\limits_{k=0}^5 \cfrac{e^{-3}3^k}{k!}=0.083918 $$
随机变量的分布函数
定义
设$X$是一个随机变量,$x$是任意实数,称函数 $$ F(x)=P{X \le x}\qquad -\infty<x<\infty $$ 为$X$的分布函数
特征
$P{X \le a}=F(a)$
$P{X > a}=1-F(a)$
$P{a<X\le b}=F(b)-F(a)$
$P{X = a}=F(a+0)-F(a-0)=F(a)-F(a-0)$
注意,$P{a\le X\le b}\neq F(b)-F(a)$,而是$P{a\le X\le b}=F(b)-F(a-0)$
性质
$F(x)$是一个不减函数
$0\le F(x)\le 1$,且$\lim\limits_{x\rightarrow -\infty}F(x)\triangleq F(-\infty)=0\qquad\lim\limits_{x\rightarrow +\infty}F(x)\triangleq F(+\infty)=1$
$F(x)$是右连续的,即$F(x+0)=F(x)$
若一个函数具有以上性质,则它一定是某个随机变量的分布函数
离散型随机变量的分布函数(常数)
设离散型随机变量X的分布律为$P{X=x_k}=p_k\qquad k=1,2,\ldots$
则X的分布函数为(x 以内,分布函数为所有概率之和) $$ F(x)=P{X \le x}=\sum\limits_{x_k\le x}P{X=k}=\sum\limits_{x_k \le x}p_k $$ 即当$x_{k-1}\le x<x_k$时,$F(x)=\sum\limits_{i-1}^{k-1}p_i$(在 x 附近,分布函数为其概率)
例
- 设随机变量$X$的分布函数为
$$ F(x)=A+B\arctan x,\qquad -\infty<x<\infty $$
试求:(1)系数A和B; (2)$X$落在$(-1,1]$内的概率
- 设随机变量X的分布律为
X | -1 | 2 | 3 |
---|---|---|---|
$p_i$ | 1/4 | 1/2 | 1/4 |
求X的分布函数,并求$P{X\le \cfrac{1}{2}},P{\cfrac{3}{2}<X\le \cfrac{5}{2} }$
解:前值为 1/4,后值为 1/2
连续型随机变量及其概率密度
定义
如果对随机变量$X$的分布函数$F(x)$,存在一个非负可积函$f(x)$,使得对任意的$x$,有 $$ F(x)=P{X\le x}=\int_{-\infty}^x f(t)dt $$ 则称$X$为一个连续型随机变量,称$f(x)$为$X$的概率密度函数,简称概率密度(Probability densities)
注:连续型随机变量的分布函数为连续函数,所以对任意$a$,有$P{X=a}=0$
性质
- $f(x)\ge 0$
- $\int_{-\infty}^{+\infty}f(x)dx=1$
- $f(x)=F’(x)$
$$ P{X\le a}=\int_{-\infty}^{a}f(x)dx,\quad P{X>b}=\int_b^{+\infty}f(x)dx \ P{a<x\le b}=\int_a^b f(x)dx $$
注意:分布函数与概率密度函数的区别,例如$F(x)\le1$成立,但$f(x)\le 1,\int_{-\infty}^{+\infty}F(x)dx=1$不成立!
常见的三个连续型随机变量
均匀分布
$$ f(x)=\begin{cases} \ \cfrac{1}{b-a}\qquad a<x<b \ \ 0\qquad\qquad 其他 \end{cases} $$
记为$X\sim U(a,b)$
分布函数 $$ F(x)=\begin{cases} \ 0 \qquad\qquad x<a \ \cfrac{x-a}{b-a}\qquad a\le x<b \ \ a\qquad\qquad x\ge b \end{cases} $$
汽车站等车时间
针落地与某直线的倾斜角
指数分布
$$ f(x)=\begin{cases} \ \lambda e^{-\lambda x}\qquad x\ge 0 \ \ 0\qquad\qquad 其他 \end{cases}\quad(\lambda>0) $$
记为$X\sim e(\lambda)$
分布函数 $$ F(x)=\begin{cases} \ 1- e^{-\lambda x}\qquad x> 0 \ \ 0\qquad\qquad \quad 其他 \end{cases}\quad $$
指数分布具有无记忆性,即 $$ P{X>t}=p{X>s+t|X>s} $$ 新生的物品(生物)能存活 t 年的以上概率 = 已经活了 s 年的物品(生物)再存活 t 年以上的概率
电话系统通话时间
消耗性产品的寿命
生物寿命
正态分布
$$ f(x)=\cfrac{1}{\sqrt{2\pi}\sigma}e^{-\cfrac{(x-\mu)^2}{2\sigma^2}},\quad -\infty<x<+\infty $$
记为$X\sim N(\mu,\sigma^2)$
性质
$\mu$ 为均值,控制图像位置,$\sigma$ 为方差,控制图像高低(陡缓)
$y=f(x)$ 以 $x=\mu$ 为对称轴,呈钟形曲线
概率最大值在 $x=\mu$ 时取到,值为 $\cfrac{1}{\sqrt{2\pi}\sigma}$
分布函数 $$ F(x)=\cfrac{1}{\sqrt{2\pi}\sigma}\int_{-\infty}^x e^{-\cfrac{(t-\mu)^2}{2\sigma^2}}dt $$
正态分布详解
对正态分布随机变量$X$,若$\mu=0,\sigma=1$,则称$X$服从标准正态分布,其分布函数和概率密分别用$\Phi(x)$和$\phi(x)$表示,即 $$ \Phi(x)=\cfrac{1}{\sqrt{2\pi}}\int_{-\infty}^xe^{-\cfrac{t^2}{2}}dt,\quad\phi(x)=\cfrac{1}{\sqrt{2\pi}}e^{-\cfrac{x^2}{2}} \ \Phi(0)=\cfrac{1}{2},\quad \Phi(x)=1-\Phi(-x) $$
定理 1:设$X\sim N(\mu,\sigma^2)$,则$Y=\cfrac{X-\mu}{\sigma}~N(0,1)$。因此有(标准化)
- $P{X\le a}=P{\cfrac{X-\mu}{\sigma}\le \cfrac{a-\mu}{\sigma} }=\Phi(\cfrac{a-\mu}{\sigma})$
- $P{X>b}=P{\cfrac{X-\mu}{\sigma}> \cfrac{b-\mu}{\sigma} }=1-\Phi(\cfrac{b-\mu}{\sigma})$
- $P{a<X\le b}=P{\ \cfrac{a-\mu}{\sigma} <\cfrac{X-\mu}{\sigma}\le \cfrac{b-\mu}{\sigma} }=\Phi(\cfrac{b-\mu}{\sigma})-\Phi(\cfrac{a-\mu}{\sigma})$
当$a>0$时,$\Phi(a)$的值往往是通过查表得到,当$a<0$时,先利用$\Phi(a)=1-\Phi(-a)$,再查表得到。
$p{|x-\mu|<\sigma}=0.6826$
$p{|x-\mu|<2\sigma}=0.9544$
$p{|x-\mu|<3\sigma}=0.9974$
例
某元件的寿命$X$服从指数分布,其参数为$\lambda=\cfrac{1}{1000}$,求 3 个这样的元件用 1000 小时时,至少已有一个损坏的概率
解:一个元件使用 1000 小时时损坏的概率为
$$ P{X\le 1000}=1-e^{-1} $$
用$Y$表示 3 个元件中使用 1000 小时时损坏的元件数,则$Y\sim B(3,1-e^{-1})$,因此所求概率为 $$ P{Y\ge 1}=1-P{Y=0}=1-C_3^0(1-e^{-1})^0(e^{-1})^3=1-e^{-3} $$
设$X\sim N(1,4)$
(1)求$P{x\le 5},\ P{0<X\le 1.6},\ P{|X-1|\le 2}$
(2)设$d$满足$P{X>d}\ge 0.9$,问$d$至少为多少
解:
(1)标准化,查表。
随机变量的函数的分布
随机变量函数的概念
如果存在一个函数$g(\sdot)$,使得随机变量$X,Y$满足:$Y=g(X)$,则称随机变量$Y$是随机变量$X$的函数。
离散型随机变量的函数的分布
设离散型随机变量$X$的分布律为: $$ P{X=x_i}=p_i,\qquad i=1,2,\ldots $$ 显然,$X$的随机变量函数$Y=g(X)$也是离散型随机变量,且$Y$的分布律为 $$ P{Y=y_i}=\sum\limits_{g(x_i)=y_i}p_i\qquad j=1,2,\ldots $$
连续型随机变量的函数的分布
设$X$的概率密度为$f_X(x),Y=g(X)$,则$Y$的分布函数为 $$ F_Y(y)=P{Y\le y}=P{g(X)\le y}=\int_{C_y}f(x)dx $$ 其中$C_y={x\mid g(x)\le y}$
方法:$F_Y(x)\rightarrow F_X(x)$,两边求导,$f_Y(x)\leftarrow f_X(x)$
定理
设随机变量$X$概率密度为$f_X(x)$,函数$y=g(x)$处处可导,且$g’(x)>0$(或$g’(x)<0$),则$Y=g(X)$也是连续型随机变量,其概率密度为 $$ f_Y(y)=\begin{cases} \ f_X(h(y))|h’(y)| \qquad \alpha<y<\beta \ \ 0\qquad\qquad \qquad\qquad 其他 \end{cases}\quad $$ 其中$x=h(y)$为$y=g(x)$的反函数
当$f(x)$在$(-\infty,+\infty)$上非零时 $$ \alpha=min(g(-\infty),g(+\infty)),\beta=max(g(-\infty),g(+\infty)) $$
当$f(x)$在$[a,b]$上非零时
$$ \alpha=min(g(a),g(b)),\beta=max(g(a),g(b)) $$