统计中常用的分布

发表于： 2019-01-06 更新于： 2024-04-04 分类于：数据科学

字数： 499 阅读：≈ 3分钟浏览：评论：

概述

三种重要的离散型随机变量

(0-1)分布

定义:
- 设随机变量X只可能取到0与1两个值, 它的分布律是 $$P{X=k} = p^k(1-p)^{1-k}, \quad k = 0,1 \quad (0 < p < 1)$$ 则称X服从以p为参数的(0-1)分布或两点分布.

伯努利试验, 二项分布(Binomial distribution)

概念:
- 设试验E只有两个可能的结果: $A及\bar{A}$, 则称E为伯努利(Bernoulli)试验.
- 设$P(A) = p \quad (0 < p < 1)$, 此时$P(\bar{A} = 1-p)$. 将E独立重复地进行n次, 则称这一串重复的独立试验为n重伯努利试验.

二项分布(Binomial distribution)

定义:
- ${n \choose k}p^kq^{n - k}$刚好是二项式$(p + q)^n$的展开式中出现p^k的那一项, 我们称随机变量X服从参数为n, p的二项分布, 并记为$X \sim b(n,p)$, 其中${n \choose k} = \frac{n!}{k!(n -k)!}, \quad k= 0,1,\cdots,n$
性质
- 特别, 当n = 1时, 二项分布$P{X = k} = p^kq^{1 -k}, \quad k=0,1$转化为(0-1)分布

泊松分布(Poissson distribution)

概述:
- 用来描述在一指定时间范围内或在指定的面积或体积之内某一事件出现的次数的分布.
定义:
- 设随机变量X所有可能的取值为$0, 1, 2, \cdots,$而取各个值的概率为 $$P{X = k} = \frac{\lambda^ke^{-\lambda}}{k!}, \quad k=0,1,2,\cdots$$ 其中$\lambda > 0$是常数. 则称X服从参数$\lambda$的泊松分布, 记为$X \sim \pi(\lambda)$

三种重要的连续型随机变量

均匀分布

定义:
- 若连续型随机变量X具有概率密度
```
$$f(x) = \begin{cases}
    \frac{1}{b - a}, \quad a < x < b, \\  
    0, \quad 其他,
\end{cases}$$
```
则称X在区间(a, b)上服从均匀分布. 记为$X \sim U(a,b).$

指数分布

定义:
- 若连续型随机变量X的概率密度为
```
$$f(x) = \begin{cases}
    \frac{1}{\theta}e^{-x/\theta}, \quad x > 0, \\
    0, 其他
\end{cases}$$
```
其中$\theta > 0$为常数, 则称X服从参数为$\theta$的指数分布.

正态分布(Normal distribution)

定义:
- 若连续型随机变量X的概率密度为 $$f(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x - \mu)^2}{2\sigma^2}}, \quad -\infty < x < \infty$$ 其中$\mu, \sigma(\sigma>0)$为常数, 则称X服从参数为$\mu, \sigma$的正态分布或高斯(Gauss)分布, 记为$X \sim N(\mu, \sigma^2).$ X的分布函数为 $$F(x) = \frac{1}{\sqrt{2\pi}\sigma}\int_{-\infty}^x e^{-\frac{(t - \mu)^2}{2\sigma^2}}dt$$
- 当$\mu = 0, \sigma = 1$时, 称随机变量X服从标准正态分布 其概率密度和分布函数分别用$\varphi(x), \varPhi(x)$表示
```
$$
\varphi(x) = \frac{1}{\sqrt{2\pi}}e^{-t^2/2} \\
  \varPhi(x) = \frac{1}{\sqrt{2\pi}}\int_{-\infty}^xe^{-t^2/2}dt \\
  易知\quad \varPhi(-x) = 1 - \varPhi(x)
$$
```

区间概率

$$
    \begin{aligned}
        & P\{\mu - \sigma < X < \mu + \sigma\} = \varPhi(1) - \varPhi(-1) = 2\varPhi(1) - 1 = 68.26\% \\
        & P\{\mu - 2\sigma < X < \mu + 2\sigma\} = \varPhi(2) - \varPhi(-2) = 95.44\% \\
        & P\{\mu - 3\sigma < X < \mu + 3\sigma\} = \varPhi(3) - \varPhi(-3) = 99.74\%
    \end{aligned}
$$

尽管正态变量的取值范围是$(-\infty, +\infty)$, 但它的值落在$(\mu - 3\sigma, \mu + 3\sigma)$几乎是肯定的事. 这就是"$3\sigma$“法则.

性质

若$X \sim N(\mu, \sigma^2)$, 则$Z = \frac{X - \mu}{\sigma} \sim N(0,1)$

抽样分布

卡方分布(chi-square distribution)

概述:
- 设$X_1,X_2,\cdots,X_n$是来自总体N(0,1)的样本, 则称统计量 $$\chi^2 = X_1^2 + X_2^2 + \cdots + X_n^2$$ 服从自由度为n的$\chi^2$分布, 记为$\chi^2 \sim \chi^2(n).$ 此处自由度为包含独立变量的个数.
- $\chi^2(n)$分布的概率密度为
```
$$f(y) = \begin{cases}
    \frac{1}{2^{n/2}\Gamma(n/2)}y^{n/2 - 1}e^{-y/2}, \quad y>0, \\
    0, \quad 其他
\end{cases}$$
```

性质:

$\chi^2$分布的可加性: 设$\chi_1^2 \sim \chi^2(n_1), \chi_2^2 \sim \chi^2(n_2)$, 并且$\chi_1^2, \chi_2^2$相互独立, 则有 $$\chi_1^2 + \chi_2^2 \sim \chi^2(n_1 + n_2)$$
$\chi_2$分布的数学期望和方差: 若$\chi^2 \sim \chi^2(n)$, 则有 $$E(\chi^2) = n, \quad D(\chi^2) = 2n$$
$\chi^2$分布的分位点: 对于给定的正数$\alpha, 0 < \alpha < 1$, 称满足条件 $$P{\chi^2 > \chi_\alpha^2(n)} = \int_{\chi_\alpha^2(n)}^\infty f(y)dy = \alpha$$ 的点$\chi_\alpha^2(n)$为$\chi^2(n)$分布上的分位点.

t分布(学生氏分布)

概述:
- 设$X \sim N(0,1), Y \sim \chi^2(n)$, 且X, Y相互独立, 则称随机变量 $$t = \frac{X}{\sqrt{Y/n}}$$ 服从自由度为n的t分布. 记为$t \sim t(n)$
- t(n)分布的概率密度函数为 $$h(t) = \frac{\Gamma[(n + 1)/2]}{\sqrt{\pi n}\Gamma(n/2)}(1 + \frac{t^2}{n})^{-(n + 1)/2}, \quad -\infty < t < \infty$$

性质

t分布的分位点: 对于给定的$\alpha, 0 < \alpha < 1,$称满足条件 $$P{t > t_\alpha(n)} = \int_{t_\alpha(n)}^\infty h(t)dt = \alpha$$ 的点$t_\alpha(n)$为t(n)分布上的分位点.

F分布

概述:

设$U \sim \chi^2(n_1), V \sim \chi^2(n_2)$, 且$U,V$相互独立, 则称随机变量 $$F = \frac{U/n_1}{U/n_2}$$ 服从自由度为$(n_1,n_2)$的F分布, 记为$F \sim F(n_1,n_2)$
$F(n_1, n_2)$分布的概率密度为

$$\varphi(y) = \begin{cases}
    \frac{\Gamma[(n_1 + n_2)/2](n_1 + n_2)^{n_1/2}y^{n_1/2 - 1}}{\Gamma(n_1/2)\Gamma(n_2/2)[1 + (n_1y/n_2)]^{(n_1 + n_2)/2}}, \quad y>0 \\
    0, \quad others
\end{cases}$$

性质

若$F \sim F(n_1,n_2),$则 $$\frac{1}{F} \sim F(n_2, n_1)$$
F的分位点: 对于给定的$\alpha, 0 < \alpha < 1,$则称满足条件 $$P{F > F_\alpha(n_1,n_2)} = \int_{F_\alpha(n_1,n_2)}^\infty \varphi(y)dy = \alpha$$ 的点$F_\alpha(n_1,n_2)$为$F(n_1,n_2)$分布的上$\alpha$分位点.

参考

统计学(第7版) 中国人民大学出版社
概率论与数理统计(第四版) 高等教育出版社

Patrick's Blog

统计中常用的分布

概述

相关概念

三种重要的离散型随机变量

(0-1)分布

伯努利试验, 二项分布(Binomial distribution)

二项分布(Binomial distribution)

泊松分布(Poissson distribution)

三种重要的连续型随机变量

均匀分布

指数分布

正态分布(Normal distribution)

性质

抽样分布

卡方分布(chi-square distribution)

性质:

t分布(学生氏分布)

性质

F分布

性质

参考