统计中常用的分布

1. 概述

1.1 相关概念

  1. 随机变量:
    • 设随机试验的样本空间为S(e) = {e}. X = X(e)是定义在样本空间S上的实值单值函数. 称X = X(e)为随机变量.
  2. 离散型随机变量:
    • 有些随机变量, 它全部可能取到的值是有限个或可列无限多个, 这种随机变量称为离散型随机变量.

2. 三种重要的离散型随机变量

2.1 (0-1)分布

  • 定义:
    • 设随机变量X只可能取到0与1两个值, 它的分布律是 $$P\{X=k\} = p^k(1-p)^{1-k}, \quad k = 0,1 \quad (0 < p < 1)$$
      则称X服从以p为参数的(0-1)分布或两点分布.

2.2 伯努利试验, 二项分布(Binomial distribution)

  • 概念:
    • 设试验E只有两个可能的结果: $A及\bar{A}$, 则称E为伯努利(Bernoulli)试验.
    • 设$P(A) = p \quad (0 < p < 1)$, 此时$P(\bar{A} = 1-p)$. 将E独立重复地进行n次, 则称这一串重复的独立试验为n重伯努利试验.

2.2.1 二项分布(Binomial distribution)

  • 定义:
    • ${n \choose k}p^kq^{n - k}$刚好是二项式$(p + q)^n$的展开式中出现p^k的那一项, 我们称随机变量X服从参数为n, p的二项分布, 并记为$X \sim b(n,p)$, 其中${n \choose k} = \frac{n!}{k!(n -k)!}, \quad k= 0,1,\cdots,n$
  • 性质
    • 特别, 当n = 1时, 二项分布$P\{X = k\} = p^kq^{1 -k}, \quad k=0,1$转化为(0-1)分布

2.3 泊松分布

  • 定义:
    • 设随机变量X所有可能的取值为$0, 1, 2, \cdots,$而取各个值的概率为 $$P\{X = k\} = \frac{\lambda^ke^{-\lambda}}{k!}, \quad k=0,1,2,\cdots$$ 其中$\lambda > 0$是常数. 则称X服从参数$\lambda$的泊松分布, 记为$X \sim \pi(\lambda)$

3 三种重要的连续型随机变量

3.1 均匀分布

  • 定义:
    • 若连续型随机变量X具有概率密度 $$f(x) = \begin{cases} \frac{1}{b - a}, \quad a < x < b, \\ 0, \quad 其他, \end{cases}$$
      则称X在区间(a, b)上服从均匀分布. 记为$X \sim U(a,b).$

3.2 指数分布

  • 定义:
    • 若连续型随机变量X的概率密度为 $$f(x) = \begin{cases} \frac{1}{\theta}e^{-x/\theta}, \quad x > 0, \\ 0, 其他 \end{cases}$$ 其中$\theta > 0$为常数, 则称X服从参数为$\theta$的指数分布.

3.3 正态分布(Normal distribution)

  • 定义:
    • 若连续型随机变量X的概率密度为 $$f(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x - \mu)^2}{2\sigma^2}}, \quad -\infty < x < \infty$$ 其中$\mu, \sigma(\sigma>0)$为常数, 则称X服从参数为$\mu, \sigma$的正态分布高斯(Gauss)分布, 记为$X \sim N(\mu, \sigma^2).$ X的分布函数为 $$F(x) = \frac{1}{\sqrt{2\pi}\sigma}\int_{-\infty}^x e^{-\frac{(t - \mu)^2}{2\sigma^2}}dt$$
    • 当$\mu = 0, \sigma = 1$时, 称随机变量X服从标准正态分布 其概率密度和分布函数分别用$\varphi(x), \varPhi(x)$表示 $$ \varphi(x) = \frac{1}{\sqrt{2\pi}}e^{-t^2/2} \\ \varPhi(x) = \frac{1}{\sqrt{2\pi}}\int_{-\infty}^xe^{-t^2/2}dt \\ 易知\quad \varPhi(-x) = 1 - \varPhi(x) $$
  • 区间概率 $$ \begin{aligned} & P\{\mu - \sigma < X < \mu + \sigma\} = \varPhi(1) - \varPhi(-1) = 2\varPhi(1) - 1 = 68.26\% \\ & P\{\mu - 2\sigma < X < \mu + 2\sigma\} = \varPhi(2) - \varPhi(-2) = 95.44\% \\ & P\{\mu - 3\sigma < X < \mu + 3\sigma\} = \varPhi(3) - \varPhi(-3) = 99.74\% \end{aligned} $$ 尽管正态变量的取值范围是$(-\infty, +\infty)$, 但它的值落在$(\mu - 3\sigma, \mu + 3\sigma)$几乎是肯定的事. 这就是"$3\sigma$"法则.

3.4 性质

  1. 若$X \sim N(\mu, \sigma^2)$, 则$Z = \frac{X - \mu}{\sigma} \sim N(0,1)$

4. 抽样分布

4.1 卡方分布(chi-square distribution)

  • 概述:
    • 设$X_1,X_2,\cdots,X_n$是来自总体N(0,1)的样本, 则称统计量 $$\chi^2 = X_1^2 + X_2^2 + \cdots + X_n^2$$ 服从自由度为n的$\chi^2$分布, 记为$\chi^2 \sim \chi^2(n).$ 此处自由度为包含独立变量的个数.
    • $\chi^2(n)$分布的概率密度为 $$f(y) = \begin{cases} \frac{1}{2^{n/2}\Gamma(n/2)}y^{n/2 - 1}e^{-y/2}, \quad y>0, \\ 0, \quad 其他 \end{cases}$$

4.1.1 性质:

  1. $\chi^2$分布的可加性: 设$\chi_1^2 \sim \chi^2(n_1), \chi_2^2 \sim \chi^2(n_2)$, 并且$\chi_1^2, \chi_2^2$相互独立, 则有 $$\chi_1^2 + \chi_2^2 \sim \chi^2(n_1 + n_2)$$
  2. $\chi_2$分布的数学期望和方差: 若$\chi^2 \sim \chi^2(n)$, 则有 $$E(\chi^2) = n, \quad D(\chi^2) = 2n$$
  3. $\chi^2$分布的分位点: 对于给定的正数$\alpha, 0 < \alpha < 1$, 称 满足条件 $$P\{\chi^2 > \chi_\alpha^2(n)\} = \int_{\chi_\alpha^2(n)}^\infty f(y)dy = \alpha$$ 的点$\chi_\alpha^2(n)$为$\chi^2(n)$分布上的分位点.

4.2 t分布(学生氏分布)

  • 概述:
    • 设$X \sim N(0,1), Y \sim \chi^2(n)$, 且X, Y相互独立, 则称随机变量 $$t = \frac{X}{\sqrt{Y/n}}$$ 服从自由度为n的t分布. 记为$t \sim t(n)$
    • t(n)分布的概率密度函数为 $$h(t) = \frac{\Gamma[(n + 1)/2]}{\sqrt{\pi n}\Gamma(n/2)}(1 + \frac{t^2}{n})^{-(n + 1)/2}, \quad -\infty < t < \infty$$

4.2.1 性质

  1. t分布的分位点: 对于给定的$\alpha, 0 < \alpha < 1,$称满足条件 $$P{t > t_\alpha(n)} = \int_{t_\alpha(n)}^\infty h(t)dt = \alpha$$ 的点$t_\alpha(n)$为t(n)分布上的分位点.

4.3 F分布

  • 概述:
    • 设$U \sim \chi^2(n_1), V \sim \chi^2(n_2)$, 且$U,V$相互独立, 则称随机变量 $$F = \frac{U/n_1}{U/n_2}$$ 服从自由度为$(n_1,n_2)$的F分布, 记为$F \sim F(n_1,n_2)$
    • $F(n_1, n_2)$分布的概率密度为 $$\varphi(y) = \begin{cases} \frac{\Gamma[(n_1 + n_2)/2](n_1 + n_2)^{n_1/2}y^{n_1/2 - 1}}{\Gamma(n_1/2)\Gamma(n_2/2)[1 + (n_1y/n_2)]^{(n_1 + n_2)/2}}, \quad y>0 \\ 0, \quad others \end{cases}$$

4.3.1 性质

  1. 若$F \sim F(n_1,n_2),$则 $$\frac{1}{F} \sim F(n_2, n_1)$$
  2. F的分位点: 对于给定的$\alpha, 0 < \alpha < 1,$则称满足条件 $$P\{F > F_\alpha(n_1,n_2)\} = \int_{F_\alpha(n_1,n_2)}^\infty \varphi(y)dy = \alpha$$ 的点$F_\alpha(n_1,n_2)$为$F(n_1,n_2)$分布的上$\alpha$分位点.

    5. 参考

    • 统计学(第7版) 中国人民大学出版社
    • 概率论与数理统计(第四版) 高等教育出版社

标签: none

已有 2 条评论

  1. 留名,学习了~~

添加新评论