统计中常用的分布

概述

相关概念

  1. 随机变量:
    • 设随机试验的样本空间为S(e) = {e}. X = X(e)是定义在样本空间S上的实值单值函数. 称X = X(e)为随机变量.
  2. 离散型随机变量:
    • 有些随机变量, 它全部可能取到的值是有限个或可列无限多个, 这种随机变量称为离散型随机变量.

三种重要的离散型随机变量

(0-1)分布

  • 定义:
    • 设随机变量X只可能取到0与1两个值, 它的分布律是 $$P{X=k} = p^k(1-p)^{1-k}, \quad k = 0,1 \quad (0 < p < 1)$$ 则称X服从以p为参数的(0-1)分布或两点分布.

伯努利试验, 二项分布(Binomial distribution)

  • 概念:
    • 设试验E只有两个可能的结果: $A及\bar{A}$, 则称E为伯努利(Bernoulli)试验.
    • 设$P(A) = p \quad (0 < p < 1)$, 此时$P(\bar{A} = 1-p)$. 将E独立重复地进行n次, 则称这一串重复的独立试验为n重伯努利试验.

二项分布(Binomial distribution)

  • 定义:
    • ${n \choose k}p^kq^{n - k}$刚好是二项式$(p + q)^n$的展开式中出现p^k的那一项, 我们称随机变量X服从参数为n, p的二项分布, 并记为$X \sim b(n,p)$, 其中${n \choose k} = \frac{n!}{k!(n -k)!}, \quad k= 0,1,\cdots,n$
  • 性质
    • 特别, 当n = 1时, 二项分布$P{X = k} = p^kq^{1 -k}, \quad k=0,1$转化为(0-1)分布

泊松分布(Poissson distribution)

  • 概述:
    • 用来描述在一指定时间范围内或在指定的面积或体积之内某一事件出现的次数的分布.
  • 定义:
    • 设随机变量X所有可能的取值为$0, 1, 2, \cdots,$而取各个值的概率为 $$P{X = k} = \frac{\lambda^ke^{-\lambda}}{k!}, \quad k=0,1,2,\cdots$$ 其中$\lambda > 0$是常数. 则称X服从参数$\lambda$的泊松分布, 记为$X \sim \pi(\lambda)$

三种重要的连续型随机变量

均匀分布

  • 定义:
    • 若连续型随机变量X具有概率密度
    $$f(x) = \begin{cases}
        \frac{1}{b - a}, \quad a < x < b, \\  
        0, \quad 其他,
    \end{cases}$$
    
    则称X在区间(a, b)上服从均匀分布. 记为$X \sim U(a,b).$

指数分布

  • 定义:
    • 若连续型随机变量X的概率密度为
    $$f(x) = \begin{cases}
        \frac{1}{\theta}e^{-x/\theta}, \quad x > 0, \\
        0, 其他
    \end{cases}$$
    
    其中$\theta > 0$为常数, 则称X服从参数为$\theta$的指数分布.

正态分布(Normal distribution)

  • 定义:
    • 若连续型随机变量X的概率密度为 $$f(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x - \mu)^2}{2\sigma^2}}, \quad -\infty < x < \infty$$ 其中$\mu, \sigma(\sigma>0)$为常数, 则称X服从参数为$\mu, \sigma$的正态分布高斯(Gauss)分布, 记为$X \sim N(\mu, \sigma^2).$ X的分布函数为 $$F(x) = \frac{1}{\sqrt{2\pi}\sigma}\int_{-\infty}^x e^{-\frac{(t - \mu)^2}{2\sigma^2}}dt$$
    • 当$\mu = 0, \sigma = 1$时, 称随机变量X服从标准正态分布 其概率密度和分布函数分别用$\varphi(x), \varPhi(x)$表示
    $$
    \varphi(x) = \frac{1}{\sqrt{2\pi}}e^{-t^2/2} \\
      \varPhi(x) = \frac{1}{\sqrt{2\pi}}\int_{-\infty}^xe^{-t^2/2}dt \\
      易知\quad \varPhi(-x) = 1 - \varPhi(x)
    $$
    
  • 区间概率
    $$
        \begin{aligned}
            & P\{\mu - \sigma < X < \mu + \sigma\} = \varPhi(1) - \varPhi(-1) = 2\varPhi(1) - 1 = 68.26\% \\
            & P\{\mu - 2\sigma < X < \mu + 2\sigma\} = \varPhi(2) - \varPhi(-2) = 95.44\% \\
            & P\{\mu - 3\sigma < X < \mu + 3\sigma\} = \varPhi(3) - \varPhi(-3) = 99.74\%
        \end{aligned}
    $$
    
    尽管正态变量的取值范围是$(-\infty, +\infty)$, 但它的值落在$(\mu - 3\sigma, \mu + 3\sigma)$几乎是肯定的事. 这就是"$3\sigma$“法则.

性质

  1. 若$X \sim N(\mu, \sigma^2)$, 则$Z = \frac{X - \mu}{\sigma} \sim N(0,1)$

抽样分布

卡方分布(chi-square distribution)

  • 概述:
    • 设$X_1,X_2,\cdots,X_n$是来自总体N(0,1)的样本, 则称统计量 $$\chi^2 = X_1^2 + X_2^2 + \cdots + X_n^2$$ 服从自由度为n的$\chi^2$分布, 记为$\chi^2 \sim \chi^2(n).$ 此处自由度为包含独立变量的个数.
    • $\chi^2(n)$分布的概率密度为
    $$f(y) = \begin{cases}
        \frac{1}{2^{n/2}\Gamma(n/2)}y^{n/2 - 1}e^{-y/2}, \quad y>0, \\
        0, \quad 其他
    \end{cases}$$
    

性质:

  1. $\chi^2$分布的可加性: 设$\chi_1^2 \sim \chi^2(n_1), \chi_2^2 \sim \chi^2(n_2)$, 并且$\chi_1^2, \chi_2^2$相互独立, 则有 $$\chi_1^2 + \chi_2^2 \sim \chi^2(n_1 + n_2)$$
  2. $\chi_2$分布的数学期望和方差: 若$\chi^2 \sim \chi^2(n)$, 则有 $$E(\chi^2) = n, \quad D(\chi^2) = 2n$$
  3. $\chi^2$分布的分位点: 对于给定的正数$\alpha, 0 < \alpha < 1$, 称 满足条件 $$P{\chi^2 > \chi_\alpha^2(n)} = \int_{\chi_\alpha^2(n)}^\infty f(y)dy = \alpha$$ 的点$\chi_\alpha^2(n)$为$\chi^2(n)$分布上的分位点.

t分布(学生氏分布)

  • 概述:
    • 设$X \sim N(0,1), Y \sim \chi^2(n)$, 且X, Y相互独立, 则称随机变量 $$t = \frac{X}{\sqrt{Y/n}}$$ 服从自由度为n的t分布. 记为$t \sim t(n)$
    • t(n)分布的概率密度函数为 $$h(t) = \frac{\Gamma[(n + 1)/2]}{\sqrt{\pi n}\Gamma(n/2)}(1 + \frac{t^2}{n})^{-(n + 1)/2}, \quad -\infty < t < \infty$$

性质

  1. t分布的分位点: 对于给定的$\alpha, 0 < \alpha < 1,$称满足条件 $$P{t > t_\alpha(n)} = \int_{t_\alpha(n)}^\infty h(t)dt = \alpha$$ 的点$t_\alpha(n)$为t(n)分布上的分位点.

F分布

  • 概述:
    • 设$U \sim \chi^2(n_1), V \sim \chi^2(n_2)$, 且$U,V$相互独立, 则称随机变量 $$F = \frac{U/n_1}{U/n_2}$$ 服从自由度为$(n_1,n_2)$的F分布, 记为$F \sim F(n_1,n_2)$
    • $F(n_1, n_2)$分布的概率密度为
    $$\varphi(y) = \begin{cases}
        \frac{\Gamma[(n_1 + n_2)/2](n_1 + n_2)^{n_1/2}y^{n_1/2 - 1}}{\Gamma(n_1/2)\Gamma(n_2/2)[1 + (n_1y/n_2)]^{(n_1 + n_2)/2}}, \quad y>0 \\
        0, \quad others
    \end{cases}$$
    

性质

  1. 若$F \sim F(n_1,n_2),$则 $$\frac{1}{F} \sim F(n_2, n_1)$$
  2. F的分位点: 对于给定的$\alpha, 0 < \alpha < 1,$则称满足条件 $$P{F > F_\alpha(n_1,n_2)} = \int_{F_\alpha(n_1,n_2)}^\infty \varphi(y)dy = \alpha$$ 的点$F_\alpha(n_1,n_2)$为$F(n_1,n_2)$分布的上$\alpha$分位点.

参考

  • 统计学(第7版) 中国人民大学出版社
  • 概率论与数理统计(第四版) 高等教育出版社