概率论与数理统计基础

概率论的基本概念

集合论视角

事件的表示：

若 $B$ 是 $A$ 的子事件，记作 $B \subset A$ ，特殊时有 $A = B$
$A$ 与 $B$ 至少一个发生，记作 $A \cup B$ ； $A$ $、$ $B$ 同时发生记作 $A B$ 或 $A \cap B$
$A - B$ 表示从 $A$ 中挖去 $B$ 的部分，亦记作 $A - A B$ 或 $A \bar{B}$
若 $A \cap B = \empty$ ，则两事件互斥/互不相容
$A$ 与 $\bar{A}$ 互逆/对立

基本运算律：

交换律
结合律
分配律
对偶律： $\overset{―}{A \cup B} = \bar{A} \cap \bar{B} = \bar{A} \bar{B}$ ； $\overset{―}{A B} = \overset{―}{A \cap B} = \bar{A} \cup \bar{B}$

概率公理化

基本原则：

非负性： $P (A) \geq 0$ （任何事件发生的概率都大于等于 0）
规范性： $P (Ω) = 1$ （全部事件发生的概率和为 1）； $P (\empty) = 0$
可列可加性：设 $A_{i}$ 、 $A_{j}$ 间互不相容， $P (A_{1} \cup A_{2} \cap . . .) = P (A_{1}) + P (A_{2}) + . . .$

几大重要结论：

逆事件概率： $P (\bar{A}) = 1 - P (A)$
加法公式： $P (A \cup B) = P (A) + P (B) - P (A B)$
减法公式： $P (A \bar{B}) = P (A - B) = P (A - A B) = P (A) - P (A B)$
当 $A B = \empty$ 时， $P (A B) = 0$ ；当 $A$ 、 $B$ 相互独立时， $P (A B) = P (A) P (B)$
若 $A$ 、 $B$ 相互独立，则 $\bar{A}$ 与 $B$ 相互独立、 $A$ 与 $\bar{B}$ 相互独立、 $\bar{A}$ 与 $\bar{B}$ 相互独立

条件概率

在 $A$ 发生后 $B$ 发生的概率，记作 $P (B | A)$ ，它仍然满足概率定义的三个条件。

两大重要公式：

乘法公式： $P (A B) = P (B | A) P (A)$
全概率公式： $P (A) = \sum P (A | B_{i}) P (B_{i})$
贝叶斯公式（揉合了上列两者）： $P (B_{i} | A) = \frac{P (A | B_{i}) P (B_{i})}{\sum P (A | B_{j}) P (B_{j})}$

随机变量及其分布

基本概念

随机变量分为离散型和连续型。离散型常用分布律表表示；连续型常用概率密度函数和分布函数表示。
分布函数 $F (x) = P {X \leq x} \in [0, 1]$ ，其中 $F (- \infty) = 0, F (+ \infty) = 1$ .
$P {a < X \leq b} = F (b) - F (a)$ .
概率密度函数积分的结果是分布函数。
连续型的 $F (x < x_{0}) = \int_{- \infty}^{x_{0}} f (x) d x$ ，其中任意一点 $P (x = x_{a}) = 0$ .

常见分布律

名称	记法	表达式/密度函数	期望（ $E (X)$ ）	方差（ $D (X)$ ）
两点分布/0-1 分布	$X \sim B (1, p)$	$P {X = k} = p^{k} (1 - p)^{1 - k}$	$p$	$p (1 - p)$
二项分布	$X \sim B (n, p)$	$P {X = k} = C_{n}^{k} p^{k} (1 - p)^{n - k}$	$n p$	$n p (1 - p)$
泊松分布	$X \sim π (λ)$ 或 $X \sim P (λ)$	$P {X = k} = \frac{λ^{k}}{k!} e^{- λ}$	$λ$	$λ$
均匀分布	$X \sim U (a, b)$	$f (x) = {\begin{cases} \frac{1}{b - a} & a < x < b \\ 0 & o t h e r s \end{cases}$	$\frac{a + b}{2}$	$\frac{(b - a)^{2}}{12}$
指数分布	$X \sim E (θ)$	$f (x) = {\begin{cases} \frac{1}{θ} e^{- \frac{1}{θ} x} & x > 0 \\ 0 & x \leq 0 \end{cases}$	$θ$	$θ^{2}$
正态分布/高斯分布	$X \sim μ (μ, σ^{2})$ 或 $X \sim N (μ, σ^{2})$	$f (x) = \frac{1}{\sqrt{2 π} σ} e^{- \frac{(x - μ)^{2}}{2 σ^{2}}}$	$μ$	$σ^{2}$
标准正态分布	$X \sim μ (0, 1)$	$f (x) = \frac{1}{\sqrt{2 π}} e^{- \frac{x^{2}}{2}}$	$0$	$1$

随机变量函数分布

若已知 $x \sim f_{X} (x)$ ，则可得到 $y \sim f_{Y} (y) = f_{X} (h (y)) | h^{'} (y) |$ 。其中 $h (y)$ 是 $X$ 到 $Y$ 关系的反函数。

多维随机变量及其分布

抽象地来说， ${\begin{cases} f_{X} (x) = \int_{- \infty}^{+ \infty} f (x, y) d y \\ f_{Y} (y) = \int_{- \infty}^{+ \infty} f (x, y) d x \end{cases}$ 是 $(X, Y)$ 的边缘概率密度。

多元密度函数的积分也为 $1$ ： $\int_{- \infty}^{+ \infty} \int_{- \infty}^{+ \infty} f (x, y) d x d y = 1$ .

从二维区域任取一片子区域的概率为： $P ((X, Y) \in G) = \iint_{G} f (x, y) d x d y$ .

$X$ 、 $Y$ 相互独立 $⟺ f (x, y) = f_{X} (x) f_{Y} (y)$ .

若 $X$ 、 $Y$ 相互独立，且 $X \sim μ (μ_{1}, σ_{1}^{2})$ 、 $Y \sim μ (μ_{2}, σ_{2}^{2})$ ，则 $(X \pm Y) \sim μ (μ_{1} + μ_{2}, σ_{1}^{2} + σ_{2}^{2})$ .

随机变量的数字特征

期望

$E (X) = {\begin{cases} 离散型 & \sum x_{i} p_{i} \\ 连续型 & \int_{- \infty}^{+ \infty} x f (x) d x \end{cases}$ .

若存在常数 $C$ ： ${\begin{cases} E (C) = C \\ E (E (X)) = E (X) \\ E (C X) = C \cdot E (X) \end{cases}$ .

$E (X \pm Y) = E (X) \pm E (Y)$ .

$E (X Y) = E (X) E (Y) + E ((X - E (X)) (Y - E (X)))$ .

若 $X$ 、 $Y$ 相互独立， $E ((X - E (X)) (Y - E (X))) = 0$ .

方差

$D (X) = E^{2} (X - E (X)) = E (X^{2} - 2 X \cdot E (X) + E^{2} (X)) = E (X^{2}) - E^{2} (X)$ .

若存在常数 $C$ ： ${\begin{cases} D (C) = 0 \\ D (E (X)) = 0 \\ D (C X) = C^{2} \cdot D (X) \end{cases}$ .

$D (X \pm Y) = D (X) + D (Y) \pm 2 E ((X - E (X)) (Y - E (Y)))$ .

协方差

$C o v (X, Y) = E ((X - E (X)) (Y - E (Y))) = E (X Y) - E (X) E (Y)$ .

$C o v (X, X) = D (X)$ .

$C o v (X, Y) = C o v (Y, X)$ .

若存在常数 $C$ ： $C o v (X, C) = 0$ .

若存在常数 $a$ 、 $b$ ： $C o v (a X, b Y) = a b \cdot C o v (X, Y)$ .

$C o v (X_{1} + X_{2}, Y) = C o v (X_{1}, Y) + C o v (X_{2}, Y)$ .

相关系数： $ρ_{X Y}$ 用于表达 $X$ 与 $Y$ 之间的相关性。

$ρ_{X Y} = \frac{C o v (X, Y)}{\sqrt{D (X) D (Y)}}$ .

若 $X$ 、 $Y$ 相互独立， $ρ_{X Y} = 0$ ；若 $ρ_{X Y} = 1$ ，则 $X$ 与 $Y$ 呈线性相关。

特别地，若 $(X, Y) \sim μ (μ_{1}, μ_{2}, σ_{1}^{2}, σ_{2}^{2}, ρ_{X Y})$ ，则： $X$ 、 $Y$ 相互独立 $⟺ ρ_{X Y} = 0$ .

大数定律及中心极限定理

证明了“频率代替概率”。

$X \sim B (n, p) \overset{n \to + \infty}{\to} X \sim μ (n p, n p (1 - p))$ .

样本及抽样分布

统计量

若 $X_{1}, X_{2}, . . .$ 为样本，则 $g (X_{1}, X_{2}, . . .)$ 为统计量。

常见的统计量：

名称	记法
均值	$\bar{X} = \frac{1}{n} \sum X_{i}$
方差	$S^{2} = \frac{1}{n - 1} \sum (X_{i} - \bar{X})$
标准差	$S = \sqrt{S^{2}}$
样本 $k$ 阶原点矩	$A_{k} = \frac{1}{n} \sum X_{i}^{k}$
中心矩	$B_{k} = \frac{1}{n} \sum (X_{i} - \bar{X})^{k}$

四大重要分布

Z 分布：
$Z = \frac{\bar{X} - μ}{\frac{σ}{\sqrt{n}}} \sim μ (0, 1)$
$χ^{2}$ 分布：
$X \sim μ (0, 1) \rarr X^{2} \sim χ^{2} (1)$
T 分布：
$t = \frac{X \sim μ (0, 1)}{\sqrt{\frac{Y}{n}} \sim χ^{2} (n)} \rarr t \sim t (n)$
F 分布：
$F = \frac{\frac{U}{n_{1}}}{\frac{Y}{n_{2}}} \sim F (n_{1}, n_{2})$

参数估计

点估计

点估计分为矩估计和最大似然估计。通式为 $x \sim F (x, θ)$ ，其中 $θ$ 未知。

若利用矩求解 $θ$ ，则该方法被称为矩估计：

E (x^{k}) = A_{k} = \frac{1}{n} \sum x_{i}^{k}

特别地，当 $k = 1$ 时：

E (x) = \bar{X}

这里面的 $E (x)$ 就是想要的 $\hat{θ}$ （也就是 $θ$ ，只是在结果中要换种写法）。

若利用函数求解 $θ$ ，则该方法被称为最大似然估计：

建立似然函数： $L (x_{i}, θ) = f (x_{1}, θ) \cdot f (x_{2}, θ) \cdot . . . \cdot f (x_{n}, θ)$
双边取对： $\ln L (x_{i}, θ) = \sum f (x_{i}, θ)$
令 $(\ln L (x_{i}, θ))^{'} = 0$ ，求 $θ$
$θ$ 即是所需的 $\hat{θ}$

区间估计

区间估计通式为 $x \sim μ (μ, σ^{2})$ （正态分布），若：

$σ$ 已知，置信区间在 $\bar{X} \pm \frac{σ}{\sqrt{n}} z_{\frac{a}{2}}$ 之间（z 分布）
$σ$ 未知，置信区间在 $\bar{X} \pm \frac{S}{\sqrt{n}} t_{\frac{a}{2}} (n - 1)$ 之间（t 分布）

如果是 $χ^{2}$ 分布，则置信区间为 $(\frac{(n - 1) S^{2}}{χ_{\frac{α}{2}}^{2} (n - 1)}, \frac{(n - 1) S^{2}}{χ_{1 - \frac{α}{2}}^{2} (n - 1)})$

假设检验

小概率事件

$α \leq 0.05$ 的事件为小概率事件，在单次实验中几乎不发生。

两大重要检验

警告，分布与检验是两个不同的概念！

若总体标准差：

已知：使用 z 检验： $z = \frac{\bar{X} - μ}{\frac{σ}{\sqrt{n}}} \sim N (μ, σ^{2})$
未知：使用 t 检验： $t = z = \frac{\bar{X} - μ}{\frac{S}{\sqrt{n}}} \sim t (n - 1)$

一般流程

提出假设
判断使用 z 或 t 检验
画（正态分布）图，检查拒绝域
将数据全部代入分布表达式，检查值与拒绝域的关系：拒绝或接受假设

概率论与数理统计基础 ​

概率论的基本概念 ​

集合论视角 ​

概率公理化 ​

条件概率 ​

随机变量及其分布 ​

基本概念 ​

常见分布律 ​

随机变量函数分布 ​

多维随机变量及其分布 ​

随机变量的数字特征 ​

期望 ​

方差 ​

协方差 ​

大数定律及中心极限定理 ​

样本及抽样分布 ​

统计量 ​

四大重要分布 ​

参数估计 ​

点估计 ​

区间估计 ​

假设检验 ​

小概率事件 ​

两大重要检验 ​

一般流程 ​