一文精通系列的第 1 篇文章。本系列目的是尽量简洁清晰地介绍对一整块事情的理解,便于回顾。
更新记录:
2025.01.05 完成 v1.0 版(整理了普林斯顿概率论读本的一些重要概念和结论)
前置知识#
等差数列求和:S n = a 1 + a 2 + . . . a n = n ∗ ( a 1 + a n ) 2 S_n = a_1+a_2+...a_n=\frac{n*(a_1+a_n)}{2} S n = a 1 + a 2 + ... a n = 2 n ∗ ( a 1 + a n )
等比数列求和:S n = 1 + r + r 2 + r 3 + . . . + r n = 1 − r n + 1 1 − r S_n = 1+r+r^2+r^3+...+r^n=\frac{1-r^{n+1}}{1-r} S n = 1 + r + r 2 + r 3 + ... + r n = 1 − r 1 − r n + 1
排列数:A n m = n ! ( n − m ) ! A_n^m = \frac{n!}{(n-m)!} A n m = ( n − m )! n !
组合数:C n m = n ! m ! ( n − m ) ! C_n^m = \frac{n!}{m!(n-m)!} C n m = m ! ( n − m )! n !
原函数:
如果F ′ ( x ) = f ( x ) F'(x)=f(x) F ′ ( x ) = f ( x ) ,则称 F 是 f 的一个原函数 ,或者 f 的一个 (不定)积分
原函数不唯一,同一个 f 的不同原函数,一定相差一个常数
微积分基本定理 :设 f 是一个分段连续函数,F 是 f 的任意一个原函数。那么∫ a b f ( x ) d x = F ( b ) − F ( a ) \int_a^bf(x)dx=F(b)-F(a) ∫ a b f ( x ) d x = F ( b ) − F ( a ) 。
在曲线 y=f (x) 下方、介于 x=a 和 x=b 之间的面积就等于,f 的原函数在 b 处的值减去 f 在原函数在 a 处的值。
泰勒级数:如果 f 是 n 次可微分的,那么 f 在 a 点处的 n 阶泰勒级数就是
T n ( x ) : = ∑ k = 0 n f ( k ) ( a ) k ! ( x − a ) k T_n(x) := \sum_{k=0}^n \frac{f^{(k)}(a)}{k!}(x-a)^k T n ( x ) := ∑ k = 0 n k ! f ( k ) ( a ) ( x − a ) k
原点 (a=0) 处的泰勒级数,又称作麦克劳林级数。
基本概率定理#
条件概率:P r ( A ∣ B ) = P r ( A ∩ B ) P r ( B ) Pr(A|B) = \frac{Pr(A \cap B)}{Pr(B)} P r ( A ∣ B ) = P r ( B ) P r ( A ∩ B )
独立性:如果事件 A 和 B 满足P r ( A ∩ B ) = P r ( A ) ∗ P r ( B ) Pr(A \cap B) = Pr(A) * Pr(B) P r ( A ∩ B ) = P r ( A ) ∗ P r ( B ) ,则 A 和 B 独立
可交换性:P r ( A ∩ B ) = P r ( B ∩ A ) Pr(A\cap B) = Pr(B\cap A) P r ( A ∩ B ) = P r ( B ∩ A )
全概率公式:如果{ B 1 , B 2 , . . . } \{B_1, B_2, ...\} { B 1 , B 2 , ... } 构成了样本空间 S 的一个划分(分成了至多可数个部分),那么对于任意A ⊂ S A \subset S A ⊂ S ,有P r ( A ) = ∑ n P r ( A ∣ B n ) ⋅ P r ( B n ) Pr(A) = \sum_n Pr(A|B_n) \cdot Pr(B_n) P r ( A ) = ∑ n P r ( A ∣ B n ) ⋅ P r ( B n )
贝叶斯定理 :设{ A i } i = 1 n \{A_i\}_{i=1} ^ n { A i } i = 1 n 是样本空间的一个划分,那么P r ( A ∣ B ) = P r ( B ∣ A ) ⋅ P r ( A ) ∑ i = 1 n P r ( B ∣ A i ) ⋅ P r ( A i ) Pr(A|B) = \frac {Pr(B|A) \cdot Pr(A)}{\sum_{i=1}^n Pr(B|A_i) \cdot Pr(A_i)} P r ( A ∣ B ) = ∑ i = 1 n P r ( B ∣ A i ) ⋅ P r ( A i ) P r ( B ∣ A ) ⋅ P r ( A ) 。(条件概率的基础上,分子用可交换性 + 条件概率做变换,分母是全概率公式)
随机变量#
离散型随机变量
概率密度函数 (PDF):f X ( x ) = P r o b ( w ∈ Ω : X ( w ) = x ) f_X(x)=Prob(w \in \Omega: X(w)=x) f X ( x ) = P ro b ( w ∈ Ω : X ( w ) = x )
累计分布函数 (CDF):F X ( x ) = P r o b ( w ∈ Ω : X ( w ) ≤ x ) F_X(x)=Prob(w \in \Omega: X(w) \leq x) F X ( x ) = P ro b ( w ∈ Ω : X ( w ) ≤ x )
连续型随机变量
设 X 是一个随机变量,如果存在一个实值函数f X f_X f X 满足:f X f_X f X 是一个分段连续函数、f X ( x ) ≥ 0 f_X(x)\geq0 f X ( x ) ≥ 0 、∫ − ∞ + ∞ f X ( t ) d t = 1 \int_{-\infty}^{+\infty}f_X(t)dt=1 ∫ − ∞ + ∞ f X ( t ) d t = 1 ,那么 X 是一个连续型随机变量,f X f_X f X 是 X 的概率密度函数。
累计分布函数 (CDF):F X ( x ) = P r o b ( X ≤ x ) = ∫ − ∞ x f X ( t ) d t F_X(x)=Prob(X \leq x)=\int_{-\infty}^xf_X(t)dt F X ( x ) = P ro b ( X ≤ x ) = ∫ − ∞ x f X ( t ) d t
期望值 :设 X 是定义在 R 上的随机变量,它的概率密度函数是f X f_X f X ,函数g ( X ) g(X) g ( X ) 的期望值是
Copy E [ g ( X ) ] = { ∫ − ∞ + ∞ g ( x ) ∗ f X ( x ) d x 若 X 连续 ∑ n g ( x n ) ∗ f X ( x n ) 若 X 离散 E[g(X)] =
\begin{cases}
\int_{-\infty}^{+\infty}g(x)*f_X(x)dx & 若X连续 \\
\sum_n g(x_n) * f_X(x_n) & 若X离散
\end{cases} E [ g ( X )] = { ∫ − ∞ + ∞ g ( x ) ∗ f X ( x ) d x ∑ n g ( x n ) ∗ f X ( x n ) 若 X 连续 若 X 离散
如果g ( x ) = x r g(x)=x^r g ( x ) = x r ,E [ X r ] E[X^r] E [ X r ] 称为 X 的r 阶矩 ,把E [ ( X − E [ X ] ) r ] E[(X-E[X])^r] E [( X − E [ X ] ) r ] 称为 X 的r 阶中心矩
(为什么要关心矩:和知道的泰勒系数越多,对函数逼近越好类似。知道更多的能更好地理解概率密度函数的形状的性质)
X 的均值 (平均值、期望值,记作μ \mu μ )是一阶矩
E [ X ] = μ = ∫ − ∞ + ∞ x ∗ f X ( x ) d x E[X]=\mu=\int_{-\infty}^{+\infty} x * f_X(x)dx E [ X ] = μ = ∫ − ∞ + ∞ x ∗ f X ( x ) d x
X 的方差 (记作σ X 2 \sigma_X^2 σ X 2 或V a r ( X ) Var(X) Va r ( X ) )是二阶中心矩 ,g ( X ) = ( X − μ X ) 2 g(X)=(X-\mu_X)^2 g ( X ) = ( X − μ X ) 2 的期望值。
E [ ( X − E [ X ] ) 2 ] = E [ X 2 ] − E [ X ] 2 = σ X 2 = ∫ − ∞ + ∞ ( x − μ X ) 2 ∗ f X ( x ) d x E[(X-E[X])^2]=E[X^2]-E[X]^2=\sigma_X^2=\int_{-\infty}^{+\infty} (x-\mu_X)^2 * f_X(x)dx E [( X − E [ X ] ) 2 ] = E [ X 2 ] − E [ X ] 2 = σ X 2 = ∫ − ∞ + ∞ ( x − μ X ) 2 ∗ f X ( x ) d x
标准差 是方差的平方根,σ X = σ X 2 \sigma_X=\sqrt{\sigma_X^2} σ X = σ X 2
设 X、Y、Z 都是连续型随机变量,
联合概率密度函数 :P r o b ( ( X , Y , Z ) ∈ S ) = ∭ S f X , Y , Z ( x , y , z ) d x d y d z Prob((X,Y,Z)\in S) = \iiint_S f_{X,Y,Z}(x,y,z)dx\,dy\,dz P ro b (( X , Y , Z ) ∈ S ) = ∭ S f X , Y , Z ( x , y , z ) d x d y d z
X 的边缘概率密度函数:f X ( x ) = ∫ y = − ∞ + ∞ ∫ z = − ∞ + ∞ f X , Y , Z ( x , y , z ) d y d z f_X(x) = \int_{y=-\infty}^{+\infty} \int_{z=-\infty}^{+\infty} f_{X,Y,Z}(x,y,z) dy\,dz f X ( x ) = ∫ y = − ∞ + ∞ ∫ z = − ∞ + ∞ f X , Y , Z ( x , y , z ) d y d z
期望的性质:
和的期望等于期望的和:E [ a 1 g 1 ( X 1 ) + a 2 g 2 ( X 2 ) ] = a 1 E [ g 1 ( X 1 ) ] + a 2 E [ g 2 ( X 2 ) ] E[a_1g_1(X_1)+a_2g_2(X_2)]=a_1E[g_1(X_1)] + a_2E[g_2(X_2)] E [ a 1 g 1 ( X 1 ) + a 2 g 2 ( X 2 )] = a 1 E [ g 1 ( X 1 )] + a 2 E [ g 2 ( X 2 )]
设 X 是一个随机变量,均值为μ X \mu_X μ X ,方差为σ X 2 \sigma_X^2 σ X 2 。那么随机变量Y = a X + b Y=aX+b Y = a X + b 的均值方差分别为:μ Y = a ∗ μ X + b \mu_Y=a*\mu_X+b μ Y = a ∗ μ X + b 和σ Y 2 = a 2 σ X 2 \sigma_Y^2=a^2\sigma_X^2 σ Y 2 = a 2 σ X 2
设 X 是一个随机变量,那么 σ X 2 = E [ X 2 ] − E [ X ] 2 \sigma_X^2=E[X^2]-E[X]^2 σ X 2 = E [ X 2 ] − E [ X ] 2
均值和方差的性质:
如果 X 和 Y 是相互独立的随机变量,那么E [ X Y ] = E [ X ] E [ Y ] E[XY]=E[X]E[Y] E [ X Y ] = E [ X ] E [ Y ] ,并且E [ ( X − μ X ) ( Y − μ Y ) ] = E [ X − μ X ] E [ Y − μ Y ] = 0 E[(X-\mu_X)(Y-\mu_Y)]=E[X-\mu_X]E[Y-\mu_Y]=0 E [( X − μ X ) ( Y − μ Y )] = E [ X − μ X ] E [ Y − μ Y ] = 0
随机变量之和的均值和方差 :设X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X 1 , X 2 , ... , X n 是 n 个随机变量,他们的均值分别为μ X 1 , μ X 2 , . . . , μ X n \mu_{X_1},\mu_{X_2},...,\mu_{X_n} μ X 1 , μ X 2 , ... , μ X n ,方差是σ X 1 2 , σ X 2 2 , . . . , σ X n 2 \sigma^2_{X_1},\sigma^2_{X_2},...,\sigma^2_{X_n} σ X 1 2 , σ X 2 2 , ... , σ X n 2 。
设X = X 1 + X 2 + . . . + X n X=X_1+X_2+...+X_n X = X 1 + X 2 + ... + X n ,那么 X 的均值为μ X = μ X 1 + μ X 2 + . . . + μ X n \mu_X=\mu_{X_1}+\mu_{X_2}+...+\mu_{X_n} μ X = μ X 1 + μ X 2 + ... + μ X n
当随机变量之间相互独立 时,σ X 2 = σ X 1 2 + σ X 2 2 + . . . + σ X n 2 \sigma_X^2=\sigma^2_{X_1}+\sigma^2_{X_2}+...+\sigma^2_{X_n} σ X 2 = σ X 1 2 + σ X 2 2 + ... + σ X n 2
协方差 :σ X Y = C o v ( X , Y ) = E [ ( X − μ X ) ( Y − μ Y ) ] = E [ X Y ] − μ X μ Y \sigma_{XY}=Cov(X,Y)=E[(X-\mu_X)(Y-\mu_Y)]=E[XY]-\mu_X\mu_Y σ X Y = C o v ( X , Y ) = E [( X − μ X ) ( Y − μ Y )] = E [ X Y ] − μ X μ Y
相互独立的两个随机变量协方差为 0,但是协方差为 0 不代表独立(eg, X 是一个均值为 0 的对称分布随机变量,Y = X 2 Y=X^2 Y = X 2 )
如果X = X 1 + X 2 + . . . + X n X=X_1+X_2+...+X_n X = X 1 + X 2 + ... + X n ,那么V a r ( X ) = ∑ i = 1 n V a r ( X i ) + 2 ∑ 1 ≤ i < j ≤ n C o v ( X i , X j ) Var(X)=\sum_{i=1}^nVar(X_i)+2\sum_{1\leq i \lt j \leq n }Cov(X_i, X_j) Va r ( X ) = ∑ i = 1 n Va r ( X i ) + 2 ∑ 1 ≤ i < j ≤ n C o v ( X i , X j )
相关系数 (本质是对协方差的标准化):ρ = C o v ( X , Y ) σ X σ Y \rho=\frac{Cov(X,Y)}{\sigma_X \sigma_Y} ρ = σ X σ Y C o v ( X , Y )
协方差 / 相关系数,描述的是两个变量之间的线性相关性
特殊分布#
名称 概率密度函数 均值μ \mu μ 方差 σ 2 \sigma^2 σ 2 备注 伯努利分布 X ∼ B e r n ( p ) X \sim Bern(p) X ∼ B er n ( p ) P r o b ( X = x ) = { p 如果 x = 1 1 − p 如果 x = 0 Prob(X=x)=\begin{cases} p & 如果x=1 \\ 1-p & 如果x=0 \end{cases} P ro b ( X = x ) = { p 1 − p 如果 x = 1 如果 x = 0 p p(1-p) 二项分布 X ∼ B i n ( n , p ) X \sim Bin(n,p) X ∼ B in ( n , p ) P r o b ( X = k ) = { C n k p k ( 1 − p ) n − k 如果 k ∈ { 0 , 1 , . . . n } 0 其他 Prob(X=k)=\begin{cases} C_n^kp^k(1-p)^{n-k} & 如果k \in \{0,1,...n\} \\ 0 & 其他 \end{cases} P ro b ( X = k ) = { C n k p k ( 1 − p ) n − k 0 如果 k ∈ { 0 , 1 , ... n } 其他 np np(1-p) n 枚独立硬币,正面的次数 几何分布 X ∼ G e o m ( p ) X \sim Geom(p) X ∼ G eo m ( p ) P r o b ( X = n ) = { p ( 1 − p ) n − 1 如果 n ∈ { 0 , 1 , . . . n } 0 其他 Prob(X=n)=\begin{cases} p(1-p)^{n-1} & 如果n \in \{0,1,...n\} \\ 0 & 其他 \end{cases} P ro b ( X = n ) = { p ( 1 − p ) n − 1 0 如果 n ∈ { 0 , 1 , ... n } 其他 f r a c 1 p frac{1}{p} f r a c 1 p 1 − p p 2 \frac{1-p}{p^2} p 2 1 − p 首次抛出正面时,已经完成的试验次数 指数分布 X ∼ E x p ( λ ) X \sim Exp(\lambda) X ∼ E x p ( λ ) f X ( x ) = { 1 λ e − x / λ 如果 x ≥ 0 0 其他 f_X(x)=\begin{cases} \frac{1}{\lambda}e^{-x/\lambda} & 如果x \geq 0 \\ 0 & 其他 \end{cases} f X ( x ) = { λ 1 e − x / λ 0 如果 x ≥ 0 其他 λ \lambda λ λ 2 \lambda^2 λ 2 正态分布 X ∼ N ( μ , σ 2 ) X \sim N(\mu, \sigma^2) X ∼ N ( μ , σ 2 ) f X ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 f_X(x) = \frac{1}{\sqrt{2 \pi}\sigma} e^{-\frac{(x-\mu)^2}{2 \sigma^2}} f X ( x ) = 2 π σ 1 e − 2 σ 2 ( x − μ ) 2 μ \mu μ σ 2 \sigma^2 σ 2
生成随机数的累积分布法(逆变换法) :设 X 是一个随机变量,它的概率密度函数是f X f_X f X ,累积分布函数是F X F_X F X 。如果 Y 是一个服从 [0,1] 上均匀部分的随机变量,那么X = F X − 1 ( Y ) X=F^{-1}_X(Y) X = F X − 1 ( Y )
(可参考:渲染与采样(1):逆变换采样(Inverse Transform Sampling)— 原理与实际应用 - ZUIcat 的文章 - 知乎 )
假设检验#
原假设 :通常与想证明的结论相反。假定原假设正确,试图用数据来推翻它。
备择假设 :想证明的结论。
z 检验
设 X 是一个服从正态分布的随机变量,且其方差是已知的 σ 2 \sigma^2 σ 2 ,并假设其均值为μ \mu μ
设x 1 , x 2 , . . . , x n x_1, x_2, ..., x_n x 1 , x 2 , ... , x n 是从该分布中取出的 n 个相互独立的观测值,设x ˉ = x 1 + x 2 + . . . + x n n \bar x = \frac{x_1+x_2+...+x_n}{n} x ˉ = n x 1 + x 2 + ... + x n 是样本均值
观测到的z 检验统计量 :z = x ˉ − μ σ 2 / n z=\frac{\bar x - \mu}{\sqrt{\sigma^2/n}} z = σ 2 / n x ˉ − μ 。服从均值为 0,且方差为 1 的正态分布
根据 z 检验统计量偏离 0 的概率(p 值 ),如果p < 显著性水平 α p<显著性水平\alpha p < 显著性水平 α ,则拒绝原假设。(p 实际在表达在原假设成立的前提下,观测到当前样本数据的概率)
单侧检验、双侧检验:区别在于关注被测量的参数大于(或小于)某个值,还是关注被测量的参数与某个值有很大不同
t 检验
如果不知道方差的任何信息,则需要通过计算样本方差 来估算方差
s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 s^2=\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar x)^2 s 2 = n − 1 1 ∑ i = 1 n ( x i − x ˉ ) 2
与常规方差相比,这里的分母是 n-1。(当只有 1 条样本时,实际上是无法估算方差的)
t 检验统计量:t = x ˉ − μ s 2 / n ∼ t n − 1 t=\frac{\bar x - \mu}{\sqrt{s^2/n}} \sim t_{n-1} t = s 2 / n x ˉ − μ ∼ t n − 1 ,服从 n-1 阶的 t 分布。(对应地需要根据 t 分布去计算 p 值;t 分布阶数越多,越逼近正态分布)