一文精通系列的第 1 篇文章。本系列目的是尽量简洁清晰地介紹對一整塊事情的理解,便於回顧。
更新記錄:
2025.01.05 完成 v1.0 版(整理了普林斯頓概率論讀本的一些重要概念和結論)
前置知識#
等差數列求和:S n = a 1 + a 2 + . . . a n = n ∗ ( a 1 + a n ) 2 S_n = a_1+a_2+...a_n=\frac{n*(a_1+a_n)}{2} S n = a 1 + a 2 + ... a n = 2 n ∗ ( a 1 + a n )
等比數列求和:S n = 1 + r + r 2 + r 3 + . . . + r n = 1 − r n + 1 1 − r S_n = 1+r+r^2+r^3+...+r^n=\frac{1-r^{n+1}}{1-r} S n = 1 + r + r 2 + r 3 + ... + r n = 1 − r 1 − r n + 1
排列數:A n m = n ! ( n − m ) ! A_n^m = \frac{n!}{(n-m)!} A n m = ( n − m )! n !
組合數:C n m = n ! m ! ( n − m ) ! C_n^m = \frac{n!}{m!(n-m)!} C n m = m ! ( n − m )! n !
原函數:
如果F ′ ( x ) = f ( x ) F'(x)=f(x) F ′ ( x ) = f ( x ) ,則稱 F 是 f 的一個原函數 ,或者 f 的一個 (不定)積分
原函數不唯一,同一個 f 的不同原函數,一定相差一個常數
微積分基本定理 :設 f 是一個分段連續函數,F 是 f 的任意一個原函數。那麼∫ a b f ( x ) d x = F ( b ) − F ( a ) \int_a^bf(x)dx=F(b)-F(a) ∫ a b f ( x ) d x = F ( b ) − F ( a ) 。
在曲線 y=f (x) 下方、介於 x=a 和 x=b 之間的面積就等於,f 的原函數在 b 處的值減去 f 在原函數在 a 處的值。
泰勒級數:如果 f 是 n 次可微分的,那麼 f 在 a 點處的 n 階泰勒級數就是
T n ( x ) : = ∑ k = 0 n f ( k ) ( a ) k ! ( x − a ) k T_n(x) := \sum_{k=0}^n \frac{f^{(k)}(a)}{k!}(x-a)^k T n ( x ) := ∑ k = 0 n k ! f ( k ) ( a ) ( x − a ) k
原點 (a=0) 處的泰勒級數,又稱作麥克勞林級數。
基本概率定理#
條件概率:P r ( A ∣ B ) = P r ( A ∩ B ) P r ( B ) Pr(A|B) = \frac{Pr(A \cap B)}{Pr(B)} P r ( A ∣ B ) = P r ( B ) P r ( A ∩ B )
獨立性:如果事件 A 和 B 滿足P r ( A ∩ B ) = P r ( A ) ∗ P r ( B ) Pr(A \cap B) = Pr(A) * Pr(B) P r ( A ∩ B ) = P r ( A ) ∗ P r ( B ) ,則 A 和 B 獨立
可交換性:P r ( A ∩ B ) = P r ( B ∩ A ) Pr(A\cap B) = Pr(B\cap A) P r ( A ∩ B ) = P r ( B ∩ A )
全概率公式:如果{ B 1 , B 2 , . . . } \{B_1, B_2, ...\} { B 1 , B 2 , ... } 構成了樣本空間 S 的一個劃分(分成了至多可數個部分),那麼對於任意A ⊂ S A \subset S A ⊂ S ,有P r ( A ) = ∑ n P r ( A ∣ B n ) ⋅ P r ( B n ) Pr(A) = \sum_n Pr(A|B_n) \cdot Pr(B_n) P r ( A ) = ∑ n P r ( A ∣ B n ) ⋅ P r ( B n )
貝葉斯定理 :設{ A i } i = 1 n \{A_i\}_{i=1} ^ n { A i } i = 1 n 是樣本空間的一個劃分,那麼P r ( A ∣ B ) = P r ( B ∣ A ) ⋅ P r ( A ) ∑ i = 1 n P r ( B ∣ A i ) ⋅ P r ( A i ) Pr(A|B) = \frac {Pr(B|A) \cdot Pr(A)}{\sum_{i=1}^n Pr(B|A_i) \cdot Pr(A_i)} P r ( A ∣ B ) = ∑ i = 1 n P r ( B ∣ A i ) ⋅ P r ( A i ) P r ( B ∣ A ) ⋅ P r ( A ) 。(條件概率的基礎上,分子用可交換性 + 條件概率做變換,分母是全概率公式)
隨機變量#
離散型隨機變量
概率密度函數 (PDF):f X ( x ) = P r o b ( w ∈ Ω : X ( w ) = x ) f_X(x)=Prob(w \in \Omega: X(w)=x) f X ( x ) = P ro b ( w ∈ Ω : X ( w ) = x )
累計分布函數 (CDF):F X ( x ) = P r o b ( w ∈ Ω : X ( w ) ≤ x ) F_X(x)=Prob(w \in \Omega: X(w) \leq x) F X ( x ) = P ro b ( w ∈ Ω : X ( w ) ≤ x )
連續型隨機變量
設 X 是一個隨機變量,如果存在一個實值函數f X f_X f X 滿足:f X f_X f X 是一個分段連續函數、f X ( x ) ≥ 0 f_X(x)\geq0 f X ( x ) ≥ 0 、∫ − ∞ + ∞ f X ( t ) d t = 1 \int_{-\infty}^{+\infty}f_X(t)dt=1 ∫ − ∞ + ∞ f X ( t ) d t = 1 ,那麼 X 是一個連續型隨機變量,f X f_X f X 是 X 的概率密度函數。
累計分布函數 (CDF):F X ( x ) = P r o b ( X ≤ x ) = ∫ − ∞ x f X ( t ) d t F_X(x)=Prob(X \leq x)=\int_{-\infty}^xf_X(t)dt F X ( x ) = P ro b ( X ≤ x ) = ∫ − ∞ x f X ( t ) d t
期望值 :設 X 是定義在 R 上的隨機變量,它的概率密度函數是f X f_X f X ,函數g ( X ) g(X) g ( X ) 的期望值是
Copy E [ g ( X ) ] = { ∫ − ∞ + ∞ g ( x ) ∗ f X ( x ) d x 若 X 連續 ∑ n g ( x n ) ∗ f X ( x n ) 若 X 離散 E[g(X)] =
\begin{cases}
\int_{-\infty}^{+\infty}g(x)*f_X(x)dx & 若X連續 \\
\sum_n g(x_n) * f_X(x_n) & 若X離散
\end{cases} E [ g ( X )] = { ∫ − ∞ + ∞ g ( x ) ∗ f X ( x ) d x ∑ n g ( x n ) ∗ f X ( x n ) 若 X 連續 若 X 離散
如果g ( x ) = x r g(x)=x^r g ( x ) = x r ,E [ X r ] E[X^r] E [ X r ] 稱為 X 的r 階矩 ,把E [ ( X − E [ X ] ) r ] E[(X-E[X])^r] E [( X − E [ X ] ) r ] 稱為 X 的r 階中心矩
(為什麼要關心矩:和知道的泰勒係數越多,對函數逼近越好類似。知道更多的能更好地理解概率密度函數的形狀的性質)
X 的均值 (平均值、期望值,記作μ \mu μ )是一階矩
E [ X ] = μ = ∫ − ∞ + ∞ x ∗ f X ( x ) d x E[X]=\mu=\int_{-\infty}^{+\infty} x * f_X(x)dx E [ X ] = μ = ∫ − ∞ + ∞ x ∗ f X ( x ) d x
X 的方差 (記作σ X 2 \sigma_X^2 σ X 2 或V a r ( X ) Var(X) Va r ( X ) )是二階中心矩 ,g ( X ) = ( X − μ X ) 2 g(X)=(X-\mu_X)^2 g ( X ) = ( X − μ X ) 2 的期望值。
E [ ( X − E [ X ] ) 2 ] = E [ X 2 ] − E [ X ] 2 = σ X 2 = ∫ − ∞ + ∞ ( x − μ X ) 2 ∗ f X ( x ) d x E[(X-E[X])^2]=E[X^2]-E[X]^2=\sigma_X^2=\int_{-\infty}^{+\infty} (x-\mu_X)^2 * f_X(x)dx E [( X − E [ X ] ) 2 ] = E [ X 2 ] − E [ X ] 2 = σ X 2 = ∫ − ∞ + ∞ ( x − μ X ) 2 ∗ f X ( x ) d x
標準差 是方差的平方根,σ X = σ X 2 \sigma_X=\sqrt{\sigma_X^2} σ X = σ X 2
設 X、Y、Z 都是連續型隨機變量,
聯合概率密度函數 :P r o b ( ( X , Y , Z ) ∈ S ) = ∭ S f X , Y , Z ( x , y , z ) d x d y d z Prob((X,Y,Z)\in S) = \iiint_S f_{X,Y,Z}(x,y,z)dx\,dy\,dz P ro b (( X , Y , Z ) ∈ S ) = ∭ S f X , Y , Z ( x , y , z ) d x d y d z
X 的邊緣概率密度函數:f X ( x ) = ∫ y = − ∞ + ∞ ∫ z = − ∞ + ∞ f X , Y , Z ( x , y , z ) d y d z f_X(x) = \int_{y=-\infty}^{+\infty} \int_{z=-\infty}^{+\infty} f_{X,Y,Z}(x,y,z) dy\,dz f X ( x ) = ∫ y = − ∞ + ∞ ∫ z = − ∞ + ∞ f X , Y , Z ( x , y , z ) d y d z
期望的性質:
和的期望等於期望的和:E [ a 1 g 1 ( X 1 ) + a 2 g 2 ( X 2 ) ] = a 1 E [ g 1 ( X 1 ) ] + a 2 E [ g 2 ( X 2 ) ] E[a_1g_1(X_1)+a_2g_2(X_2)]=a_1E[g_1(X_1)] + a_2E[g_2(X_2)] E [ a 1 g 1 ( X 1 ) + a 2 g 2 ( X 2 )] = a 1 E [ g 1 ( X 1 )] + a 2 E [ g 2 ( X 2 )]
設 X 是一個隨機變量,均值為μ X \mu_X μ X ,方差為σ X 2 \sigma_X^2 σ X 2 。那麼隨機變量Y = a X + b Y=aX+b Y = a X + b 的均值方差分別為:μ Y = a ∗ μ X + b \mu_Y=a*\mu_X+b μ Y = a ∗ μ X + b 和σ Y 2 = a 2 σ X 2 \sigma_Y^2=a^2\sigma_X^2 σ Y 2 = a 2 σ X 2
設 X 是一個隨機變量,那麼 σ X 2 = E [ X 2 ] − E [ X ] 2 \sigma_X^2=E[X^2]-E[X]^2 σ X 2 = E [ X 2 ] − E [ X ] 2
均值和方差的性質:
如果 X 和 Y 是相互獨立的隨機變量,那麼E [ X Y ] = E [ X ] E [ Y ] E[XY]=E[X]E[Y] E [ X Y ] = E [ X ] E [ Y ] ,並且E [ ( X − μ X ) ( Y − μ Y ) ] = E [ X − μ X ] E [ Y − μ Y ] = 0 E[(X-\mu_X)(Y-\mu_Y)]=E[X-\mu_X]E[Y-\mu_Y]=0 E [( X − μ X ) ( Y − μ Y )] = E [ X − μ X ] E [ Y − μ Y ] = 0
隨機變量之和的均值和方差 :設X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X 1 , X 2 , ... , X n 是 n 個隨機變量,他們的均值分別為μ X 1 , μ X 2 , . . . , μ X n \mu_{X_1},\mu_{X_2},...,\mu_{X_n} μ X 1 , μ X 2 , ... , μ X n ,方差是σ X 1 2 , σ X 2 2 , . . . , σ X n 2 \sigma^2_{X_1},\sigma^2_{X_2},...,\sigma^2_{X_n} σ X 1 2 , σ X 2 2 , ... , σ X n 2 。
設X = X 1 + X 2 + . . . + X n X=X_1+X_2+...+X_n X = X 1 + X 2 + ... + X n ,那麼 X 的均值為μ X = μ X 1 + μ X 2 + . . . + μ X n \mu_X=\mu_{X_1}+\mu_{X_2}+...+\mu_{X_n} μ X = μ X 1 + μ X 2 + ... + μ X n
當隨機變量之間相互獨立 時,σ X 2 = σ X 1 2 + σ X 2 2 + . . . + σ X n 2 \sigma_X^2=\sigma^2_{X_1}+\sigma^2_{X_2}+...+\sigma^2_{X_n} σ X 2 = σ X 1 2 + σ X 2 2 + ... + σ X n 2
協方差 :σ X Y = C o v ( X , Y ) = E [ ( X − μ X ) ( Y − μ Y ) ] = E [ X Y ] − μ X μ Y \sigma_{XY}=Cov(X,Y)=E[(X-\mu_X)(Y-\mu_Y)]=E[XY]-\mu_X\mu_Y σ X Y = C o v ( X , Y ) = E [( X − μ X ) ( Y − μ Y )] = E [ X Y ] − μ X μ Y
相互獨立的兩個隨機變量協方差為 0,但是協方差為 0 不代表獨立(eg, X 是一個均值為 0 的對稱分佈隨機變量,Y = X 2 Y=X^2 Y = X 2 )
如果X = X 1 + X 2 + . . . + X n X=X_1+X_2+...+X_n X = X 1 + X 2 + ... + X n ,那麼V a r ( X ) = ∑ i = 1 n V a r ( X i ) + 2 ∑ 1 ≤ i < j ≤ n C o v ( X i , X j ) Var(X)=\sum_{i=1}^nVar(X_i)+2\sum_{1\leq i \lt j \leq n }Cov(X_i, X_j) Va r ( X ) = ∑ i = 1 n Va r ( X i ) + 2 ∑ 1 ≤ i < j ≤ n C o v ( X i , X j )
相關係數 (本質是對協方差的標準化):ρ = C o v ( X , Y ) σ X σ Y \rho=\frac{Cov(X,Y)}{\sigma_X \sigma_Y} ρ = σ X σ Y C o v ( X , Y )
協方差 / 相關係數,描述的是兩個變量之間的線性相關性
特殊分佈#
名稱 概率密度函數 均值μ \mu μ 方差 σ 2 \sigma^2 σ 2 備註 伯努利分佈 X ∼ B e r n ( p ) X \sim Bern(p) X ∼ B er n ( p ) P r o b ( X = x ) = { p 如果 x = 1 1 − p 如果 x = 0 Prob(X=x)=\begin{cases} p & 如果x=1 \\ 1-p & 如果x=0 \end{cases} P ro b ( X = x ) = { p 1 − p 如果 x = 1 如果 x = 0 p p(1-p) 二項分佈 X ∼ B i n ( n , p ) X \sim Bin(n,p) X ∼ B in ( n , p ) P r o b ( X = k ) = { C n k p k ( 1 − p ) n − k 如果 k ∈ { 0 , 1 , . . . n } 0 其他 Prob(X=k)=\begin{cases} C_n^kp^k(1-p)^{n-k} & 如果k \in \{0,1,...n\} \\ 0 & 其他 \end{cases} P ro b ( X = k ) = { C n k p k ( 1 − p ) n − k 0 如果 k ∈ { 0 , 1 , ... n } 其他 np np(1-p) n 枚獨立硬幣,正面的次數 幾何分佈 X ∼ G e o m ( p ) X \sim Geom(p) X ∼ G eo m ( p ) P r o b ( X = n ) = { p ( 1 − p ) n − 1 如果 n ∈ { 0 , 1 , . . . n } 0 其他 Prob(X=n)=\begin{cases} p(1-p)^{n-1} & 如果n \in \{0,1,...n\} \\ 0 & 其他 \end{cases} P ro b ( X = n ) = { p ( 1 − p ) n − 1 0 如果 n ∈ { 0 , 1 , ... n } 其他 1 p \frac{1}{p} p 1 1 − p p 2 \frac{1-p}{p^2} p 2 1 − p 首次拋出正面時,已經完成的試驗次數 指數分佈 X ∼ E x p ( λ ) X \sim Exp(\lambda) X ∼ E x p ( λ ) f X ( x ) = { 1 λ e − x / λ 如果 x ≥ 0 0 其他 f_X(x)=\begin{cases} \frac{1}{\lambda}e^{-x/\lambda} & 如果x \geq 0 \\ 0 & 其他 \end{cases} f X ( x ) = { λ 1 e − x / λ 0 如果 x ≥ 0 其他 λ \lambda λ λ 2 \lambda^2 λ 2 正態分佈 X ∼ N ( μ , σ 2 ) X \sim N(\mu, \sigma^2) X ∼ N ( μ , σ 2 ) f X ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 f_X(x) = \frac{1}{\sqrt{2 \pi}\sigma} e^{-\frac{(x-\mu)^2}{2 \sigma^2}} f X ( x ) = 2 π σ 1 e − 2 σ 2 ( x − μ ) 2 μ \mu μ σ 2 \sigma^2 σ 2
生成隨機數的累積分布法(逆變換法) :設 X 是一個隨機變量,它的概率密度函數是f X f_X f X ,累積分布函數是F X F_X F X 。如果 Y 是一個服從 [0,1] 上均勻部分的隨機變量,那麼X = F X − 1 ( Y ) X=F^{-1}_X(Y) X = F X − 1 ( Y )
(可參考:渲染與採樣(1):逆變換採樣(Inverse Transform Sampling)— 原理與實際應用 - ZUIcat 的文章 - 知乎 )
假設檢驗#
原假設 :通常與想證明的結論相反。假定原假設正確,試圖用數據來推翻它。
備擇假設 :想證明的結論。
z 檢驗
設 X 是一個服從正態分佈的隨機變量,且其方差是已知的 σ 2 \sigma^2 σ 2 ,並假設其均值為μ \mu μ
設x 1 , x 2 , . . . , x n x_1, x_2, ..., x_n x 1 , x 2 , ... , x n 是從該分佈中取出的 n 個相互獨立的觀測值,設x ˉ = x 1 + x 2 + . . . + x n n \bar x = \frac{x_1+x_2+...+x_n}{n} x ˉ = n x 1 + x 2 + ... + x n 是樣本均值
觀測到的z 檢驗統計量 :z = x ˉ − μ σ 2 / n z=\frac{\bar x - \mu}{\sqrt{\sigma^2/n}} z = σ 2 / n x ˉ − μ 。服從均值為 0,且方差為 1 的正態分佈
根據 z 檢驗統計量偏離 0 的概率(p 值 ),如果p < 顯著性水平 α p<顯著性水平\alpha p < 顯著性水平 α ,則拒絕原假設。(p 實際在表達在原假設成立的前提下,觀測到當前樣本數據的概率)
單側檢驗、雙側檢驗:區別在於關注被測量的參數大於(或小於)某個值,還是關注被測量的參數與某個值有很大不同
t 檢驗
如果不知道方差的任何信息,則需要通過計算樣本方差 來估算方差
s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 s^2=\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar x)^2 s 2 = n − 1 1 ∑ i = 1 n ( x i − x ˉ ) 2
與常規方差相比,這裡的分母是 n-1。(當只有 1 條樣本時,實際上是無法估算方差的)
t 檢驗統計量:t = x ˉ − μ s 2 / n ∼ t n − 1 t=\frac{\bar x - \mu}{\sqrt{s^2/n}} \sim t_{n-1} t = s 2 / n x ˉ − μ ∼ t n − 1 ,服從 n-1 階的 t 分佈。(對應地需要根據 t 分佈去計算 p 值;t 分佈階數越多,越逼近正態分佈)