banner
Arbre

Arbre

do something...

一文精通概率論

一文精通系列的第 1 篇文章。本系列目的是尽量简洁清晰地介紹對一整塊事情的理解,便於回顧。
更新記錄:
2025.01.05 完成 v1.0 版(整理了普林斯頓概率論讀本的一些重要概念和結論)

前置知識#

等差數列求和:Sn=a1+a2+...an=n(a1+an)2S_n = a_1+a_2+...a_n=\frac{n*(a_1+a_n)}{2}
等比數列求和:Sn=1+r+r2+r3+...+rn=1rn+11rS_n = 1+r+r^2+r^3+...+r^n=\frac{1-r^{n+1}}{1-r}

排列數:Anm=n!(nm)!A_n^m = \frac{n!}{(n-m)!}
組合數:Cnm=n!m!(nm)!C_n^m = \frac{n!}{m!(n-m)!}

原函數:

  1. 如果F(x)=f(x)F'(x)=f(x),則稱 F 是 f 的一個原函數,或者 f 的一個 (不定)積分
  2. 原函數不唯一,同一個 f 的不同原函數,一定相差一個常數

微積分基本定理:設 f 是一個分段連續函數,F 是 f 的任意一個原函數。那麼abf(x)dx=F(b)F(a)\int_a^bf(x)dx=F(b)-F(a)
在曲線 y=f (x) 下方、介於 x=a 和 x=b 之間的面積就等於,f 的原函數在 b 處的值減去 f 在原函數在 a 處的值。

泰勒級數:如果 f 是 n 次可微分的,那麼 f 在 a 點處的 n 階泰勒級數就是
Tn(x):=k=0nf(k)(a)k!(xa)kT_n(x) := \sum_{k=0}^n \frac{f^{(k)}(a)}{k!}(x-a)^k
原點 (a=0) 處的泰勒級數,又稱作麥克勞林級數。

基本概率定理#

條件概率:Pr(AB)=Pr(AB)Pr(B)Pr(A|B) = \frac{Pr(A \cap B)}{Pr(B)}
獨立性:如果事件 A 和 B 滿足Pr(AB)=Pr(A)Pr(B)Pr(A \cap B) = Pr(A) * Pr(B),則 A 和 B 獨立
可交換性:Pr(AB)=Pr(BA)Pr(A\cap B) = Pr(B\cap A)
全概率公式:如果{B1,B2,...}\{B_1, B_2, ...\}構成了樣本空間 S 的一個劃分(分成了至多可數個部分),那麼對於任意ASA \subset S,有Pr(A)=nPr(ABn)Pr(Bn)Pr(A) = \sum_n Pr(A|B_n) \cdot Pr(B_n)
貝葉斯定理:設{Ai}i=1n\{A_i\}_{i=1} ^ n是樣本空間的一個劃分,那麼Pr(AB)=Pr(BA)Pr(A)i=1nPr(BAi)Pr(Ai)Pr(A|B) = \frac {Pr(B|A) \cdot Pr(A)}{\sum_{i=1}^n Pr(B|A_i) \cdot Pr(A_i)}。(條件概率的基礎上,分子用可交換性 + 條件概率做變換,分母是全概率公式)

隨機變量#

離散型隨機變量

  1. 概率密度函數 (PDF):fX(x)=Prob(wΩ:X(w)=x)f_X(x)=Prob(w \in \Omega: X(w)=x)
  2. 累計分布函數 (CDF):FX(x)=Prob(wΩ:X(w)x)F_X(x)=Prob(w \in \Omega: X(w) \leq x)

連續型隨機變量

  1. 設 X 是一個隨機變量,如果存在一個實值函數fXf_X滿足:fXf_X是一個分段連續函數、fX(x)0f_X(x)\geq0+fX(t)dt=1\int_{-\infty}^{+\infty}f_X(t)dt=1,那麼 X 是一個連續型隨機變量,fXf_X是 X 的概率密度函數。
  2. 累計分布函數 (CDF):FX(x)=Prob(Xx)=xfX(t)dtF_X(x)=Prob(X \leq x)=\int_{-\infty}^xf_X(t)dt

期望值:設 X 是定義在 R 上的隨機變量,它的概率密度函數是fXf_X,函數g(X)g(X)的期望值是

E[g(X)]={+g(x)fX(x)dxX連續ng(xn)fX(xn)X離散E[g(X)] = \begin{cases} \int_{-\infty}^{+\infty}g(x)*f_X(x)dx & 若X連續 \\ \sum_n g(x_n) * f_X(x_n) & 若X離散 \end{cases}

如果g(x)=xrg(x)=x^rE[Xr]E[X^r]稱為 X 的r 階矩,把E[(XE[X])r]E[(X-E[X])^r]稱為 X 的r 階中心矩
(為什麼要關心矩:和知道的泰勒係數越多,對函數逼近越好類似。知道更多的能更好地理解概率密度函數的形狀的性質)

  1. X 的均值(平均值、期望值,記作μ\mu)是一階矩
    E[X]=μ=+xfX(x)dxE[X]=\mu=\int_{-\infty}^{+\infty} x * f_X(x)dx
  2. X 的方差(記作σX2\sigma_X^2Var(X)Var(X))是二階中心矩g(X)=(XμX)2g(X)=(X-\mu_X)^2的期望值。
    E[(XE[X])2]=E[X2]E[X]2=σX2=+(xμX)2fX(x)dxE[(X-E[X])^2]=E[X^2]-E[X]^2=\sigma_X^2=\int_{-\infty}^{+\infty} (x-\mu_X)^2 * f_X(x)dx
  3. 標準差是方差的平方根,σX=σX2\sigma_X=\sqrt{\sigma_X^2}

設 X、Y、Z 都是連續型隨機變量,
聯合概率密度函數Prob((X,Y,Z)S)=SfX,Y,Z(x,y,z)dxdydzProb((X,Y,Z)\in S) = \iiint_S f_{X,Y,Z}(x,y,z)dx\,dy\,dz
X 的邊緣概率密度函數:fX(x)=y=+z=+fX,Y,Z(x,y,z)dydzf_X(x) = \int_{y=-\infty}^{+\infty} \int_{z=-\infty}^{+\infty} f_{X,Y,Z}(x,y,z) dy\,dz

期望的性質:

  1. 和的期望等於期望的和:E[a1g1(X1)+a2g2(X2)]=a1E[g1(X1)]+a2E[g2(X2)]E[a_1g_1(X_1)+a_2g_2(X_2)]=a_1E[g_1(X_1)] + a_2E[g_2(X_2)]
  2. 設 X 是一個隨機變量,均值為μX\mu_X,方差為σX2\sigma_X^2。那麼隨機變量Y=aX+bY=aX+b的均值方差分別為:μY=aμX+b\mu_Y=a*\mu_X+bσY2=a2σX2\sigma_Y^2=a^2\sigma_X^2
  3. 設 X 是一個隨機變量,那麼 σX2=E[X2]E[X]2\sigma_X^2=E[X^2]-E[X]^2

均值和方差的性質:

  1. 如果 X 和 Y 是相互獨立的隨機變量,那麼E[XY]=E[X]E[Y]E[XY]=E[X]E[Y],並且E[(XμX)(YμY)]=E[XμX]E[YμY]=0E[(X-\mu_X)(Y-\mu_Y)]=E[X-\mu_X]E[Y-\mu_Y]=0
  2. 隨機變量之和的均值和方差:設X1,X2,...,XnX_1,X_2,...,X_n是 n 個隨機變量,他們的均值分別為μX1,μX2,...,μXn\mu_{X_1},\mu_{X_2},...,\mu_{X_n},方差是σX12,σX22,...,σXn2\sigma^2_{X_1},\sigma^2_{X_2},...,\sigma^2_{X_n}
    X=X1+X2+...+XnX=X_1+X_2+...+X_n,那麼 X 的均值為μX=μX1+μX2+...+μXn\mu_X=\mu_{X_1}+\mu_{X_2}+...+\mu_{X_n}
    隨機變量之間相互獨立時,σX2=σX12+σX22+...+σXn2\sigma_X^2=\sigma^2_{X_1}+\sigma^2_{X_2}+...+\sigma^2_{X_n}
  3. 協方差σXY=Cov(X,Y)=E[(XμX)(YμY)]=E[XY]μXμY\sigma_{XY}=Cov(X,Y)=E[(X-\mu_X)(Y-\mu_Y)]=E[XY]-\mu_X\mu_Y
    相互獨立的兩個隨機變量協方差為 0,但是協方差為 0 不代表獨立(eg, X 是一個均值為 0 的對稱分佈隨機變量,Y=X2Y=X^2
    如果X=X1+X2+...+XnX=X_1+X_2+...+X_n,那麼Var(X)=i=1nVar(Xi)+21i<jnCov(Xi,Xj)Var(X)=\sum_{i=1}^nVar(X_i)+2\sum_{1\leq i \lt j \leq n }Cov(X_i, X_j)
  4. 相關係數(本質是對協方差的標準化):ρ=Cov(X,Y)σXσY\rho=\frac{Cov(X,Y)}{\sigma_X \sigma_Y}
    協方差 / 相關係數,描述的是兩個變量之間的線性相關性

特殊分佈#

名稱概率密度函數均值μ\mu方差 σ2\sigma^2備註
伯努利分佈 XBern(p)X \sim Bern(p)Prob(X=x)={p如果x=11p如果x=0Prob(X=x)=\begin{cases} p & 如果x=1 \\ 1-p & 如果x=0 \end{cases}pp(1-p)
二項分佈 XBin(n,p)X \sim Bin(n,p)Prob(X=k)={Cnkpk(1p)nk如果k{0,1,...n}0其他Prob(X=k)=\begin{cases} C_n^kp^k(1-p)^{n-k} & 如果k \in \{0,1,...n\} \\ 0 & 其他 \end{cases}npnp(1-p)n 枚獨立硬幣,正面的次數
幾何分佈 XGeom(p)X \sim Geom(p)Prob(X=n)={p(1p)n1如果n{0,1,...n}0其他Prob(X=n)=\begin{cases} p(1-p)^{n-1} & 如果n \in \{0,1,...n\} \\ 0 & 其他 \end{cases}1p\frac{1}{p}1pp2\frac{1-p}{p^2}首次拋出正面時,已經完成的試驗次數
指數分佈 XExp(λ)X \sim Exp(\lambda)fX(x)={1λex/λ如果x00其他f_X(x)=\begin{cases} \frac{1}{\lambda}e^{-x/\lambda} & 如果x \geq 0 \\ 0 & 其他 \end{cases}λ\lambdaλ2\lambda^2
正態分佈 XN(μ,σ2)X \sim N(\mu, \sigma^2)fX(x)=12πσe(xμ)22σ2f_X(x) = \frac{1}{\sqrt{2 \pi}\sigma} e^{-\frac{(x-\mu)^2}{2 \sigma^2}}μ\muσ2\sigma^2

生成隨機數的累積分布法(逆變換法):設 X 是一個隨機變量,它的概率密度函數是fXf_X,累積分布函數是FXF_X。如果 Y 是一個服從 [0,1] 上均勻部分的隨機變量,那麼X=FX1(Y)X=F^{-1}_X(Y)
(可參考:渲染與採樣(1):逆變換採樣(Inverse Transform Sampling)— 原理與實際應用 - ZUIcat 的文章 - 知乎

假設檢驗#

原假設:通常與想證明的結論相反。假定原假設正確,試圖用數據來推翻它。
備擇假設:想證明的結論。

z 檢驗

  1. 設 X 是一個服從正態分佈的隨機變量,且其方差是已知的σ2\sigma^2,並假設其均值為μ\mu
  2. x1,x2,...,xnx_1, x_2, ..., x_n是從該分佈中取出的 n 個相互獨立的觀測值,設xˉ=x1+x2+...+xnn\bar x = \frac{x_1+x_2+...+x_n}{n}是樣本均值
  3. 觀測到的z 檢驗統計量z=xˉμσ2/nz=\frac{\bar x - \mu}{\sqrt{\sigma^2/n}}。服從均值為 0,且方差為 1 的正態分佈
  4. 根據 z 檢驗統計量偏離 0 的概率(p 值),如果p<顯著性水平αp<顯著性水平\alpha,則拒絕原假設。(p 實際在表達在原假設成立的前提下,觀測到當前樣本數據的概率)
  5. 單側檢驗、雙側檢驗:區別在於關注被測量的參數大於(或小於)某個值,還是關注被測量的參數與某個值有很大不同

t 檢驗

  1. 如果不知道方差的任何信息,則需要通過計算樣本方差來估算方差
    s2=1n1i=1n(xixˉ)2s^2=\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar x)^2
  2. 與常規方差相比,這裡的分母是 n-1。(當只有 1 條樣本時,實際上是無法估算方差的)
  3. t 檢驗統計量:t=xˉμs2/ntn1t=\frac{\bar x - \mu}{\sqrt{s^2/n}} \sim t_{n-1},服從 n-1 階的 t 分佈。(對應地需要根據 t 分佈去計算 p 值;t 分佈階數越多,越逼近正態分佈)
載入中......
此文章數據所有權由區塊鏈加密技術和智能合約保障僅歸創作者所有。