banner
Arbre

Arbre

do something...

一文精通概率论

一文精通系列的第 1 篇文章。本系列目的是尽量简洁清晰地介绍对一整块事情的理解,便于回顾。
更新记录:
2025.01.05 完成 v1.0 版(整理了普林斯顿概率论读本的一些重要概念和结论)

前置知识#

等差数列求和:Sn=a1+a2+...an=n(a1+an)2S_n = a_1+a_2+...a_n=\frac{n*(a_1+a_n)}{2}
等比数列求和:Sn=1+r+r2+r3+...+rn=1rn+11rS_n = 1+r+r^2+r^3+...+r^n=\frac{1-r^{n+1}}{1-r}

排列数:Anm=n!(nm)!A_n^m = \frac{n!}{(n-m)!}
组合数:Cnm=n!m!(nm)!C_n^m = \frac{n!}{m!(n-m)!}

原函数:

  1. 如果F(x)=f(x)F'(x)=f(x),则称 F 是 f 的一个原函数,或者 f 的一个 (不定)积分
  2. 原函数不唯一,同一个 f 的不同原函数,一定相差一个常数

微积分基本定理:设 f 是一个分段连续函数,F 是 f 的任意一个原函数。那么abf(x)dx=F(b)F(a)\int_a^bf(x)dx=F(b)-F(a)
在曲线 y=f (x) 下方、介于 x=a 和 x=b 之间的面积就等于,f 的原函数在 b 处的值减去 f 在原函数在 a 处的值。

泰勒级数:如果 f 是 n 次可微分的,那么 f 在 a 点处的 n 阶泰勒级数就是
Tn(x):=k=0nf(k)(a)k!(xa)kT_n(x) := \sum_{k=0}^n \frac{f^{(k)}(a)}{k!}(x-a)^k
原点 (a=0) 处的泰勒级数,又称作麦克劳林级数。

基本概率定理#

条件概率:Pr(AB)=Pr(AB)Pr(B)Pr(A|B) = \frac{Pr(A \cap B)}{Pr(B)}
独立性:如果事件 A 和 B 满足Pr(AB)=Pr(A)Pr(B)Pr(A \cap B) = Pr(A) * Pr(B),则 A 和 B 独立
可交换性:Pr(AB)=Pr(BA)Pr(A\cap B) = Pr(B\cap A)
全概率公式:如果{B1,B2,...}\{B_1, B_2, ...\}构成了样本空间 S 的一个划分(分成了至多可数个部分),那么对于任意ASA \subset S,有Pr(A)=nPr(ABn)Pr(Bn)Pr(A) = \sum_n Pr(A|B_n) \cdot Pr(B_n)
贝叶斯定理:设{Ai}i=1n\{A_i\}_{i=1} ^ n是样本空间的一个划分,那么Pr(AB)=Pr(BA)Pr(A)i=1nPr(BAi)Pr(Ai)Pr(A|B) = \frac {Pr(B|A) \cdot Pr(A)}{\sum_{i=1}^n Pr(B|A_i) \cdot Pr(A_i)}。(条件概率的基础上,分子用可交换性 + 条件概率做变换,分母是全概率公式)

随机变量#

离散型随机变量

  1. 概率密度函数 (PDF):fX(x)=Prob(wΩ:X(w)=x)f_X(x)=Prob(w \in \Omega: X(w)=x)
  2. 累计分布函数 (CDF):FX(x)=Prob(wΩ:X(w)x)F_X(x)=Prob(w \in \Omega: X(w) \leq x)

连续型随机变量

  1. 设 X 是一个随机变量,如果存在一个实值函数fXf_X满足:fXf_X是一个分段连续函数、fX(x)0f_X(x)\geq0+fX(t)dt=1\int_{-\infty}^{+\infty}f_X(t)dt=1,那么 X 是一个连续型随机变量,fXf_X是 X 的概率密度函数。
  2. 累计分布函数 (CDF):FX(x)=Prob(Xx)=xfX(t)dtF_X(x)=Prob(X \leq x)=\int_{-\infty}^xf_X(t)dt

期望值:设 X 是定义在 R 上的随机变量,它的概率密度函数是fXf_X,函数g(X)g(X)的期望值是

E[g(X)]={+g(x)fX(x)dxX连续ng(xn)fX(xn)X离散E[g(X)] = \begin{cases} \int_{-\infty}^{+\infty}g(x)*f_X(x)dx & 若X连续 \\ \sum_n g(x_n) * f_X(x_n) & 若X离散 \end{cases}

如果g(x)=xrg(x)=x^rE[Xr]E[X^r]称为 X 的r 阶矩,把E[(XE[X])r]E[(X-E[X])^r]称为 X 的r 阶中心矩
(为什么要关心矩:和知道的泰勒系数越多,对函数逼近越好类似。知道更多的能更好地理解概率密度函数的形状的性质)

  1. X 的均值(平均值、期望值,记作μ\mu)是一阶矩
    E[X]=μ=+xfX(x)dxE[X]=\mu=\int_{-\infty}^{+\infty} x * f_X(x)dx
  2. X 的方差(记作σX2\sigma_X^2Var(X)Var(X))是二阶中心矩g(X)=(XμX)2g(X)=(X-\mu_X)^2的期望值。
    E[(XE[X])2]=E[X2]E[X]2=σX2=+(xμX)2fX(x)dxE[(X-E[X])^2]=E[X^2]-E[X]^2=\sigma_X^2=\int_{-\infty}^{+\infty} (x-\mu_X)^2 * f_X(x)dx
  3. 标准差是方差的平方根,σX=σX2\sigma_X=\sqrt{\sigma_X^2}

设 X、Y、Z 都是连续型随机变量,
联合概率密度函数Prob((X,Y,Z)S)=SfX,Y,Z(x,y,z)dxdydzProb((X,Y,Z)\in S) = \iiint_S f_{X,Y,Z}(x,y,z)dx\,dy\,dz
X 的边缘概率密度函数:fX(x)=y=+z=+fX,Y,Z(x,y,z)dydzf_X(x) = \int_{y=-\infty}^{+\infty} \int_{z=-\infty}^{+\infty} f_{X,Y,Z}(x,y,z) dy\,dz

期望的性质:

  1. 和的期望等于期望的和:E[a1g1(X1)+a2g2(X2)]=a1E[g1(X1)]+a2E[g2(X2)]E[a_1g_1(X_1)+a_2g_2(X_2)]=a_1E[g_1(X_1)] + a_2E[g_2(X_2)]
  2. 设 X 是一个随机变量,均值为μX\mu_X,方差为σX2\sigma_X^2。那么随机变量Y=aX+bY=aX+b的均值方差分别为:μY=aμX+b\mu_Y=a*\mu_X+bσY2=a2σX2\sigma_Y^2=a^2\sigma_X^2
  3. 设 X 是一个随机变量,那么 σX2=E[X2]E[X]2\sigma_X^2=E[X^2]-E[X]^2

均值和方差的性质:

  1. 如果 X 和 Y 是相互独立的随机变量,那么E[XY]=E[X]E[Y]E[XY]=E[X]E[Y],并且E[(XμX)(YμY)]=E[XμX]E[YμY]=0E[(X-\mu_X)(Y-\mu_Y)]=E[X-\mu_X]E[Y-\mu_Y]=0
  2. 随机变量之和的均值和方差:设X1,X2,...,XnX_1,X_2,...,X_n是 n 个随机变量,他们的均值分别为μX1,μX2,...,μXn\mu_{X_1},\mu_{X_2},...,\mu_{X_n},方差是σX12,σX22,...,σXn2\sigma^2_{X_1},\sigma^2_{X_2},...,\sigma^2_{X_n}
    X=X1+X2+...+XnX=X_1+X_2+...+X_n,那么 X 的均值为μX=μX1+μX2+...+μXn\mu_X=\mu_{X_1}+\mu_{X_2}+...+\mu_{X_n}
    随机变量之间相互独立时,σX2=σX12+σX22+...+σXn2\sigma_X^2=\sigma^2_{X_1}+\sigma^2_{X_2}+...+\sigma^2_{X_n}
  3. 协方差σXY=Cov(X,Y)=E[(XμX)(YμY)]=E[XY]μXμY\sigma_{XY}=Cov(X,Y)=E[(X-\mu_X)(Y-\mu_Y)]=E[XY]-\mu_X\mu_Y
    相互独立的两个随机变量协方差为 0,但是协方差为 0 不代表独立(eg, X 是一个均值为 0 的对称分布随机变量,Y=X2Y=X^2
    如果X=X1+X2+...+XnX=X_1+X_2+...+X_n,那么Var(X)=i=1nVar(Xi)+21i<jnCov(Xi,Xj)Var(X)=\sum_{i=1}^nVar(X_i)+2\sum_{1\leq i \lt j \leq n }Cov(X_i, X_j)
  4. 相关系数(本质是对协方差的标准化):ρ=Cov(X,Y)σXσY\rho=\frac{Cov(X,Y)}{\sigma_X \sigma_Y}
    协方差 / 相关系数,描述的是两个变量之间的线性相关性

特殊分布#

名称概率密度函数均值μ\mu方差 σ2\sigma^2备注
伯努利分布 XBern(p)X \sim Bern(p)Prob(X=x)={p如果x=11p如果x=0Prob(X=x)=\begin{cases} p & 如果x=1 \\ 1-p & 如果x=0 \end{cases}pp(1-p)
二项分布 XBin(n,p)X \sim Bin(n,p)Prob(X=k)={Cnkpk(1p)nk如果k{0,1,...n}0其他Prob(X=k)=\begin{cases} C_n^kp^k(1-p)^{n-k} & 如果k \in \{0,1,...n\} \\ 0 & 其他 \end{cases}npnp(1-p)n 枚独立硬币,正面的次数
几何分布 XGeom(p)X \sim Geom(p)Prob(X=n)={p(1p)n1如果n{0,1,...n}0其他Prob(X=n)=\begin{cases} p(1-p)^{n-1} & 如果n \in \{0,1,...n\} \\ 0 & 其他 \end{cases}frac1pfrac{1}{p}1pp2\frac{1-p}{p^2}首次抛出正面时,已经完成的试验次数
指数分布 XExp(λ)X \sim Exp(\lambda)fX(x)={1λex/λ如果x00其他f_X(x)=\begin{cases} \frac{1}{\lambda}e^{-x/\lambda} & 如果x \geq 0 \\ 0 & 其他 \end{cases}λ\lambdaλ2\lambda^2
正态分布 XN(μ,σ2)X \sim N(\mu, \sigma^2)fX(x)=12πσe(xμ)22σ2f_X(x) = \frac{1}{\sqrt{2 \pi}\sigma} e^{-\frac{(x-\mu)^2}{2 \sigma^2}}μ\muσ2\sigma^2

生成随机数的累积分布法(逆变换法):设 X 是一个随机变量,它的概率密度函数是fXf_X,累积分布函数是FXF_X。如果 Y 是一个服从 [0,1] 上均匀部分的随机变量,那么X=FX1(Y)X=F^{-1}_X(Y)
(可参考:渲染与采样(1):逆变换采样(Inverse Transform Sampling)— 原理与实际应用 - ZUIcat 的文章 - 知乎

假设检验#

原假设:通常与想证明的结论相反。假定原假设正确,试图用数据来推翻它。
备择假设:想证明的结论。

z 检验

  1. 设 X 是一个服从正态分布的随机变量,且其方差是已知的σ2\sigma^2,并假设其均值为μ\mu
  2. x1,x2,...,xnx_1, x_2, ..., x_n是从该分布中取出的 n 个相互独立的观测值,设xˉ=x1+x2+...+xnn\bar x = \frac{x_1+x_2+...+x_n}{n}是样本均值
  3. 观测到的z 检验统计量z=xˉμσ2/nz=\frac{\bar x - \mu}{\sqrt{\sigma^2/n}}。服从均值为 0,且方差为 1 的正态分布
  4. 根据 z 检验统计量偏离 0 的概率(p 值),如果p<显著性水平αp<显著性水平\alpha,则拒绝原假设。(p 实际在表达在原假设成立的前提下,观测到当前样本数据的概率)
  5. 单侧检验、双侧检验:区别在于关注被测量的参数大于(或小于)某个值,还是关注被测量的参数与某个值有很大不同

t 检验

  1. 如果不知道方差的任何信息,则需要通过计算样本方差来估算方差
    s2=1n1i=1n(xixˉ)2s^2=\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar x)^2
  2. 与常规方差相比,这里的分母是 n-1。(当只有 1 条样本时,实际上是无法估算方差的)
  3. t 检验统计量:t=xˉμs2/ntn1t=\frac{\bar x - \mu}{\sqrt{s^2/n}} \sim t_{n-1},服从 n-1 阶的 t 分布。(对应地需要根据 t 分布去计算 p 值;t 分布阶数越多,越逼近正态分布)
加载中...
此文章数据所有权由区块链加密技术和智能合约保障仅归创作者所有。