banner
Arbre

Arbre

do something...

一文精通確率論

一文精通シリーズの第 1 篇記事。本シリーズの目的は、全体的な事柄の理解をできるだけ簡潔かつ明確に紹介し、振り返りやすくすることです。
更新記録:
2025.01.05 v1.0 版を完成(プリンストン確率論読本のいくつかの重要な概念と結論を整理しました)

前提知識#

等差数列の和:Sn=a1+a2+...an=n(a1+an)2S_n = a_1+a_2+...a_n=\frac{n*(a_1+a_n)}{2}
等比数列の和:Sn=1+r+r2+r3+...+rn=1rn+11rS_n = 1+r+r^2+r^3+...+r^n=\frac{1-r^{n+1}}{1-r}

順列数:Anm=n!(nm)!A_n^m = \frac{n!}{(n-m)!}
組み合わせ数:Cnm=n!m!(nm)!C_n^m = \frac{n!}{m!(n-m)!}

原関数:

  1. もしF(x)=f(x)F'(x)=f(x)であれば、F は f の原関数、または f の **(不定)積分 ** と呼ばれます。
  2. 原関数は一意ではなく、同じ f の異なる原関数は必ず定数の差があります。

微積分基本定理:f が分段連続関数であり、F が f の任意の原関数であるとします。すると、abf(x)dx=F(b)F(a)\int_a^bf(x)dx=F(b)-F(a)
曲線 y=f (x) の下、x=a と x=b の間の面積は、f の原関数が b での値から f の原関数が a での値を引いたものに等しいです。

テイラー級数:もし f が n 回微分可能であれば、f の a 点での n 階テイラー級数は
Tn(x):=k=0nf(k)(a)k!(xa)kT_n(x) := \sum_{k=0}^n \frac{f^{(k)}(a)}{k!}(x-a)^k
原点 (a=0) でのテイラー級数は、マクローリン級数とも呼ばれます。

基本確率定理#

条件付き確率:Pr(AB)=Pr(AB)Pr(B)Pr(A|B) = \frac{Pr(A \cap B)}{Pr(B)}
独立性:もし事象 A と B がPr(AB)=Pr(A)Pr(B)Pr(A \cap B) = Pr(A) * Pr(B)を満たすなら、A と B は独立です。
可換性:Pr(AB)=Pr(BA)Pr(A\cap B) = Pr(B\cap A)
全確率の公式:もし{B1,B2,...}\{B_1, B_2, ...\}がサンプル空間 S の分割を構成する(最大可算の部分に分けられる)なら、任意のASA \subset Sに対してPr(A)=nPr(ABn)Pr(Bn)Pr(A) = \sum_n Pr(A|B_n) \cdot Pr(B_n)が成り立ちます。
ベイズの定理{Ai}i=1n\{A_i\}_{i=1} ^ nがサンプル空間の分割であるとき、Pr(AB)=Pr(BA)Pr(A)i=1nPr(BAi)Pr(Ai)Pr(A|B) = \frac {Pr(B|A) \cdot Pr(A)}{\sum_{i=1}^n Pr(B|A_i) \cdot Pr(A_i)}。(条件付き確率の基礎の上に、分子は可換性 + 条件付き確率で変換し、分母は全確率の公式です)

確率変数#

離散型確率変数

  1. 確率密度関数 (PDF):fX(x)=Prob(wΩ:X(w)=x)f_X(x)=Prob(w \in \Omega: X(w)=x)
  2. 累積分布関数 (CDF):FX(x)=Prob(wΩ:X(w)x)F_X(x)=Prob(w \in \Omega: X(w) \leq x)

連続型確率変数

  1. X が確率変数であり、実数値関数fXf_Xが存在し、fXf_Xが分段連続関数、fX(x)0f_X(x)\geq0+fX(t)dt=1\int_{-\infty}^{+\infty}f_X(t)dt=1を満たすなら、X は連続型確率変数であり、fXf_Xは X の確率密度関数です。
  2. 累積分布関数 (CDF):FX(x)=Prob(Xx)=xfX(t)dtF_X(x)=Prob(X \leq x)=\int_{-\infty}^xf_X(t)dt

期待値:X が R 上で定義された確率変数であり、その確率密度関数がfXf_Xであるとき、関数g(X)g(X)の期待値は

E[g(X)]={+g(x)fX(x)dxもしXが連続ならng(xn)fX(xn)もしXが離散ならE[g(X)] = \begin{cases} \int_{-\infty}^{+\infty}g(x)*f_X(x)dx & もしXが連続なら \\ \sum_n g(x_n) * f_X(x_n) & もしXが離散なら \end{cases}

もしg(x)=xrg(x)=x^rなら、E[Xr]E[X^r]は X のr 階モーメントと呼ばれ、E[(XE[X])r]E[(X-E[X])^r]は X のr 階中心モーメントと呼ばれます。
(なぜモーメントを気にするのか:知られているテイラー係数が多いほど、関数の近似が良くなるのと似ています。より多くを知ることで、確率密度関数の形状の性質をよりよく理解できます)

  1. X の平均(平均値、期待値、記号μ\mu)は一階モーメントです。
    E[X]=μ=+xfX(x)dxE[X]=\mu=\int_{-\infty}^{+\infty} x * f_X(x)dx
  2. X の分散(記号σX2\sigma_X^2またはVar(X)Var(X))は二階中心モーメントであり、g(X)=(XμX)2g(X)=(X-\mu_X)^2の期待値です。
    E[(XE[X])2]=E[X2]E[X]2=σX2=+(xμX)2fX(x)dxE[(X-E[X])^2]=E[X^2]-E[X]^2=\sigma_X^2=\int_{-\infty}^{+\infty} (x-\mu_X)^2 * f_X(x)dx
  3. 標準偏差は分散の平方根であり、σX=σX2\sigma_X=\sqrt{\sigma_X^2}です。

X、Y、Z がすべて連続型確率変数であるとき、
結合確率密度関数Prob((X,Y,Z)S)=SfX,Y,Z(x,y,z)dxdydzProb((X,Y,Z)\in S) = \iiint_S f_{X,Y,Z}(x,y,z)dx\,dy\,dz
X の周辺確率密度関数:fX(x)=y=+z=+fX,Y,Z(x,y,z)dydzf_X(x) = \int_{y=-\infty}^{+\infty} \int_{z=-\infty}^{+\infty} f_{X,Y,Z}(x,y,z) dy\,dz

期待値の性質:

  1. 和の期待値は期待値の和に等しい:E[a1g1(X1)+a2g2(X2)]=a1E[g1(X1)]+a2E[g2(X2)]E[a_1g_1(X_1)+a_2g_2(X_2)]=a_1E[g_1(X_1)] + a_2E[g_2(X_2)]
  2. X が確率変数であり、平均がμX\mu_X、分散がσX2\sigma_X^2であるとき、確率変数Y=aX+bY=aX+bの平均と分散はそれぞれ:μY=aμX+b\mu_Y=a*\mu_X+bおよびσY2=a2σX2\sigma_Y^2=a^2\sigma_X^2です。
  3. X が確率変数であるとき、σX2=E[X2]E[X]2\sigma_X^2=E[X^2]-E[X]^2です。

平均と分散の性質:

  1. X と Y が互いに独立な確率変数である場合、E[XY]=E[X]E[Y]E[XY]=E[X]E[Y]であり、E[(XμX)(YμY)]=E[XμX]E[YμY]=0E[(X-\mu_X)(Y-\mu_Y)]=E[X-\mu_X]E[Y-\mu_Y]=0です。
  2. 確率変数の和の平均と分散X1,X2,...,XnX_1,X_2,...,X_nが n 個の確率変数であり、それぞれの平均がμX1,μX2,...,μXn\mu_{X_1},\mu_{X_2},...,\mu_{X_n}、分散がσX12,σX22,...,σXn2\sigma^2_{X_1},\sigma^2_{X_2},...,\sigma^2_{X_n}であるとします。
    X=X1+X2+...+XnX=X_1+X_2+...+X_nとすると、X の平均はμX=μX1+μX2+...+μXn\mu_X=\mu_{X_1}+\mu_{X_2}+...+\mu_{X_n}です。
    確率変数が互いに独立であるとき、σX2=σX12+σX22+...+σXn2\sigma_X^2=\sigma^2_{X_1}+\sigma^2_{X_2}+...+\sigma^2_{X_n}です。
  3. 共分散σXY=Cov(X,Y)=E[(XμX)(YμY)]=E[XY]μXμY\sigma_{XY}=Cov(X,Y)=E[(X-\mu_X)(Y-\mu_Y)]=E[XY]-\mu_X\mu_Yです。
    互いに独立な二つの確率変数の共分散は 0 ですが、共分散が 0 であることは独立を意味しません(例:X が平均 0 の対称分布の確率変数で、Y=X2Y=X^2)。
    X=X1+X2+...+XnX=X_1+X_2+...+X_nであれば、Var(X)=i=1nVar(Xi)+21i<jnCov(Xi,Xj)Var(X)=\sum_{i=1}^nVar(X_i)+2\sum_{1\leq i \lt j \leq n }Cov(X_i, X_j)です。
  4. 相関係数(本質的には共分散の標準化):ρ=Cov(X,Y)σXσY\rho=\frac{Cov(X,Y)}{\sigma_X \sigma_Y}です。
    共分散 / 相関係数は、二つの変数間の線形相関を表します。

特殊分布#

名称確率密度関数平均μ\mu分散 σ2\sigma^2備考
ベルヌーイ分布 XBern(p)X \sim Bern(p)Prob(X=x)={pもしx=11pもしx=0Prob(X=x)=\begin{cases} p & もしx=1 \\ 1-p & もしx=0 \end{cases}pp(1-p)
二項分布 XBin(n,p)X \sim Bin(n,p)Prob(X=k)={Cnkpk(1p)nkもしk{0,1,...n}0その他Prob(X=k)=\begin{cases} C_n^kp^k(1-p)^{n-k} & もしk \in \{0,1,...n\} \\ 0 & その他 \end{cases}npnp(1-p)n 枚の独立したコインの表の回数
幾何分布 XGeom(p)X \sim Geom(p)Prob(X=n)={p(1p)n1もしn{0,1,...n}0その他Prob(X=n)=\begin{cases} p(1-p)^{n-1} & もしn \in \{0,1,...n\} \\ 0 & その他 \end{cases}1p\frac{1}{p}1pp2\frac{1-p}{p^2}初めて表が出るまでの試行回数
指数分布 XExp(λ)X \sim Exp(\lambda)fX(x)={1λex/λもしx00その他f_X(x)=\begin{cases} \frac{1}{\lambda}e^{-x/\lambda} & もしx \geq 0 \\ 0 & その他 \end{cases}λ\lambdaλ2\lambda^2
正規分布 XN(μ,σ2)X \sim N(\mu, \sigma^2)fX(x)=12πσe(xμ)22σ2f_X(x) = \frac{1}{\sqrt{2 \pi}\sigma} e^{-\frac{(x-\mu)^2}{2 \sigma^2}}μ\muσ2\sigma^2

乱数生成の累積分布法(逆変換法):X が確率変数であり、その確率密度関数がfXf_X、累積分布関数がFXF_Xであるとき、Y が [0,1] 上の一様分布の確率変数であれば、X=FX1(Y)X=F^{-1}_X(Y)です。
(参考:レンダリングとサンプリング(1):逆変換サンプリング(Inverse Transform Sampling)— 原理と実際の応用 - ZUIcat の文章 - 知乎

仮説検定#

帰無仮説:通常、証明したい結論とは逆のものです。帰無仮説が正しいと仮定し、データを用いてそれを覆そうとします。
対立仮説:証明したい結論です。

z 検定

  1. X が正規分布に従う確率変数であり、その分散が既知のσ2\sigma^2で、平均がμ\muであるとします。
  2. x1,x2,...,xnx_1, x_2, ..., x_nがその分布から取られた n 個の互いに独立な観測値であり、xˉ=x1+x2+...+xnn\bar x = \frac{x_1+x_2+...+x_n}{n}がサンプル平均です。
  3. 観測されたz 検定統計量z=xˉμσ2/nz=\frac{\bar x - \mu}{\sqrt{\sigma^2/n}}。平均 0、分散 1 の正規分布に従います。
  4. z 検定統計量が 0 からどれだけ偏っているかの確率(p 値)に基づき、もしp<有意水準αp<有意水準\alphaであれば、帰無仮説を棄却します。(p は実際には帰無仮説が成立する前提の下で、現在のサンプルデータが観測される確率を表します)
  5. 一側検定、両側検定:測定されるパラメータがある値より大きい(または小さい)か、測定されるパラメータがある値と大きく異なるかに注目するかの違いです。

t 検定

  1. 分散に関する情報が全くわからない場合、サンプル分散を計算して分散を推定する必要があります。
    s2=1n1i=1n(xixˉ)2s^2=\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar x)^2
  2. 通常の分散と比較して、ここでの分母は n-1 です。(サンプルが 1 つだけの場合、実際には分散を推定することはできません)
  3. t 検定統計量:t=xˉμs2/ntn1t=\frac{\bar x - \mu}{\sqrt{s^2/n}} \sim t_{n-1}、n-1 階の t 分布に従います。(対応して p 値を計算するために t 分布を使用する必要があります;t 分布の階数が多いほど、正規分布に近づきます)
読み込み中...
文章は、創作者によって署名され、ブロックチェーンに安全に保存されています。