一文精通確率論

一文精通シリーズの第 1 篇記事。本シリーズの目的は、全体的な事柄の理解をできるだけ簡潔かつ明確に紹介し、振り返りやすくすることです。
更新記録：
2025.01.05 v1.0 版を完成（プリンストン確率論読本のいくつかの重要な概念と結論を整理しました）

前提知識#

等差数列の和： $S_n = a_1+a_2+...a_n=\frac{n*(a_1+a_n)}{2}$
等比数列の和： $S_n = 1+r+r^2+r^3+...+r^n=\frac{1-r^{n+1}}{1-r}$

順列数： $A_n^m = \frac{n!}{(n-m)!}$
組み合わせ数： $C_n^m = \frac{n!}{m!(n-m)!}$

原関数：

もし $F'(x)=f(x)$ であれば、F は f の原関数、または f の **（不定）積分 ** と呼ばれます。
原関数は一意ではなく、同じ f の異なる原関数は必ず定数の差があります。

微積分基本定理：f が分段連続関数であり、F が f の任意の原関数であるとします。すると、 $\int_a^bf(x)dx=F(b)-F(a)$ 。
曲線 y=f (x) の下、x=a と x=b の間の面積は、f の原関数が b での値から f の原関数が a での値を引いたものに等しいです。

テイラー級数：もし f が n 回微分可能であれば、f の a 点での n 階テイラー級数は
$T_n(x) := \sum_{k=0}^n \frac{f^{(k)}(a)}{k!}(x-a)^k$
原点 (a=0) でのテイラー級数は、マクローリン級数とも呼ばれます。

基本確率定理#

条件付き確率： $Pr(A|B) = \frac{Pr(A \cap B)}{Pr(B)}$
独立性：もし事象 A と B が $Pr(A \cap B) = Pr(A) * Pr(B)$ を満たすなら、A と B は独立です。
可換性： $Pr(A\cap B) = Pr(B\cap A)$
全確率の公式：もし $\{B_1, B_2, ...\}$ がサンプル空間 S の分割を構成する（最大可算の部分に分けられる）なら、任意の $A \subset S$ に対して $Pr(A) = \sum_n Pr(A|B_n) \cdot Pr(B_n)$ が成り立ちます。
ベイズの定理： $\{A_i\}_{i=1} ^ n$ がサンプル空間の分割であるとき、 $Pr(A|B) = \frac {Pr(B|A) \cdot Pr(A)}{\sum_{i=1}^n Pr(B|A_i) \cdot Pr(A_i)}$ 。（条件付き確率の基礎の上に、分子は可換性 + 条件付き確率で変換し、分母は全確率の公式です）

確率変数#

離散型確率変数

確率密度関数 (PDF)： $f_X(x)=Prob(w \in \Omega: X(w)=x)$
累積分布関数 (CDF)： $F_X(x)=Prob(w \in \Omega: X(w) \leq x)$

連続型確率変数

X が確率変数であり、実数値関数 $f_X$ が存在し、 $f_X$ が分段連続関数、 $f_X(x)\geq0$ 、 $\int_{-\infty}^{+\infty}f_X(t)dt=1$ を満たすなら、X は連続型確率変数であり、 $f_X$ は X の確率密度関数です。
累積分布関数 (CDF)： $F_X(x)=Prob(X \leq x)=\int_{-\infty}^xf_X(t)dt$

期待値：X が R 上で定義された確率変数であり、その確率密度関数が $f_X$ であるとき、関数 $g(X)$ の期待値は

E[g(X)] = \begin{cases} \int_{-\infty}^{+\infty}g(x)*f_X(x)dx & もしXが連続なら \\ \sum_n g(x_n) * f_X(x_n) & もしXが離散なら \end{cases}

もし $g(x)=x^r$ なら、 $E[X^r]$ は X のr 階モーメントと呼ばれ、 $E[(X-E[X])^r]$ は X のr 階中心モーメントと呼ばれます。
（なぜモーメントを気にするのか：知られているテイラー係数が多いほど、関数の近似が良くなるのと似ています。より多くを知ることで、確率密度関数の形状の性質をよりよく理解できます）

X の平均（平均値、期待値、記号 $\mu$ ）は一階モーメントです。
$E[X]=\mu=\int_{-\infty}^{+\infty} x * f_X(x)dx$
X の分散（記号 $\sigma_X^2$ または $Var(X)$ ）は二階中心モーメントであり、 $g(X)=(X-\mu_X)^2$ の期待値です。
$E[(X-E[X])^2]=E[X^2]-E[X]^2=\sigma_X^2=\int_{-\infty}^{+\infty} (x-\mu_X)^2 * f_X(x)dx$
標準偏差は分散の平方根であり、 $\sigma_X=\sqrt{\sigma_X^2}$ です。

X、Y、Z がすべて連続型確率変数であるとき、
結合確率密度関数： $Prob((X,Y,Z)\in S) = \iiint_S f_{X,Y,Z}(x,y,z)dx\,dy\,dz$
X の周辺確率密度関数： $f_X(x) = \int_{y=-\infty}^{+\infty} \int_{z=-\infty}^{+\infty} f_{X,Y,Z}(x,y,z) dy\,dz$

期待値の性質：

和の期待値は期待値の和に等しい： $E[a_1g_1(X_1)+a_2g_2(X_2)]=a_1E[g_1(X_1)] + a_2E[g_2(X_2)]$
X が確率変数であり、平均が $\mu_X$ 、分散が $\sigma_X^2$ であるとき、確率変数 $Y=aX+b$ の平均と分散はそれぞれ： $\mu_Y=a*\mu_X+b$ および $\sigma_Y^2=a^2\sigma_X^2$ です。
X が確率変数であるとき、 $\sigma_X^2=E[X^2]-E[X]^2$ です。

平均と分散の性質：

X と Y が互いに独立な確率変数である場合、 $E[XY]=E[X]E[Y]$ であり、 $E[(X-\mu_X)(Y-\mu_Y)]=E[X-\mu_X]E[Y-\mu_Y]=0$ です。
確率変数の和の平均と分散： $X_1,X_2,...,X_n$ が n 個の確率変数であり、それぞれの平均が $\mu_{X_1},\mu_{X_2},...,\mu_{X_n}$ 、分散が $\sigma^2_{X_1},\sigma^2_{X_2},...,\sigma^2_{X_n}$ であるとします。
$X=X_1+X_2+...+X_n$ とすると、X の平均は $\mu_X=\mu_{X_1}+\mu_{X_2}+...+\mu_{X_n}$ です。
確率変数が互いに独立であるとき、 $\sigma_X^2=\sigma^2_{X_1}+\sigma^2_{X_2}+...+\sigma^2_{X_n}$ です。
共分散： $\sigma_{XY}=Cov(X,Y)=E[(X-\mu_X)(Y-\mu_Y)]=E[XY]-\mu_X\mu_Y$ です。
互いに独立な二つの確率変数の共分散は 0 ですが、共分散が 0 であることは独立を意味しません（例：X が平均 0 の対称分布の確率変数で、 $Y=X^2$ ）。
$X=X_1+X_2+...+X_n$ であれば、 $Var(X)=\sum_{i=1}^nVar(X_i)+2\sum_{1\leq i \lt j \leq n }Cov(X_i, X_j)$ です。
相関係数（本質的には共分散の標準化）： $\rho=\frac{Cov(X,Y)}{\sigma_X \sigma_Y}$ です。
共分散 / 相関係数は、二つの変数間の線形相関を表します。

特殊分布#

名称	確率密度関数	平均 $\mu$	分散 $\sigma^2$	備考
ベルヌーイ分布 $X \sim Bern(p)$	$Prob(X=x)=\begin{cases} p & もしx=1 \\ 1-p & もしx=0 \end{cases}$	p	p(1-p)
二項分布 $X \sim Bin(n,p)$	$Prob(X=k)=\begin{cases} C_n^kp^k(1-p)^{n-k} & もしk \in \{0,1,...n\} \\ 0 & その他 \end{cases}$	np	np(1-p)	n 枚の独立したコインの表の回数
幾何分布 $X \sim Geom(p)$	$Prob(X=n)=\begin{cases} p(1-p)^{n-1} & もしn \in \{0,1,...n\} \\ 0 & その他 \end{cases}$	$\frac{1}{p}$	$\frac{1-p}{p^2}$	初めて表が出るまでの試行回数

指数分布 $X \sim Exp(\lambda)$	$f_X(x)=\begin{cases} \frac{1}{\lambda}e^{-x/\lambda} & もしx \geq 0 \\ 0 & その他 \end{cases}$	$\lambda$	$\lambda^2$
正規分布 $X \sim N(\mu, \sigma^2)$	$f_X(x) = \frac{1}{\sqrt{2 \pi}\sigma} e^{-\frac{(x-\mu)^2}{2 \sigma^2}}$	$\mu$	$\sigma^2$

乱数生成の累積分布法（逆変換法）：X が確率変数であり、その確率密度関数が $f_X$ 、累積分布関数が $F_X$ であるとき、Y が [0,1] 上の一様分布の確率変数であれば、 $X=F^{-1}_X(Y)$ です。
（参考：レンダリングとサンプリング（1）：逆変換サンプリング（Inverse Transform Sampling）— 原理と実際の応用 - ZUIcat の文章 - 知乎）

仮説検定#

帰無仮説：通常、証明したい結論とは逆のものです。帰無仮説が正しいと仮定し、データを用いてそれを覆そうとします。
対立仮説：証明したい結論です。

z 検定

X が正規分布に従う確率変数であり、その分散が既知の $\sigma^2$ で、平均が $\mu$ であるとします。
$x_1, x_2, ..., x_n$ がその分布から取られた n 個の互いに独立な観測値であり、 $\bar x = \frac{x_1+x_2+...+x_n}{n}$ がサンプル平均です。
観測されたz 検定統計量： $z=\frac{\bar x - \mu}{\sqrt{\sigma^2/n}}$ 。平均 0、分散 1 の正規分布に従います。
z 検定統計量が 0 からどれだけ偏っているかの確率（p 値）に基づき、もし $p<有意水準\alpha$ であれば、帰無仮説を棄却します。（p は実際には帰無仮説が成立する前提の下で、現在のサンプルデータが観測される確率を表します）
一側検定、両側検定：測定されるパラメータがある値より大きい（または小さい）か、測定されるパラメータがある値と大きく異なるかに注目するかの違いです。

t 検定

分散に関する情報が全くわからない場合、サンプル分散を計算して分散を推定する必要があります。
$s^2=\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar x)^2$
通常の分散と比較して、ここでの分母は n-1 です。（サンプルが 1 つだけの場合、実際には分散を推定することはできません）
t 検定統計量： $t=\frac{\bar x - \mu}{\sqrt{s^2/n}} \sim t_{n-1}$ 、n-1 階の t 分布に従います。（対応して p 値を計算するために t 分布を使用する必要があります；t 分布の階数が多いほど、正規分布に近づきます）