一文精通シリーズの第 1 篇記事。本シリーズの目的は、全体的な事柄の理解をできるだけ簡潔かつ明確に紹介し、振り返りやすくすることです。
更新記録:
2025.01.05 v1.0 版を完成(プリンストン確率論読本のいくつかの重要な概念と結論を整理しました)
前提知識#
等差数列の和:S n = a 1 + a 2 + . . . a n = n ∗ ( a 1 + a n ) 2 S_n = a_1+a_2+...a_n=\frac{n*(a_1+a_n)}{2} S n = a 1 + a 2 + ... a n = 2 n ∗ ( a 1 + a n )
等比数列の和:S n = 1 + r + r 2 + r 3 + . . . + r n = 1 − r n + 1 1 − r S_n = 1+r+r^2+r^3+...+r^n=\frac{1-r^{n+1}}{1-r} S n = 1 + r + r 2 + r 3 + ... + r n = 1 − r 1 − r n + 1
順列数:A n m = n ! ( n − m ) ! A_n^m = \frac{n!}{(n-m)!} A n m = ( n − m )! n !
組み合わせ数:C n m = n ! m ! ( n − m ) ! C_n^m = \frac{n!}{m!(n-m)!} C n m = m ! ( n − m )! n !
原関数:
もしF ′ ( x ) = f ( x ) F'(x)=f(x) F ′ ( x ) = f ( x ) であれば、F は f の原関数 、または f の **(不定)積分 ** と呼ばれます。
原関数は一意ではなく、同じ f の異なる原関数は必ず定数の差があります。
微積分基本定理 :f が分段連続関数であり、F が f の任意の原関数であるとします。すると、∫ a b f ( x ) d x = F ( b ) − F ( a ) \int_a^bf(x)dx=F(b)-F(a) ∫ a b f ( x ) d x = F ( b ) − F ( a ) 。
曲線 y=f (x) の下、x=a と x=b の間の面積は、f の原関数が b での値から f の原関数が a での値を引いたものに等しいです。
テイラー級数:もし f が n 回微分可能であれば、f の a 点での n 階テイラー級数は
T n ( x ) : = ∑ k = 0 n f ( k ) ( a ) k ! ( x − a ) k T_n(x) := \sum_{k=0}^n \frac{f^{(k)}(a)}{k!}(x-a)^k T n ( x ) := ∑ k = 0 n k ! f ( k ) ( a ) ( x − a ) k
原点 (a=0) でのテイラー級数は、マクローリン級数とも呼ばれます。
基本確率定理#
条件付き確率:P r ( A ∣ B ) = P r ( A ∩ B ) P r ( B ) Pr(A|B) = \frac{Pr(A \cap B)}{Pr(B)} P r ( A ∣ B ) = P r ( B ) P r ( A ∩ B )
独立性:もし事象 A と B がP r ( A ∩ B ) = P r ( A ) ∗ P r ( B ) Pr(A \cap B) = Pr(A) * Pr(B) P r ( A ∩ B ) = P r ( A ) ∗ P r ( B ) を満たすなら、A と B は独立です。
可換性:P r ( A ∩ B ) = P r ( B ∩ A ) Pr(A\cap B) = Pr(B\cap A) P r ( A ∩ B ) = P r ( B ∩ A )
全確率の公式:もし{ B 1 , B 2 , . . . } \{B_1, B_2, ...\} { B 1 , B 2 , ... } がサンプル空間 S の分割を構成する(最大可算の部分に分けられる)なら、任意のA ⊂ S A \subset S A ⊂ S に対してP r ( A ) = ∑ n P r ( A ∣ B n ) ⋅ P r ( B n ) Pr(A) = \sum_n Pr(A|B_n) \cdot Pr(B_n) P r ( A ) = ∑ n P r ( A ∣ B n ) ⋅ P r ( B n ) が成り立ちます。
ベイズの定理 :{ A i } i = 1 n \{A_i\}_{i=1} ^ n { A i } i = 1 n がサンプル空間の分割であるとき、P r ( A ∣ B ) = P r ( B ∣ A ) ⋅ P r ( A ) ∑ i = 1 n P r ( B ∣ A i ) ⋅ P r ( A i ) Pr(A|B) = \frac {Pr(B|A) \cdot Pr(A)}{\sum_{i=1}^n Pr(B|A_i) \cdot Pr(A_i)} P r ( A ∣ B ) = ∑ i = 1 n P r ( B ∣ A i ) ⋅ P r ( A i ) P r ( B ∣ A ) ⋅ P r ( A ) 。(条件付き確率の基礎の上に、分子は可換性 + 条件付き確率で変換し、分母は全確率の公式です)
確率変数#
離散型確率変数
確率密度関数 (PDF):f X ( x ) = P r o b ( w ∈ Ω : X ( w ) = x ) f_X(x)=Prob(w \in \Omega: X(w)=x) f X ( x ) = P ro b ( w ∈ Ω : X ( w ) = x )
累積分布関数 (CDF):F X ( x ) = P r o b ( w ∈ Ω : X ( w ) ≤ x ) F_X(x)=Prob(w \in \Omega: X(w) \leq x) F X ( x ) = P ro b ( w ∈ Ω : X ( w ) ≤ x )
連続型確率変数
X が確率変数であり、実数値関数f X f_X f X が存在し、f X f_X f X が分段連続関数、f X ( x ) ≥ 0 f_X(x)\geq0 f X ( x ) ≥ 0 、∫ − ∞ + ∞ f X ( t ) d t = 1 \int_{-\infty}^{+\infty}f_X(t)dt=1 ∫ − ∞ + ∞ f X ( t ) d t = 1 を満たすなら、X は連続型確率変数であり、f X f_X f X は X の確率密度関数です。
累積分布関数 (CDF):F X ( x ) = P r o b ( X ≤ x ) = ∫ − ∞ x f X ( t ) d t F_X(x)=Prob(X \leq x)=\int_{-\infty}^xf_X(t)dt F X ( x ) = P ro b ( X ≤ x ) = ∫ − ∞ x f X ( t ) d t
期待値 :X が R 上で定義された確率変数であり、その確率密度関数がf X f_X f X であるとき、関数g ( X ) g(X) g ( X ) の期待値は
Copy E [ g ( X ) ] = { ∫ − ∞ + ∞ g ( x ) ∗ f X ( x ) d x もし X が連続なら ∑ n g ( x n ) ∗ f X ( x n ) もし X が離散なら E[g(X)] =
\begin{cases}
\int_{-\infty}^{+\infty}g(x)*f_X(x)dx & もしXが連続なら \\
\sum_n g(x_n) * f_X(x_n) & もしXが離散なら
\end{cases} E [ g ( X )] = { ∫ − ∞ + ∞ g ( x ) ∗ f X ( x ) d x ∑ n g ( x n ) ∗ f X ( x n ) もし X が連続なら もし X が離散なら
もしg ( x ) = x r g(x)=x^r g ( x ) = x r なら、E [ X r ] E[X^r] E [ X r ] は X のr 階モーメント と呼ばれ、E [ ( X − E [ X ] ) r ] E[(X-E[X])^r] E [( X − E [ X ] ) r ] は X のr 階中心モーメント と呼ばれます。
(なぜモーメントを気にするのか:知られているテイラー係数が多いほど、関数の近似が良くなるのと似ています。より多くを知ることで、確率密度関数の形状の性質をよりよく理解できます)
X の平均 (平均値、期待値、記号μ \mu μ )は一階モーメント です。
E [ X ] = μ = ∫ − ∞ + ∞ x ∗ f X ( x ) d x E[X]=\mu=\int_{-\infty}^{+\infty} x * f_X(x)dx E [ X ] = μ = ∫ − ∞ + ∞ x ∗ f X ( x ) d x
X の分散 (記号σ X 2 \sigma_X^2 σ X 2 またはV a r ( X ) Var(X) Va r ( X ) )は二階中心モーメント であり、g ( X ) = ( X − μ X ) 2 g(X)=(X-\mu_X)^2 g ( X ) = ( X − μ X ) 2 の期待値です。
E [ ( X − E [ X ] ) 2 ] = E [ X 2 ] − E [ X ] 2 = σ X 2 = ∫ − ∞ + ∞ ( x − μ X ) 2 ∗ f X ( x ) d x E[(X-E[X])^2]=E[X^2]-E[X]^2=\sigma_X^2=\int_{-\infty}^{+\infty} (x-\mu_X)^2 * f_X(x)dx E [( X − E [ X ] ) 2 ] = E [ X 2 ] − E [ X ] 2 = σ X 2 = ∫ − ∞ + ∞ ( x − μ X ) 2 ∗ f X ( x ) d x
標準偏差 は分散の平方根であり、σ X = σ X 2 \sigma_X=\sqrt{\sigma_X^2} σ X = σ X 2 です。
X、Y、Z がすべて連続型確率変数であるとき、
結合確率密度関数 :P r o b ( ( X , Y , Z ) ∈ S ) = ∭ S f X , Y , Z ( x , y , z ) d x d y d z Prob((X,Y,Z)\in S) = \iiint_S f_{X,Y,Z}(x,y,z)dx\,dy\,dz P ro b (( X , Y , Z ) ∈ S ) = ∭ S f X , Y , Z ( x , y , z ) d x d y d z
X の周辺確率密度関数:f X ( x ) = ∫ y = − ∞ + ∞ ∫ z = − ∞ + ∞ f X , Y , Z ( x , y , z ) d y d z f_X(x) = \int_{y=-\infty}^{+\infty} \int_{z=-\infty}^{+\infty} f_{X,Y,Z}(x,y,z) dy\,dz f X ( x ) = ∫ y = − ∞ + ∞ ∫ z = − ∞ + ∞ f X , Y , Z ( x , y , z ) d y d z
期待値の性質:
和の期待値は期待値の和に等しい:E [ a 1 g 1 ( X 1 ) + a 2 g 2 ( X 2 ) ] = a 1 E [ g 1 ( X 1 ) ] + a 2 E [ g 2 ( X 2 ) ] E[a_1g_1(X_1)+a_2g_2(X_2)]=a_1E[g_1(X_1)] + a_2E[g_2(X_2)] E [ a 1 g 1 ( X 1 ) + a 2 g 2 ( X 2 )] = a 1 E [ g 1 ( X 1 )] + a 2 E [ g 2 ( X 2 )]
X が確率変数であり、平均がμ X \mu_X μ X 、分散がσ X 2 \sigma_X^2 σ X 2 であるとき、確率変数Y = a X + b Y=aX+b Y = a X + b の平均と分散はそれぞれ:μ Y = a ∗ μ X + b \mu_Y=a*\mu_X+b μ Y = a ∗ μ X + b およびσ Y 2 = a 2 σ X 2 \sigma_Y^2=a^2\sigma_X^2 σ Y 2 = a 2 σ X 2 です。
X が確率変数であるとき、σ X 2 = E [ X 2 ] − E [ X ] 2 \sigma_X^2=E[X^2]-E[X]^2 σ X 2 = E [ X 2 ] − E [ X ] 2 です。
平均と分散の性質:
X と Y が互いに独立な確率変数である場合、E [ X Y ] = E [ X ] E [ Y ] E[XY]=E[X]E[Y] E [ X Y ] = E [ X ] E [ Y ] であり、E [ ( X − μ X ) ( Y − μ Y ) ] = E [ X − μ X ] E [ Y − μ Y ] = 0 E[(X-\mu_X)(Y-\mu_Y)]=E[X-\mu_X]E[Y-\mu_Y]=0 E [( X − μ X ) ( Y − μ Y )] = E [ X − μ X ] E [ Y − μ Y ] = 0 です。
確率変数の和の平均と分散 :X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X 1 , X 2 , ... , X n が n 個の確率変数であり、それぞれの平均がμ X 1 , μ X 2 , . . . , μ X n \mu_{X_1},\mu_{X_2},...,\mu_{X_n} μ X 1 , μ X 2 , ... , μ X n 、分散がσ X 1 2 , σ X 2 2 , . . . , σ X n 2 \sigma^2_{X_1},\sigma^2_{X_2},...,\sigma^2_{X_n} σ X 1 2 , σ X 2 2 , ... , σ X n 2 であるとします。
X = X 1 + X 2 + . . . + X n X=X_1+X_2+...+X_n X = X 1 + X 2 + ... + X n とすると、X の平均はμ X = μ X 1 + μ X 2 + . . . + μ X n \mu_X=\mu_{X_1}+\mu_{X_2}+...+\mu_{X_n} μ X = μ X 1 + μ X 2 + ... + μ X n です。
確率変数が互いに独立 であるとき、σ X 2 = σ X 1 2 + σ X 2 2 + . . . + σ X n 2 \sigma_X^2=\sigma^2_{X_1}+\sigma^2_{X_2}+...+\sigma^2_{X_n} σ X 2 = σ X 1 2 + σ X 2 2 + ... + σ X n 2 です。
共分散 :σ X Y = C o v ( X , Y ) = E [ ( X − μ X ) ( Y − μ Y ) ] = E [ X Y ] − μ X μ Y \sigma_{XY}=Cov(X,Y)=E[(X-\mu_X)(Y-\mu_Y)]=E[XY]-\mu_X\mu_Y σ X Y = C o v ( X , Y ) = E [( X − μ X ) ( Y − μ Y )] = E [ X Y ] − μ X μ Y です。
互いに独立な二つの確率変数の共分散は 0 ですが、共分散が 0 であることは独立を意味しません(例:X が平均 0 の対称分布の確率変数で、Y = X 2 Y=X^2 Y = X 2 )。
X = X 1 + X 2 + . . . + X n X=X_1+X_2+...+X_n X = X 1 + X 2 + ... + X n であれば、V a r ( X ) = ∑ i = 1 n V a r ( X i ) + 2 ∑ 1 ≤ i < j ≤ n C o v ( X i , X j ) Var(X)=\sum_{i=1}^nVar(X_i)+2\sum_{1\leq i \lt j \leq n }Cov(X_i, X_j) Va r ( X ) = ∑ i = 1 n Va r ( X i ) + 2 ∑ 1 ≤ i < j ≤ n C o v ( X i , X j ) です。
相関係数 (本質的には共分散の標準化):ρ = C o v ( X , Y ) σ X σ Y \rho=\frac{Cov(X,Y)}{\sigma_X \sigma_Y} ρ = σ X σ Y C o v ( X , Y ) です。
共分散 / 相関係数は、二つの変数間の線形相関を表します。
特殊分布#
名称 確率密度関数 平均μ \mu μ 分散 σ 2 \sigma^2 σ 2 備考 ベルヌーイ分布 X ∼ B e r n ( p ) X \sim Bern(p) X ∼ B er n ( p ) P r o b ( X = x ) = { p もし x = 1 1 − p もし x = 0 Prob(X=x)=\begin{cases} p & もしx=1 \\ 1-p & もしx=0 \end{cases} P ro b ( X = x ) = { p 1 − p もし x = 1 もし x = 0 p p(1-p) 二項分布 X ∼ B i n ( n , p ) X \sim Bin(n,p) X ∼ B in ( n , p ) P r o b ( X = k ) = { C n k p k ( 1 − p ) n − k もし k ∈ { 0 , 1 , . . . n } 0 その他 Prob(X=k)=\begin{cases} C_n^kp^k(1-p)^{n-k} & もしk \in \{0,1,...n\} \\ 0 & その他 \end{cases} P ro b ( X = k ) = { C n k p k ( 1 − p ) n − k 0 もし k ∈ { 0 , 1 , ... n } その他 np np(1-p) n 枚の独立したコインの表の回数 幾何分布 X ∼ G e o m ( p ) X \sim Geom(p) X ∼ G eo m ( p ) P r o b ( X = n ) = { p ( 1 − p ) n − 1 もし n ∈ { 0 , 1 , . . . n } 0 その他 Prob(X=n)=\begin{cases} p(1-p)^{n-1} & もしn \in \{0,1,...n\} \\ 0 & その他 \end{cases} P ro b ( X = n ) = { p ( 1 − p ) n − 1 0 もし n ∈ { 0 , 1 , ... n } その他 1 p \frac{1}{p} p 1 1 − p p 2 \frac{1-p}{p^2} p 2 1 − p 初めて表が出るまでの試行回数 指数分布 X ∼ E x p ( λ ) X \sim Exp(\lambda) X ∼ E x p ( λ ) f X ( x ) = { 1 λ e − x / λ もし x ≥ 0 0 その他 f_X(x)=\begin{cases} \frac{1}{\lambda}e^{-x/\lambda} & もしx \geq 0 \\ 0 & その他 \end{cases} f X ( x ) = { λ 1 e − x / λ 0 もし x ≥ 0 その他 λ \lambda λ λ 2 \lambda^2 λ 2 正規分布 X ∼ N ( μ , σ 2 ) X \sim N(\mu, \sigma^2) X ∼ N ( μ , σ 2 ) f X ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 f_X(x) = \frac{1}{\sqrt{2 \pi}\sigma} e^{-\frac{(x-\mu)^2}{2 \sigma^2}} f X ( x ) = 2 π σ 1 e − 2 σ 2 ( x − μ ) 2 μ \mu μ σ 2 \sigma^2 σ 2
乱数生成の累積分布法(逆変換法) :X が確率変数であり、その確率密度関数がf X f_X f X 、累積分布関数がF X F_X F X であるとき、Y が [0,1] 上の一様分布の確率変数であれば、X = F X − 1 ( Y ) X=F^{-1}_X(Y) X = F X − 1 ( Y ) です。
(参考:レンダリングとサンプリング(1):逆変換サンプリング(Inverse Transform Sampling)— 原理と実際の応用 - ZUIcat の文章 - 知乎 )
仮説検定#
帰無仮説 :通常、証明したい結論とは逆のものです。帰無仮説が正しいと仮定し、データを用いてそれを覆そうとします。
対立仮説 :証明したい結論です。
z 検定
X が正規分布に従う確率変数であり、その分散が既知の σ 2 \sigma^2 σ 2 で、平均がμ \mu μ であるとします。
x 1 , x 2 , . . . , x n x_1, x_2, ..., x_n x 1 , x 2 , ... , x n がその分布から取られた n 個の互いに独立な観測値であり、x ˉ = x 1 + x 2 + . . . + x n n \bar x = \frac{x_1+x_2+...+x_n}{n} x ˉ = n x 1 + x 2 + ... + x n がサンプル平均です。
観測されたz 検定統計量 :z = x ˉ − μ σ 2 / n z=\frac{\bar x - \mu}{\sqrt{\sigma^2/n}} z = σ 2 / n x ˉ − μ 。平均 0、分散 1 の正規分布に従います。
z 検定統計量が 0 からどれだけ偏っているかの確率(p 値 )に基づき、もしp < 有意水準 α p<有意水準\alpha p < 有意水準 α であれば、帰無仮説を棄却します。(p は実際には帰無仮説が成立する前提の下で、現在のサンプルデータが観測される確率を表します)
一側検定、両側検定:測定されるパラメータがある値より大きい(または小さい)か、測定されるパラメータがある値と大きく異なるかに注目するかの違いです。
t 検定
分散に関する情報が全くわからない場合、サンプル分散 を計算して分散 を推定する必要があります。
s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 s^2=\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar x)^2 s 2 = n − 1 1 ∑ i = 1 n ( x i − x ˉ ) 2
通常の分散と比較して、ここでの分母は n-1 です。(サンプルが 1 つだけの場合、実際には分散を推定することはできません)
t 検定統計量:t = x ˉ − μ s 2 / n ∼ t n − 1 t=\frac{\bar x - \mu}{\sqrt{s^2/n}} \sim t_{n-1} t = s 2 / n x ˉ − μ ∼ t n − 1 、n-1 階の t 分布に従います。(対応して p 値を計算するために t 分布を使用する必要があります;t 分布の階数が多いほど、正規分布に近づきます)