はじめに

ここでは、確率論の基礎となる定義を確認していきます。より具体例を増やそうと思っているので、お待ちください。

——

確率の定義
- サイコロの具体例
- 確率の命題
条件付き確率
- 条件付き確率の具体例
確率変数
確率の平均・分散共分散
- 期待値・平均
- 分散共分散

確率の定義

定義に入る前に具体的な確率を見てみます。例えばコイントスで表裏がでる確率って同様に確からしいとすると $\frac{1}{2}$ です。他にもサイコロの1の目が出る確率は $\frac{1}{6}$ です。このような確率が生じる集合を標本空間(sample space)とよみ、 $\Omega$ で表します。次に標本空間内の事象(events)の集合を $A$ として、関数 $P: A \rightarrow [0, 1$ ]を定めてみます。このときに以下の性質を満たすとします。

$(i) P(\Omega)=1 \\ (ii)P(A_1 \cup A_2 \cdots A_n) = P(A_1)+P(A_2)+ \cdots + P(A_n) \quad (A_iは素集合であるとする)$

このとき、 $(\Omega, A, P)$ を確率空間(probability space)とします。具体例を通して確認してみましょう。

サイコロの具体例

6面ダイスを想像してみます。このとき、標本空間 $\Omega = { 1, 2, 3, 4, 5, 6}$ が表されます。そして、出る目が2の倍数であるときの事象は $A = {2, 4, 6}$ です。そのため、2の倍数である確率は $\frac{3}{6}=\frac{1}{2}$ となります。

この確率空間は以下の定理を満たすから確認してみます。

確率の命題

命題(proposition)1 $(i)P(A^c)=1 - P(A) \quad (A^cはAの補集合) \\ (ii)B \subseteq A \Rightarrow P(B) \leqq P(A) \\ (iii)0 = P(\phi) \leqq P(A) \leqq P(\Omega)=1$

命題(proposition)2 $P(A \cup B) = P(A) + P(B) - P(A \cap B)$

命題(proposition)3 $P(A_1 \cup \cdots \cup A_n) \leqq P(A_1) + \cdots P(A_n) \quad (A_iは素集合とは限らない)$

条件付き確率

Bという事象が起きたうえで、Aという事象起きるとき、その確率を $p(A|B)$ と表して、

$P(A|B) = \frac{P(A \cap B)}{P(B)}$

とかきます。また、次のような定理があります。

命題(proposition)4 (Bayes’ rule) $P(A|B)= \frac{P(B|A)P(A)}{P(B)}$

この定理はベイズの定理といい、ベイズ学習の基礎となる定理です。条件付き確率とベイズの定理も具体例を通して確認してみます。

条件付き確率の具体例

図のような2つの箱があるとします。

$A: 1の箱が選ばれる事象　\\ B: 赤玉が取り出される事象$

と定義してみると、条件付き確率は次のようになります。

$P(A)=\frac{1}{2} \quad P(B) = \frac{1}{2} \times \frac{3}{4} + \frac{1}{2} \times \frac{1}{2} = \frac{5}{8} \quad P(A \cap B) = \frac{1}{2} \times \frac{3}{4} = \frac{3}{8} \\ 条件付き確率の定義より、 \\ P(B|A) = \frac{P(A \cap B)}{P(A)} = \frac{\frac{3}{8}}{\frac{1}{2}} = \frac{3}{4} \\ ベイズの定理より、\\ P(A|B) = \frac{P(B|A)P(A)}{P(B)}= \frac{\frac{3}{4} \times \frac{1}{2}}{\frac{5}{8}} = \frac{3}{5}$

確率変数(probability variables)

さっき説明した確率空間だと数値的に確率は扱いにくいと思います。そのために、次は確率分布、確率変数という概念を導入していきます。確率空間内には、標本空間 $\Omega$ が存在しています。その $\Omega$ に対して関数 $x:\Omega \rightarrow \mathbb{R}$ を定めます。この $x$ を確率変数といいます。集合だったときに対して、実数で表されるからより扱いやすくなります。

今までの確率はサイコロのように離散的な確率でした。ここからは連続的な確率も出てくるので紹介していきます。

離散確率変数

離散確率変数では、 $p: X \rightarrow [0, 1$ ]と定められた確率質量関数 $p(x)$ が存在します。このとき、 $p(x)$ は以下の式を満たします。

$\Sigma_{x \in X} p(x) = 1$

連続確率変数

連続確率変数では、 $p: X \rightarrow [0, 1$ ]と定められた確率密度関数 $p(x)$ が存在します。または確率分布と呼ばれます。そして $p(x)$ は以下の式を満たします。

$(i) \int p(x)dx = 1 \\ (ii) p(x) \geqq 0$

確率密度関数で有名なものに、ガウス分布の確率密度関数があり、以下の式で表されます。

ガウス分布の確率密度関数 $p(x) = \frac{1}{\sqrt{2 \pi \sigma^2}}exp(-\frac{(x-\mu)^2}{2\sigma^2})$

独立

ここで、新たな概念を紹介します。 $P(A \cap B)$ が次のように表されるとき、 $P(A), P(B)$ は独立であるとよばれます。 $A, B$ は標本空間内の集合であるとしています。

$P(A \cap B) = P(A)P(B)$

先ほど導入した確率変数 $X, Y$ を使って書き直してみます。このとき、 $p(X, Y)$ は同時確率分布とよばれます。確率変数が互いに独立であるときは、次のように表されます。

$p(X, Y) = p(X)p(Y)$

この式は、二つ以上の確率変数が存在するときにも、成り立ちます。実際に $\boldsymbol{X} = (X_1, \cdots, X_n)^{T}$ の確率変数が互いに独立であるときは、同時確率分布は次のように表されます

$p(X_1, \cdots, X_n) = \prod_{i=1}^{n} p(X_i)$

同時確率分布 $p(X, Y)$ が存在しているとき、一つの確率変数について和をとる(もしくは積分する)ともう一方の確率分布を得ることができます。

$p(X) = \int p(X, Y)dy$

確率の平均・分散共分散

この章では、確率分布の特徴を表す要素となる概念について紹介していきます。確率分布の平均などの計算結果を覚えておく必要はありませんが、覚えておくと後々楽になります。

期待値・平均

まずは、期待値・平均の定義を確認していきます。

確率変数のベクトル $\boldsymbol{x}$ が存在して、その写像 $f(\boldsymbol{x})$ に対して期待値は次のように定義されます。

期待値 $\mathbb{E[f(\boldsymbol{x})]} = \int f(\boldsymbol{x}) q(x)d \boldsymbol{x}$

$\boldsymbol{x}$ 自身の期待値 $\mathbb{E[\boldsymbol{x}]}$ をとるとき、 $\mathbb{E[\boldsymbol{x}]}$ を確率の平均とします。（以下、 $\mathbb{E[\boldsymbol{x}]} = \mu$ と表現します。）

平均 $\mathbb{E[\boldsymbol{x}]} = \int xq(x)dx \\ \mathbb{E[\boldsymbol{x}]} = \Sigma xq(x)$

平均はデータの中心となる値を数値化したものであるということができます。

分散共分散

分散共分散の定義を確認していきます。

確率変数 $X$ に対して、分散(variance)は次のように表されます。

分散 $Var(X) = \mathbb{E[(x - \mu)^2]}$

定義のように確率変数の平均と確率変数の差を二乗していることから、分散は平均を基準としたデータの広がり具合を数値化したものであるといえます。

共分散(covariance)は、二つの確率変数の関係を計るときに用いられる数値です。二つの独立な確率変数 $X, Y$ に対して、次のように定義されます。

共分散 $Cov(X, Y) = \mathbb{E}[(X - \mu_x)]\mathbb{E}[(Y - \mu_y)]$

ここからは多次元での分散共分散の表現方法を確かめていきます。確率変数のベクトル $\boldsymbol{X} = (X_1, \cdots, X_n)^{T}$ に対して、その平均ベクトル $\boldsymbol{\mu} = (\mu_1, \cdots, \mu_n)^{T}$ が存在するとします。このとき、以下の計算により分散共分散行列を表現することができます。

分散共分散行列 $\Sigma = \mathbb{E}[(\boldsymbol{X - \mu})] \mathbb{E}[(\boldsymbol{X - \mu})^T]$

この式は、行列となって次のように表されます。

$\left( \begin{array}{ccccc} Var(X_1) & \cdots & Cov(X_1, X_n) \\\ \vdots & \ddots & \vdots \\\ Cov(X_n, X_1) & \cdots & Var(X_n) \end{array} \right)$

対角に分散、それ以外の成分に共分散が表れていることが確認できます。

終わりに

今回は、確率論の基礎となる概念をまとめました。概念をまとめた後は実際に計算してみるとより確率のイメージが湧くと思います。ぜひ計算してみてください。次回は、いろいろな確率分布を紹介しながら平均、分散を計算していこうと思います。ついでに確率分布の図も紹介しようと思っています。いずれにしても重要なことは、ド葛本社をみることです、必ずみましょう最後に参考とした文献をまとめておきます。