PRML上巻 演習問題1.6
演習問題1.6
2つの変数が独立なら,それらの共分散は0になることを示せ.
演習問題1.6 解答
2つの変数の共分散は,
ここで,は独立のため,
が成り立つ.したがって,
となる. (これで良いのか?)
PRML上巻 P19-20
1.2.2 期待値と分散
ある関数の,確率分布のもとでの平均値をの期待値(expectation)と呼び,]と書く.離散分布に対しては,
で与えられる.
連続変数の場合の期待値は対応する確率密度に関する積分で表される.
期待値は,有限個の点の有限和で近似できる.
多変数関数の期待値の場合は,どの変数について平均を取るかを示すのに添え字を使う.例えば,
は関数のの分布に関する平均を表す.
条件付き分布についても条件付き期待値を考えることができ,
となる.
の分散(variance)は,
で定義される.2乗を展開すると,
と書くこともできる.
確率変数自身の分散を考えることができ,
となる.
2つの確率変数との共分散(covariance)は
と定義され,とが同時に変動する度合いを表す.
2つの確率変数ベクトルに関する共分散は,行列
となる.
PRML上巻 演習問題1.4
演習問題1.4
連続変数上で定義された確率密度を考える.により非線形変換を施すと密度はの変換を受ける.
を微分して,に関する密度を最大にする位置とに関する密度を最大にする位置とが,ヤコビ因子の影響により一般には単純なという関係にないことを示せ.これは確率密度の最大値が,(通常の関数と異なり)変数の選択に依存することを示している.線形変換の場合には最大値の位置が変数自身と同じ変換を受けることを確かめよ.
演習問題1.4 解答
の両辺をについて微分する
ここで,に関する密度を最大にするについて,
が成り立つ. いま,が成り立つと仮定すると,
となる.はに関する密度を最大にする位置であるから,が成り立つ.よって上式の第一項はゼロとなり,
となる.いま,は非線形変換(が二次以上の項をもつ)であるから,となり,上式が成り立つにはでなければならない.
しかし,確率密度の定義から,がに関する密度を最大にする位置であるためには,でなければならない.よって矛盾する.(証明終わり)
一方,線形変換の場合,となるため,上式は成り立つ.
以上.Google先生ありがとう.
PRML上巻 P15-17
前回の続き.
確率論の概念を単純な例を使って導入する.
いま,赤と青の2つの箱があり,赤の箱にはりんごが2個とオレンジが6個,青の箱にはりんごが3個とオレンジが1個入っているとする. 箱の1つをランダムに選び,果物をランダムに1個取り出す.そしてどの果物だったかを記録して元の箱に戻す.この試行を多数繰り返す. その際,赤の箱を40%,青の箱を60%選び,箱の中の果物は同じ確からしさで選ぶ.
赤か青の箱を選ぶ確率は,
で与えられる.これらはという関係を満たす.
箱をランダムに選び,青い箱だったとする,するとりんごを選ぶ確率は単に青い箱の中のりんごの個数の比率でである.
箱の種類が与えられた下での果物の条件付き確率を書き下すと以下のとおりとなる.
これらの確率も規格化されており,
が成り立つ.
ここで確率の加法・乗法定理を使うと,りんごを選ぶ確率を計算することができて,
となる.また加法定理からが成り立つ.
ここで,ベイズの定理の重要な解釈を考える.
選んだ果物の種類を教えられる前にどの箱を選んだかを尋ねられたら,我々のもつ最も完全な情報はという確率値で与えられる.これを事前確率(prior probability)と呼ぶ.なぜなら,どの果物を選んだかを観測するより事前に得られる確率値だからである. 一旦果物がオレンジだと分かれば,ベイズの定理を使って,確率を計算できる.これを事後確率(posterior probability)と呼ぶ.なぜなら,これはを観測した事後の確率だからである.
2つの変数の同時分布がその周辺分布の積に分解できるとき(),とは独立(independent)であるという.乗法定理からであることがわかり,が与えられた下でのの条件付き確率は実際にの値に独立になる.
果物の箱の例で言えば,各箱に同じ比率でりんごとオレンジが入っていれば,となって,りんごが選ばれる確率はどの箱が選ばれたかに独立となる.
今日はここまで.
PRML上巻 P15
一昨日の続き.
図に,2変数に対する同時分布の単純な例を使って,周辺分布および条件付き分布の概念を図示する. 左上の図は,同時分布からの生成を模して生成した個のサンプルデータ点をプロットしてある. 残りの図は周辺分布と,左上の図の下側の行に対応する条件付き分布のヒストグラムを表す.
%matplotlib inline import matplotlib.pyplot as plt import japanize_matplotlib import numpy as np np.random.seed(42)
# figure 1.11 def min_max(x: np.ndarray) -> np.ndarray: """min-max normalization""" n_min = np.min(x) - 0.001 n_max = np.max(x) + 0.001 return (x - n_min) / (n_max - n_min) x = min_max(np.concatenate([np.random.normal(0.3, 0.2, 33), np.random.normal(0.7, 0.2, 27)])) y = np.concatenate([np.random.rand(33), np.random.rand(27) + 1]) fig, axs = plt.subplots(2, 2, figsize=(12, 8)) axs[0, 0].scatter(x, y) axs[0, 0].grid(True) axs[0, 0].set_xticks(np.linspace(0, 1, 10)) axs[0, 0].set_yticks(np.linspace(0, 2, 3)) axs[0, 0].xaxis.set_ticklabels([]) axs[0, 0].yaxis.set_ticklabels([]) axs[0, 0].set_title('$p(X,Y)$') axs[0, 0].set_xlabel('$X$') axs[0, 0].set_ylabel('$Y$') axs[0, 1].set_title('$p(Y)$') axs[0, 1].hist(y, bins=np.linspace(0, 2, 3), rwidth=0.8, orientation='horizontal') axs[0, 1].set_xticks([]) axs[0, 1].set_yticks([]) axs[1, 0].set_title('$p(X)$') axs[1, 0].hist(x, bins=np.linspace(0, 1, 10), rwidth=0.8) axs[1, 0].set_xticks([]) axs[1, 0].set_yticks([]) axs[1, 0].set_xlabel('$X$') axs[1, 1].set_title('$p(X|Y=1)$') axs[1, 1].hist(x[:33], bins=np.linspace(0, 1, 10), rwidth=0.8) axs[1, 1].set_xticks([]) axs[1, 1].set_yticks([]) axs[1, 1].set_xlabel('$X$')
ヒストグラムは,ある確率分布から生成した有限個の点だけが与えられたとき,もとの確率分布をモデル化する単純な方法とみなすことができる.
今日はここまで.