PRML上巻 P9
昨日の続き.
過学習を制御するためによく使われるテクニックに正則化(regularization)がある. これは誤差関数にpenalty項を付加することにより係数が大きな値になることを防ごうとするものである.
最も単純なものは,係数を二乗して和をとったもの(L2正則化)で,誤差関数は以下となる.
ここで,であり,係数は正則化項と二乗誤差の和の項との相対的な重要度を調整している.(ただし,係数は正則化から外すことも多い)
このようなテクニックは統計学の分野で縮小推定(shrinkage)と呼ばれている. 特に2次の正則化の場合はリッジ回帰(ridge regression)と呼ばれる. ニューラルネットワークの文脈では荷重減衰(weight decay)として知られている.
演習問題 1.2
正則化された二乗和誤差関数を最小にする係数が満たす,に類似した線型方程式系を書き下せ.
演習問題 1.2 解答
にを代入する.
が最小のとき,のについての偏微分が0となる.よって,
ここで,
を用いた.
演習問題 1.1 解答より,
なので,これをに代入すると.
上式のを移行すると,に似た次式が得られる.
本日は以上.