一日坊主

雰囲気でやっている

PRML上巻 P9

昨日の続き.

過学習を制御するためによく使われるテクニックに正則化(regularization)がある. これは誤差関数(1.2)にpenalty項を付加することにより係数が大きな値になることを防ごうとするものである.

\displaystyle{
E(\mathbf{w})=\frac{1}{2}\sum_{n=1}^{N}\left\{y(x_n, \mathbf{w}) - t_n \right\}^2\tag{1.2}
}

最も単純なものは,係数を二乗して和をとったもの(L2正則化)で,誤差関数は以下となる.

\displaystyle{
\tilde{E}(\mathbf{w})=\frac{1}{2}\sum_{n=1}^N\left\{y(x_n,\mathbf{w}-t_n)\right\}^2+\frac{\lambda}{2}\|\mathbf{w}\|^2\tag{1.4}
}

ここで,\|\mathbf{w}\|^ 2=\mathbf{w}^ T\mathbf{w}=w_0^ 2+w_1^ 2+\cdots w_M^ 2であり,係数\lambda正則化項と二乗誤差の和の項との相対的な重要度を調整している.(ただし,係数w_0正則化から外すことも多い)

このようなテクニックは統計学の分野で縮小推定(shrinkage)と呼ばれている. 特に2次の正則化の場合はリッジ回帰(ridge regression)と呼ばれる. ニューラルネットワークの文脈では荷重減衰(weight decay)として知られている.

演習問題 1.2

正則化された二乗和誤差関数(1.4)を最小にする係数w_iが満たす,(1.122)に類似した線型方程式系を書き下せ.

演習問題 1.2 解答

(1.4)(1.2)を代入する.

\displaystyle{
\tilde{E}(\mathbf{w})=E(\mathbf{w})+\frac{\lambda}{2}\|\mathbf{w}\|^2
}

(1.4)が最小のとき,(1.4)w_iについての偏微分が0となる.よって,


\begin{align*}
\frac{\partial}{\partial w_i}\tilde{E}(\mathbf{w}) &= \frac{\partial}{\partial w_i}E(\mathbf{w})-\lambda w_i \\
&= \frac{\partial}{\partial w_i}E(\mathbf{w})-\lambda \sum_{j=0}^M I_{ij}w_j\tag{a}
\end{align*}

ここで,

\displaystyle{
I_{ij}=\left\{\begin{array}{ll}
1 & (i=j) \\
0 & (\mathrm{otherwise})
\end{array}\right.
}

を用いた.

演習問題 1.1 解答より,

\displaystyle{
\frac{\partial}{\partial w_i}E(\mathbf{w})=\sum_{j=0}^MA_{ij}w_j-T_i
}

なので,これを(a)に代入すると.


\begin{aligned}
\frac{\partial}{\partial w_i}\tilde{E}(\mathbf{w})&=\sum_{j=0}^MA_{ij}w_j-T_i-\lambda \sum_{j=0}^M I_{ij}w_j\\
&=\sum_{j=0}^M(A_{ij}-\lambda I_{ij})w_j - T_i\\
&=0
\end{aligned}

上式のT_iを移行すると,(1.122)に似た次式が得られる.

\displaystyle{
\sum_{j=0}^{M}(A_{ij}-\lambda I_{ij})w_j=T_i
}

本日は以上.