人工知能に関する断創録

このブログでは人工知能のさまざまな分野について調査したことをまとめています(更新停止: 2019年12月31日)

制限ボルツマンマシン (RBM) の導出 (2)

制限ボルツマンマシン (RBM) の導出 (1) (2016/3/20)のつづき。前回は可視層を固定したときの隠れ層の分布と隠れ層を固定したときの可視層の分布を導出した。今回は、RBMの対数尤度関数の導出とそのパラメータでの偏微分の式を導出していきたい。

深層学習 Deep Learning (監修:人工知能学会)

深層学習 Deep Learning (監修:人工知能学会)

  • 作者: 麻生英樹,安田宗樹,前田新一,岡野原大輔,岡谷貴之,久保陽太郎,ボレガラダヌシカ,人工知能学会,神嶌敏弘
  • 出版社/メーカー: 近代科学社
  • 発売日: 2015/11/05
  • メディア: 単行本
  • この商品を含むブログ (1件) を見る

対数尤度関数

可視変数の分布

尤度関数を定義するにあたって観測データが与えられる可視変数のみの分布が必要になる。まずは下の式 (2.44) を導出する。

f:id:aidiary:20160320085001p:plain

まず左辺を展開していく。この展開は前回もやったので途中は多少はしょった。

f:id:aidiary:20160320085210p:plain

ここで

f:id:aidiary:20160320085300p:plain

とおくと

f:id:aidiary:20160320085321p:plain

が得られる。あれ?右辺と同じにならない・・・というわけで今度は右辺を展開していく。

f:id:aidiary:20160320085711p:plain

左辺と右辺が同じ式になったので

f:id:aidiary:20160320085451p:plain

となり、式 (2.44) が導出できた。

尤度関数

f:id:aidiary:20160320085834p:plain

この尤度関数を得るために先ほどの可視変数のみの分布が必要になる。展開は対数をとってからにしよう。

対数尤度関数

f:id:aidiary:20160320085938p:plain

この導出で先ほどの可視変数の分布(式2.44)を利用した。また、\lambda_j は観測データ v_i^{(\mu)} を含むためインデックス \mu に依存する。

対数尤度関数のパラメータに対する勾配の導出

RBMは可視層のバイアスパラメータ b_i、隠れ層のバイアスパラメータ c_j、重みパラメータ w_{ij} の3種類があるのでそれぞれ偏微分を求める。

可視層のバイアスパラメータ (2.45)

先ほどの対数尤度関数を b_i で偏微分すると下の式になる。対数尤度関数の2項目は b_i と無関係の項なので消えてしまう。3項目の Z(\theta)b_i の関数なので偏微分の対象として残る。

f:id:aidiary:20160320132744p:plain

2項目の偏微分をさらに進める。ここも前回やったので多少はしょる。

f:id:aidiary:20160320090644p:plain

よって、

f:id:aidiary:20160320092846p:plain

となり、式 (2.45) が導出できた。

隠れ層のバイアスパラメータ (2.46)

対数尤度関数を c_j で偏微分すると下の式になる。対数尤度関数の1項目は c_j と無関係の項なので消えてしまう。c_j なんてない?と思ったが、\lambda_j^{(\mu)}Z(\theta)c_j を含むので偏微分の対象となる。

f:id:aidiary:20160320091251p:plain

1つめの偏微分を進める。

f:id:aidiary:20160320091406p:plain

2つめの偏微分を進める。

f:id:aidiary:20160320091428p:plain

これらの結果を合わせると

f:id:aidiary:20160320091450p:plain

となり、式 (2.46) が導出できた。

重みパラメータ (2.47)

式 (2.46) とほとんど同じだが導出しておこう。式の大部分はコピペで作れるから(笑)対数尤度関数を w_{ij} で偏微分すると下の式になる。

f:id:aidiary:20160320091742p:plain

1つめの偏微分を進める。

f:id:aidiary:20160320091809p:plain

2つめの偏微分を進める。

f:id:aidiary:20160320091905p:plain

これらの結果を合わせると

f:id:aidiary:20160320091925p:plain

となり、式 (2.47) が導出できた。

近似計算の必要性

コスト関数(costまたはloss)は対数尤度関数にマイナス記号をつけた負の対数尤度関数(Negative Log Likelihood: NLL)とすればよい。対数尤度関数の最大化はコスト関数の最小化と同じ意味になる。そのためコスト関数のパラメータによる勾配は

f:id:aidiary:20160320134211p:plain

となる。よって、あとは一般的な勾配降下法を使えばパラメータを学習できる!と思いきやRBMの場合はそう簡単にはいかない。

これらの式の右辺の1項目は観測データから求められるが、2項目は現在のパラメータ \theta におけるモデルの期待値なのでモデルの変数集合のあらゆる v_i, h_j の状態について確率を重みとした和を取る必要がある。

この計算はRBMのユニット数が多くなると指数関数的に増加する。たとえば、MNISTデータの場合、可視層のユニット数は 28 \cdot 28 = 784 でそれぞれが0または1をとるので最低でも  2^{784} 個の重み付き和を計算しないといけない。さらに隠れ層のユニットが入るとその組み合わせはさらに膨大になる。

このように2項目の期待値は厳密には求められないため近似的に求めようという話になりMCMCの一種であるGibbs sampling平均場近似という近似手法が導入された。しかし、ニューラルネットの場合、上の勾配の計算はパラメータ \theta が更新されるたびに何度も何度も再計算が必要なためこれらの近似手法でさえまだ計算コストが高い。そういう状況で提案されたのがHintonさんによるContrastive divergence (CD) 法であり、ニューラルネットワークのブレークスルーになったという流れだと理解している。

ここまで来てようやくRBMの実装に取りかかれる。RBMの数式は確率が入るためこれまでの手法に比べてかなり複雑だけれど、実装もそれに劣らず複雑なので気合いを入れて取り掛かりたい。