人工知能に関する断創録

このブログでは人工知能のさまざまな分野について調査したことをまとめています(更新停止: 2019年12月31日)

強化学習は教師あり学習?

脳と学習システムの関係として、小脳は誤差信号をもとにした教師あり学習に、大脳基底核は報酬信号をもとにした強化学習に、大脳皮質は、信号の統計的性質をもとにした教師無し学習に対応するらしい。これはどういうことを言っているのかまだわからないため調べてみることにする。

ここでは別のことで、分からなくなった。教師あり学習と強化学習の違いは何なのかということ。理屈では分かっているつもりだが、幼児の学習などにあてはめると分からなくなる。映画の「A.I.」に、がスプーンを使ってご飯を食べるのを模倣して主人公のロボットがご飯を食べようとする場面がある。あそこで使われているのは教師あり学習と強化学習どっちなのか?

それに関して次のように書いてあった(映画に言及しているわけではなくて、関係ありそうなことです)。

価値の原理(注:自分は強化学習のように価値に基づいて学習する方法と捉えている)は、自己組織化の原理に基づいて、教師を自己に内在した学習法を用いるべきであるということを述べている。これに対し、教師あり学習を擁護する議論として、母親が子供に教えるような方法に似ているというものがある。この議論は一見するともっともらしいが、よく考えてみるとおかしい。こういった方法をとるためには、母親からのフィードバックが誤差信号に変換されなければならないからである。ここには、複雑な知覚問題が存在することになる。
知の創成(p.515)

要するに、母親の模倣をするような学習は教師あり学習なのかどうかを問題にしていると読み取った。スプーンでご飯を食べる例に戻るが、もし教師あり学習だとすると、母親の動きと自分(ロボットのこと)の動きの差を誤差信号としてフィードバックをかけ、母親の動きになるべく近くなるように学習するということだろう。ここで「複雑な知覚問題が存在することになる」というのはよく分からないが、「母親の動きと自分の動きの誤差を知るのは難しい」ってことを言っているのではないかと思う。つまり、「母親がスプーンでものを食べるのを模倣する」というのはいかにも母親を教師とする教師あり学習みたいに見えるがそう考えることは難しいってことを言いたいのじゃないか?こういう場面を見たことはないのだが、実際どうなのだろうか。幼児って母親のやるのをずっと見ているわけじゃないような気がする。母親がスプーンでご飯を食べてみて、「はい、やってみな」って言ってその後、やろうとすると思う。つまり、母親と同時に行動するわけじゃないから誤差を取りようがないのではないか。

で、次にこれを強化学習としてみるとどうなるのか考えた。強化学習は目標指向型の学習である。つまり、ある目標があってそれを達成すれば報酬が与えられてHappyになる。そして、その報酬を得るためにはどう行動すればよいかを試行錯誤を通して探すのが目的。スプーンの例ではスプーンを口元まで持っていけば報酬を得られると考えられる(多分、人間ならご飯が美味しいとか、母親が褒めてくれるとかにあたる)。そして、このスプーンを口に持っていくまでの過程は母親を教師とする教師あり学習ではなくて、強化学習による試行錯誤によって獲得されるということだろう。決して母親の一挙手一投足を見て自分の動作との誤差を取って模倣しているわけではないということ。母親から「教えられる」のはスプーンを口に入れるという「目標」だけであってその過程は「教えられない」んじゃないか。すなわち、模倣というのは誤差信号をもとにした教師あり学習ではなくて、強化学習ではないのかということ。

こういうのは子供がスプーンで食べるのを模倣しているようなシーンで子供の脳を調べてどこが活性化しているかで分からないのだろうか。脳のどこがどの学習システムに対応しているか分かっている(といってもまだ仮説みたいですが)なら、各シーンでどんなアルゴリズムが使われているか分かるのではないか。どこかにこういう結果ないのだろうか。

書き終わってから気が付いたが、ご飯を食べる例はあまりよくなかった。もっと一般的に模倣学習という点で捉えた方がよかった。

上で考えたことは全部想像です。大した根拠はありません。ただ、今分からないこと、考えたことを整理して書いておく備忘録にすぎません。