人工知能に関する断創録

このブログでは人工知能のさまざまな分野について調査したことをまとめています(更新停止: 2019年12月31日)

強化学習と報酬

考えたことのメモ。

強化学習の特徴の一つに報酬に基づいているというのがある。でも報酬って一体何なんだろうか。現実世界に当てはめた場合は何に相当するのか。例えば、AIBO(本当の犬でもそうだが)が「おりこうな」行動をして頭をなでられたら報酬であり、その「おりこうな」行動が強化されるだろう。これはわかりやすいがもっと一般的に考えると何にあたるんだ。報酬は環境から与えられるというのも何だかあまりぴんとこない。気持ちいいとかうれしいとかいう(報酬にあたりそうなもの)のは人(エージェント)の内部から起きているんじゃないか?外部から与えられても人によって感じ方は違うだろうし。

あと、報酬と教師信号の差もよくわからない。例えば、ロボットが人間の行動をうまく模倣できたら多くの報酬を与えて、あまり似ていなかったらほとんど報酬を与えないと考えたらどうなるんだ?これは教師あり学習になってしまうのではないか。それともきっちり「こう行動しろ!」と指示しているわけではないから教師なし学習か?ここら辺の区別もまだ曖昧である。あまり多くの例を見たわけではないから強化学習の本質がつかめていないかもしれない。