強化学習と報酬 - 人工知能に関する断創録

考えたことのメモ。

強化学習の特徴の一つに報酬に基づいているというのがある。でも報酬って一体何なんだろうか。現実世界に当てはめた場合は何に相当するのか。例えば、AIBO（本当の犬でもそうだが）が「おりこうな」行動をして頭をなでられたら報酬であり、その「おりこうな」行動が強化されるだろう。これはわかりやすいがもっと一般的に考えると何にあたるんだ。報酬は環境から与えられるというのも何だかあまりぴんとこない。気持ちいいとかうれしいとかいう（報酬にあたりそうなもの）のは人（エージェント）の内部から起きているんじゃないか？外部から与えられても人によって感じ方は違うだろうし。

あと、報酬と教師信号の差もよくわからない。例えば、ロボットが人間の行動をうまく模倣できたら多くの報酬を与えて、あまり似ていなかったらほとんど報酬を与えないと考えたらどうなるんだ？これは教師あり学習になってしまうのではないか。それともきっちり「こう行動しろ！」と指示しているわけではないから教師なし学習か？ここら辺の区別もまだ曖昧である。あまり多くの例を見たわけではないから強化学習の本質がつかめていないかもしれない。