読者です 読者をやめる 読者になる 読者になる

人工知能に関する断創録

人工知能、認知科学、心理学、ロボティクス、生物学などに興味を持っています。このブログでは人工知能のさまざまな分野について調査したことをまとめています。最近は、機械学習、Deep Learning、Kerasに関する記事が多いです。



強化学習と報酬

考えたことのメモ。

強化学習の特徴の一つに報酬に基づいているというのがある。でも報酬って一体何なんだろうか。現実世界に当てはめた場合は何に相当するのか。例えば、AIBO(本当の犬でもそうだが)が「おりこうな」行動をして頭をなでられたら報酬であり、その「おりこうな」行動が強化されるだろう。これはわかりやすいがもっと一般的に考えると何にあたるんだ。報酬は環境から与えられるというのも何だかあまりぴんとこない。気持ちいいとかうれしいとかいう(報酬にあたりそうなもの)のは人(エージェント)の内部から起きているんじゃないか?外部から与えられても人によって感じ方は違うだろうし。

あと、報酬と教師信号の差もよくわからない。例えば、ロボットが人間の行動をうまく模倣できたら多くの報酬を与えて、あまり似ていなかったらほとんど報酬を与えないと考えたらどうなるんだ?これは教師あり学習になってしまうのではないか。それともきっちり「こう行動しろ!」と指示しているわけではないから教師なし学習か?ここら辺の区別もまだ曖昧である。あまり多くの例を見たわけではないから強化学習の本質がつかめていないかもしれない。