報酬と感情 - 人工知能に関する断創録

強化学習と報酬（2002/11/20）で、

報酬は環境から与えられるというのも何だかあまりぴんとこない。気持ちいいとかうれしいとかいう（報酬にあたりそうなもの）のは人（エージェント）の内部から起きているんじゃないか？外部から与えられても人によって感じ方は違うだろうし。

と書いた。これに関して次のように説明があった。

強化学習の扱い始めの段階では、報酬（学習の目標を定義するもの）がエージェント内ではなくて、環境内で計算されることに驚くことがある。確かに、動物にとっての最終的な目標は、それらの体の内部で生じる計算によって認識される。例えば、食糧、空腹、苦痛、そして快楽のための感覚器である。
強化学習（p.61）

自分もそう思った。例えば、エージェントが満腹の時に報酬として食糧をもらうのと、空腹の時に同じものをもらうのとでは感じ方（価値）は違うだろう。幸福なときに100万円もらうのと、悲しみのどん底でもらう場合にも違うだろう。しかも悲しみの内容によっても違う。破産した場合の100万円と、家族が死んだ場合の100万円でも違う。しかし！強化学習ではこのような差を考慮しない。報酬は外部にあって、エージェントが制御できないものとする（つまり、エージェントの内部状態によって価値を高めることはできない）。

このようにする理由は、エージェントの最終目標が、完全には制御しきれない対象の上にあるからである。例えば、行動を任意に変えるのと同じような方法で報酬が受け取られると決めるべきではない。
強化学習（p.62）

とある。

人（だけに限らないかもしれないが）の場合、報酬の感じ方は感情（まあ、文化、生活背景など様々あるが）と関係しているように思う。感情（ヒトの内部状態）によって、同じ報酬でも感じ方（価値）は違うだろう。感情は完全に制御できず報酬の感じ方を思い通りに制御できないが、ある程度かえることはできる（変えられることに利益はあるか、むしろ人間の欠点かもしれない）。強化学習の簡潔な枠組みにこのようなものを持ち込む必然性はないだろうが、持ち込んだとしたら何か利益はあるだろうか。感情（エージェントの内部状態）によって取るべき行動（つまり方策）を自動的に変えるなんてことは？