人工知能に関する断創録

このブログでは人工知能のさまざまな分野について調査したことをまとめています(更新停止: 2019年12月31日)

報酬の例

強化学習においての報酬とは現実の何にあたるのかという問題は少し気になる。例えば、強化学習と報酬(2002/11/20)とか報酬の自律生成(2003/2/18)で少し考えていた。

強化学習を最適化アルゴリズムの一種と考えればそんなことどうでもよい問題(報酬はタスクの達成状態に対し、設計者が与える実数値でしかない)だが、動物のメカニズムとして強化学習をとらえてた方が100倍面白い。強化学習を最適化アルゴリズムの一種とだけ考えるととたんに興が冷める(ニューラルネット、遺伝的アルゴリズムも同様)。

そんなわけで、『メイザーの学習と行動』に出てくる報酬の例をメモっておく(主に引用だが)。心理学では強化学習ではなくオペラント条件づけ、報酬ではなく強化子と呼ぶようだ。

教室における行動の形成

ある大きな講義で、学生たちがその教授の行動を反応形成するために協力しあったという話は、どこの大学でもよく聞く話である。

(中略)

心理学の入門コースを担当していたある教授が高い教壇から講義をしていた。この講義の学生たちは、教授が少しでも左に動けば強化するように申し合わせていた。彼らが用いた強化子とは、注意深く聴いて、教授の話をあきらかに理解したように頷いたり、ノートを取ることであった。しかし教授が右へ動くたびに彼らは強化を止めた。つまりノートを取るのを止めて、あくびをしたり退屈そうに教室を見回したのである。左への動きに対するこの系統的な強化子の呈示は、非常にうまくいった。言い伝えられるところによると、講義の半ばにその教授は教壇の上から左側に落ちてしまったそうである。

メイザーの学習と行動, p.118

よく聞く話なのか・・・というのはおいておく。ここでは、エージェントは教授。状態は教授の位置。行動は左へ移動、右へ移動。報酬(強化子)を生徒の頷き、ノート取り。教授の左へ行くという行動を強化している。

他の例は今度あげるが、報酬の特徴を考えたい。