人工知能に関する断創録

このブログでは人工知能のさまざまな分野について調査したことをまとめています(更新停止: 2019年12月31日)

報酬の例2

Skinnerは、特定のクラスの条件性強化子に対して「般性強化子」という用語を使った。おそらく般性強化子の最もよい例はお金であろう。この強化子が、社会で働いている人の行動を維持していることは明白である。もし雇用者が、もう一切給料を払わないと言えば、仕事を続ける人などいないだろう。次のような意味でお金は(非常に強力な)般性強化子の1つである。なぜならそれは、多くの人々を本来的に強化し得るさまざまな刺激(食物、衣類、所有物、娯楽、楽しい休暇)と交換可能だからである。お金は強力な強化子ではあるが、それは他の条件性強化子と同じように、1次性強化子と常に連合していることに依存しているのである。もしお金が、もはや1次性強化子と交換できなくなれば、人々が緑色の紙きれ(ドル紙幣)を得るために一生懸命働くはずがない。

メイザーの学習と行動

ここでは1次性強化子と条件性強化子という言葉が出てくるが、1次性強化子は餌や水、性的快楽や快適さなどの本能的な刺激を指している(と他の部分から読みとれる)。一方、条件性強化子(この例では金)は本来何の意味もないものだが、1次性強化子と結びつくことによって意味を持つ刺激のことと書いてあった。

強化学習アルゴリズムで言うと、1次性強化子は報酬にあたって、条件性強化子は報酬から伝播する価値にあたっていると考えられる。強化学習アルゴリズムでは報酬につながる状態・行動の価値は高くなるから。