反応形成（Shaping） - 人工知能に関する断創録

に関する面白いムービーを見つけた（QuickTimeが必要）。

すごくおりこうな鳩だ。実際の動物で強化学習しているの始めてみたので感動した。ここでは、このムービーでやられている反応形成についてメモっとく。

反応形成は、いきなり難しい行動を教える代わりに、最終目標行動までの過程を何段階かにわけて、各段階ごとに強化学習を繰り返すという手法らしい。犬の訓練やいるかの訓練でよく使われているようだ。

強化学習アルゴリズムでも反応形成が応用されている。デフォルトの強化学習のように何の知識もない状況からいきなり難しい行動をとらせようとしても、試行錯誤ではなかなか目標に到達できず、初期学習に膨大な時間がかかる。これは、自分も実感できるところで、最初の1エピソード（初めて目標について報酬を得るまで）に多くの時間がかかっている。この問題を解決するため、最終目標までを何段階かに分けて徐々に学習できるようにしたのが反応形成という手法。サブゴールへの分割という研究もあるのだが、反応形成とやりたいことは同じ（？）だと思われる。

この反応形成をムービーにあるように人間とのインタラクションによってできないかというのが興味のある点。つまり、あらかじめ報酬を決めておかない（つまりタスクを決めておかない）でエージェントとのインタラクションの中でタスク（報酬）を人間が与えるというイメージ。人間の好みの行動をエージェントに形成させられたら面白いと思う。こういう研究が上の分野（Advice-Taking RL、反応形成、対話的進化ロボティクス）でどうやられているのか。