Creating Advice-Taking Reinforcement Learners
Creating Advice-Taking Reinforcement Learners
強化学習に教示を導入することによって高速化している。ここでの高速化は収束までのエピソード数(状態の知覚、行動、報酬の獲得が1エピソード)の短縮を意味している。
強化学習は知識が全くないところから学習するため学習初期ではランダムな動作しかできず、収束まで膨大なエピソードを必要としているのが1つの欠点となっている。例えば、迷路学習(2005/1/21)でも学習初期はでたらめな動作しかできずゴールにつくまで非常に時間がかかっている。この欠点を改善するため外部の観察者がエージェントにアドバイスを行い収束を早めようというのが趣旨(なんだけどそれ以上の意味がありえる予感)。
価値関数にニューラルネットを用いた従来のQ学習(図の黒部分)にアドバイスを表すユニット(赤部分)を追加。外部の観察者によるアドバイスがエージェントの振る舞いに影響を与えている。この論文では外部の観察者は人間で命題論理をニューラルネットに変換したものをアドバイスとして与えていた。ニューラルネットにこんな形で追加するのは新鮮なので驚いた。