2003-04-01から1ヶ月間の記事一覧
このアルゴリズムの位置づけは下の図のようになっていると思われる。アドバイスあり強化学習のアドバイスはニューラルネットの正解に相当すると思う。ニューラルネットは常に正解を必要とする。一方、アドバイスあり強化学習はニューラルネットに比べてわず…
Creating Advice-Taking Reinforcement Learners強化学習に教示を導入することによって高速化している。ここでの高速化は収束までのエピソード数(状態の知覚、行動、報酬の獲得が1エピソード)の短縮を意味している。強化学習は知識が全くないところから学…
聞きかじりの知識では脳の扁桃核ってところが「好き嫌い」を司っているらしい。報酬の自動設定(強化学習の報酬は人間が設定するのが一般的だが、エージェントが自律的に設定するにはどうすればよいかっていう前に考えたこと)と似ているような気がする。大…
について考えたことのメモ。強化学習の応用にあたっての重要な問題点に学習速度が非常に遅いということがあげられていた。学習が遅い原因として状態・行動対の価値の評価を試行錯誤的に行うからだと認識している。今まで調べてきて学習の高速化に焦点をあて…