アドバイスあり強化学習
このアルゴリズムの位置づけは下の図のようになっていると思われる。
アドバイスあり強化学習のアドバイスはニューラルネットの正解に相当すると思う。ニューラルネットは常に正解を必要とする。一方、アドバイスあり強化学習はニューラルネットに比べてわずかな正解を与えるだけですみ、残りは強化学習の試行錯誤でやってくれる。コンピュータがもっと強力になれば余計な段階だけど今の時点では必要と思われる。
このアルゴリズムの位置づけは下の図のようになっていると思われる。
アドバイスあり強化学習のアドバイスはニューラルネットの正解に相当すると思う。ニューラルネットは常に正解を必要とする。一方、アドバイスあり強化学習はニューラルネットに比べてわずかな正解を与えるだけですみ、残りは強化学習の試行錯誤でやってくれる。コンピュータがもっと強力になれば余計な段階だけど今の時点では必要と思われる。