このアルゴリズムの位置づけは下の図のようになっていると思われる。アドバイスあり強化学習のアドバイスはニューラルネットの正解に相当すると思う。ニューラルネットは常に正解を必要とする。一方、アドバイスあり強化学習はニューラルネットに比べてわず…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。