今までやってきた強化学習は状態数が離散でそんなに多くない場合だったけど、ロボットや実問題で使うときは、状態が連続、あるいは膨大になってしまい、状態を配列 V(s) や Q(s, a) で管理することはできなくなる。状態が連続値や膨大になっても強化学習を使…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。