2004-01-16から1日間の記事一覧

報酬をエージェントの学習過程で与えるのが難しい理由

強化学習

強化学習における人とエージェントの相互作用（2004/1/14）の続き。Isbellの論文を元にまとめておく。適切な状態空間の選択これは、Cobotの例に限らず強化学習一般に言えると思う。適切に状態を設定しないと学習が収束しないこともある。複数の報酬源と矛…