聞きかじりの知識では脳の扁桃核ってところが「好き嫌い」を司っているらしい。報酬の自動設定(強化学習の報酬は人間が設定するのが一般的だが、エージェントが自律的に設定するにはどうすればよいかっていう前に考えたこと)と似ているような気がする。大…
について考えたことのメモ。強化学習の応用にあたっての重要な問題点に学習速度が非常に遅いということがあげられていた。学習が遅い原因として状態・行動対の価値の評価を試行錯誤的に行うからだと認識している。今まで調べてきて学習の高速化に焦点をあて…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。