強化学習においての報酬とは現実の何にあたるのかという問題は少し気になる。例えば、強化学習と報酬(2002/11/20)とか報酬の自律生成(2003/2/18)で少し考えていた。強化学習を最適化アルゴリズムの一種と考えればそんなことどうでもよい問題(報酬はタス…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。