強化学習
強化学習の学習法の1つである Sarsa(λ) アルゴリズムを Introduction to Reinforcement learning(リンク切れ)に載っていたプログラムを参考に実装してみた。手元の本にはアルゴリズムが擬似コードで載っているだけなので、細かい実装法で分からないところ…
をプログラムして実験してみた。簡単に言うと、目の前にN本レバーがあるとする。各レバーを引くとお金がもらえるのだが、レバーによってもらえる量にばらつきがある。このとき、どのような方法を取れば最も多くお金がもらえるかという問題。まずとっさに思い…